现在 browser-use ( browser agent )和 Omniparser (computer agent), 都是给 LLM 去识别并操作 UI 界面的能力。
但是将来的场景肯定是就一个 LLM 对话框跟用户交互,通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景。
让用户额外安装 app, 再通过 LLM 去操作手机/电脑上的可视化 UI 界面,完全没有必要了啊。

感谢 lawted 的推荐:《反对对话式界面( LUI )的理由》
这篇文章对比了自然语言和 UI 控件的 [信息传输效率] 方面的差异,对思考交互模式的发展挺有帮助的
英文原版: julian.digital/2025/03/27/the-case-against-conversational-interfaces/
知乎翻译: zhuanlan.zhihu.com/p/1890449038282846235

那你问问美团、滴滴舍不舍得砍掉他们的营销前台呢

要不你先做一个出来,革掉大厂的命?

要是大厂愿意把流量放出来你觉得你手机上还会有这么多 app?

纯视觉 agent 一样可以绕过所有 app 营销内容,难道到时候又要变成爬虫攻防?

这个问题根本就不是技术问题,纯粹是 mcp 和 llm 后续发展能不能让传统厂商低头的商业问题。虽然过程有争议,但是 manus 这种形式目前来看是最不可能的未来方向

OP 你喜欢在点外卖时 AI 一条条语音报给你听然后你花个十分钟听完文字描述的各种美味?再用语音细致地确认要点哪个?

未来马斯克的脑机接口, 谁 tm 还玩手机,直接内置芯片不好吗?
到时候大家上架的都是马斯克的脑机接口商店。

基本上绝大部分手机 app ,未来都可以通过 agent 一句话来搞定

对话框也属于 UI ,我感觉并不适合所有场景,就订餐来说,食物长什么样的,店铺评价如何,要几双筷子,有哪些优惠,如何支付,外卖送到哪了等等,这些信息用自然语言来呈现不一定最佳。还有打车,你如何精确描述你的目的地,以及到哪接你,以及你可接受的价格。

agent 可以显示一个页面来展示菜单,点击就行,不一定非要语音交互

连网页都嫌弃用户可以屏蔽广告,还想做自动化,把自己的命给革了?

理想很美好,这就像 GC 主义的终极目标,是个美好的目标,但是奈何公司和平台之间是要考虑自己利益的,能实现完美的共赢几乎不可能。

你要选择你要点外卖功能,(搜索你想吃的)然后选择店铺,选择你要点的东西,选择收货地址,写备注,这不就是目前 app 在做的事情么?我想不到哪里还可以优化。

你以为的是:

美团,滴滴,把接口交给类 Manus 的 UI Agent ,美团,滴滴药丸。

实际上可能的是:

美团,滴滴,等每个公司搞一个 AI ,UI Agent 。

实际上,这十几年来,资本在干的事情是,把用户从公共互联网,引流到自己的私域( APP ,小程序,网站,平台)。

资本好不容易把用户圈进自己的鱼塘,会轻易让别人抢走?

想多了。

后面会怎么发展,我们静观其变好了。

#12 这是人机交互,不是 APP 那种,一个界面能解决所有问题,页面是 AI 实时写的,直达目标,不需要你点一层一层目录进去,收货地址,支付更是不需要自己动手

想象一下浏览器也是 ai 接口,关闭个 tab 得打字 :close-tab 或说出来。点外卖没比关个 tab 复杂多少,对这种极简场景我是想象不了走命令比直接操作会更高效。直接操作相当于按快捷键,命令相当于当场编程。

我认为,信息压缩也是有极限的,有些东西无论以何种方式呈现,最终还是要呈现,你可以改进压缩算法,但是它的极限就在那,你没办法不说出你的需求,就能得到结果,最多做一些优化(比如常用地址只要选择就可以了,而不用重复输入)。话说,真有人会感觉目前 App 订餐以及打车需要优化么(普通人一天最多也就一两次吧)?

#15 都 AI 了,还用 tab 吗,压根不会用浏览器这种东西了,整个系统只有一个 UI ,就是人机对话 agent ,想要看什么给你显示什么,内容全是为你实时生成的

你要吃什么,在哪个店铺,要点多少数量,收货地址是哪,餐具要多少,有无口味要求(可能一个人吃,也可能几个人吃)这些可以做哪些优化?一个界面呈现所有选项么?

#18 想象一下,大领导有一个美女秘书,到饭点了,秘书会拿个手机让领导亲自点么?

真实场景是: 美女用温柔的声音问领导中午想吃点什么,附近有个素菜馆不错要不要试试,领导说想吃点肉,好,那咱们吃个秘制猪脚饭吧,领导说行吧,一会饭就送来了

推荐阅读 julian.digital/2025/03/27/the-case-against-conversational-interfaces/

这个好,感谢推荐

那个店关门了怎么办,领导一会要去另一栋楼开会要修改一下地址怎么办,领导最近信用卡到期了,要更换支付方式,领导夫人来了,需要多点一些,夫人喜欢吃淡点的,领导除了吃猪脚饭,还能吃什么,总不可能是随便吧,领导想给自己的父母点一些该怎么办。我的核心观点就是,想要精确表达需求,就要有足够的输入,你可以优化输入(比如,最近点过什么,我可以说,就吃上次点的),但是你不能省略输入信息,不然,你得到的结果很可能不是你想要的,各种 UI 都在优化这种输入,比如从常用地址中选择而不需要手动输入地址,你没办法做到不精确描述需求,而想得到一个精确的结果,不然就是开盲盒了(点了什么不知道,送到哪去了不知道,是用美团月付还是用信用卡支付的,不知道,餐具有几套,不知道,我最近牙疼,是不是清淡的,不知道)。

#22 你还是逃离不了现有 APP 思维,你身边有个真人助理了,有什么是人不能解决的?

这得看 AI 跑不跑得赢人机验证。如果人机验证能持续卡住 AI ,那么各大 app 继续限制机器人操作。

最近试了试 browser use + gpt4o ,图形验证码三个网站都没过去。
不可否认的是,现有的图形验证码拦不住有视觉的 UI Agent 只是时间问题了。
但仔细一想,区块链 + 数币 + 网络实名制发展这么久,人机验证发挥的安全作用也许会越来越小

"通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景"
目前这些平台,以及大的品牌有在和手机厂之类的搞此类合作探索
流量怎么分、蛋糕怎么切,应该还没有定论

#5 就一个 ai 的 app ,点外卖的时候直接语音交互,菜单直接返回图片;需要深入了解,可以直接语音交互,或者看图片。不会有各种各样的乱七八糟的 app——因为一个 app 就够了

#5 如果你觉得 AI 是这个样子,那你的想象力确实很匮乏。

参考现在 chatGPT 的语音交互能力。以 AI 外卖为例子,你只需要告诉 AI 你需要一份外卖,AI 可能会按照如:
1 、现在时刻决定早餐午餐晚餐
2 、你的历史订单决定口味偏好。
3 、你的历史订单金额决定价格区间。
4 、你的地理位置周边好评/健康/举例等你关注你的条件。
4 、其它如时令食物,近期其它来源(如淘宝搜过腊肠等)偏好。
5 、你的其它指令:如今天想吃面食为主的外卖,今天发工资想吃一顿好的外卖等信息。

得到精准的结果让你选择。且只播报餐品和价格,3-5 个可选项,太少不行,太多也不行。
你需要做的,只是通过生物识别(脸部,声纹等)确认信息和授权支付。
没有复杂需求时,整个交互过程可以在 1 分钟内完成。对于饮食习惯这要的需求,其实 AI 比你更了解你。

不要觉得 AI 是生成你需要的内容。你要认为 AI 是帮你过滤你不需要的内容。

#26 本质上只有一个问题——比如某个某团、某滴跟了 mcp 的模式,美团、滴滴你跟不跟。整个营销前台几乎都可以直接砍掉,这效率的提升、成本的节省就不少

牛逼了,比本人还懂,终级管家全面接管是吧,能发展到把工作和活着也接管了就最好了,本人只负责吃和睡

在浏览完餐单前 你怎么知道你想吃什么

非常同意。

你这不是要改变 APP 啊,大胆点,直接放弃手机吧