类 Manus 的 UI Agent 完全是个伪需求，前端已经没活路了

现在 browser-use （ browser agent ）和 Omniparser (computer agent), 都是给 LLM 去识别并操作 UI 界面的能力。
但是将来的场景肯定是就一个 LLM 对话框跟用户交互，通过 MCP 直接调用美团、滴滴的后台接口，就可以完成订餐、打车、购票等高频场景。
让用户额外安装 app, 再通过 LLM 去操作手机/电脑上的可视化 UI 界面，完全没有必要了啊。

感谢 lawted 的推荐：《反对对话式界面（ LUI ）的理由》
这篇文章对比了自然语言和 UI 控件的 [信息传输效率] 方面的差异，对思考交互模式的发展挺有帮助的
英文原版： julian.digital/2025/03/27/the-case-against-conversational-interfaces/
知乎翻译： zhuanlan.zhihu.com/p/1890449038282846235

那你问问美团、滴滴舍不舍得砍掉他们的营销前台呢

要不你先做一个出来，革掉大厂的命？

要是大厂愿意把流量放出来你觉得你手机上还会有这么多 app?

纯视觉 agent 一样可以绕过所有 app 营销内容，难道到时候又要变成爬虫攻防？

这个问题根本就不是技术问题，纯粹是 mcp 和 llm 后续发展能不能让传统厂商低头的商业问题。虽然过程有争议，但是 manus 这种形式目前来看是最不可能的未来方向

OP 你喜欢在点外卖时 AI 一条条语音报给你听然后你花个十分钟听完文字描述的各种美味？再用语音细致地确认要点哪个？

未来马斯克的脑机接口，谁 tm 还玩手机，直接内置芯片不好吗？
到时候大家上架的都是马斯克的脑机接口商店。

基本上绝大部分手机 app ，未来都可以通过 agent 一句话来搞定

对话框也属于 UI ，我感觉并不适合所有场景，就订餐来说，食物长什么样的，店铺评价如何，要几双筷子，有哪些优惠，如何支付，外卖送到哪了等等，这些信息用自然语言来呈现不一定最佳。还有打车，你如何精确描述你的目的地，以及到哪接你，以及你可接受的价格。

agent 可以显示一个页面来展示菜单，点击就行，不一定非要语音交互

连网页都嫌弃用户可以屏蔽广告，还想做自动化，把自己的命给革了？

理想很美好，这就像 GC 主义的终极目标，是个美好的目标，但是奈何公司和平台之间是要考虑自己利益的，能实现完美的共赢几乎不可能。

你要选择你要点外卖功能，（搜索你想吃的）然后选择店铺，选择你要点的东西，选择收货地址，写备注，这不就是目前 app 在做的事情么？我想不到哪里还可以优化。

你以为的是：

美团，滴滴，把接口交给类 Manus 的 UI Agent ，美团，滴滴药丸。

实际上可能的是：

美团，滴滴，等每个公司搞一个 AI ，UI Agent 。

实际上，这十几年来，资本在干的事情是，把用户从公共互联网，引流到自己的私域（ APP ，小程序，网站，平台）。

资本好不容易把用户圈进自己的鱼塘，会轻易让别人抢走？

想多了。

后面会怎么发展，我们静观其变好了。

＃12 这是人机交互，不是 APP 那种，一个界面能解决所有问题，页面是 AI 实时写的，直达目标，不需要你点一层一层目录进去，收货地址，支付更是不需要自己动手

想象一下浏览器也是 ai 接口，关闭个 tab 得打字 :close-tab 或说出来。点外卖没比关个 tab 复杂多少，对这种极简场景我是想象不了走命令比直接操作会更高效。直接操作相当于按快捷键，命令相当于当场编程。

我认为，信息压缩也是有极限的，有些东西无论以何种方式呈现，最终还是要呈现，你可以改进压缩算法，但是它的极限就在那，你没办法不说出你的需求，就能得到结果，最多做一些优化（比如常用地址只要选择就可以了，而不用重复输入）。话说，真有人会感觉目前 App 订餐以及打车需要优化么(普通人一天最多也就一两次吧）？

＃15 都 AI 了，还用 tab 吗，压根不会用浏览器这种东西了，整个系统只有一个 UI ，就是人机对话 agent ，想要看什么给你显示什么，内容全是为你实时生成的

你要吃什么，在哪个店铺，要点多少数量，收货地址是哪，餐具要多少，有无口味要求（可能一个人吃，也可能几个人吃）这些可以做哪些优化？一个界面呈现所有选项么？

＃18 想象一下，大领导有一个美女秘书，到饭点了，秘书会拿个手机让领导亲自点么？

真实场景是: 美女用温柔的声音问领导中午想吃点什么，附近有个素菜馆不错要不要试试，领导说想吃点肉，好，那咱们吃个秘制猪脚饭吧，领导说行吧，一会饭就送来了

推荐阅读 julian.digital/2025/03/27/the-case-against-conversational-interfaces/

这个好，感谢推荐

那个店关门了怎么办，领导一会要去另一栋楼开会要修改一下地址怎么办，领导最近信用卡到期了，要更换支付方式，领导夫人来了，需要多点一些，夫人喜欢吃淡点的，领导除了吃猪脚饭，还能吃什么，总不可能是随便吧，领导想给自己的父母点一些该怎么办。我的核心观点就是，想要精确表达需求，就要有足够的输入，你可以优化输入（比如，最近点过什么，我可以说，就吃上次点的），但是你不能省略输入信息，不然，你得到的结果很可能不是你想要的，各种 UI 都在优化这种输入，比如从常用地址中选择而不需要手动输入地址，你没办法做到不精确描述需求，而想得到一个精确的结果，不然就是开盲盒了（点了什么不知道，送到哪去了不知道，是用美团月付还是用信用卡支付的，不知道，餐具有几套，不知道，我最近牙疼，是不是清淡的，不知道）。

＃22 你还是逃离不了现有 APP 思维，你身边有个真人助理了，有什么是人不能解决的？

这得看 AI 跑不跑得赢人机验证。如果人机验证能持续卡住 AI ，那么各大 app 继续限制机器人操作。

最近试了试 browser use + gpt4o ，图形验证码三个网站都没过去。
不可否认的是，现有的图形验证码拦不住有视觉的 UI Agent 只是时间问题了。
但仔细一想，区块链 + 数币 + 网络实名制发展这么久，人机验证发挥的安全作用也许会越来越小

"通过 MCP 直接调用美团、滴滴的后台接口，就可以完成订餐、打车、购票等高频场景"
目前这些平台，以及大的品牌有在和手机厂之类的搞此类合作探索
流量怎么分、蛋糕怎么切，应该还没有定论

＃5 就一个 ai 的 app ，点外卖的时候直接语音交互，菜单直接返回图片；需要深入了解，可以直接语音交互，或者看图片。不会有各种各样的乱七八糟的 app——因为一个 app 就够了

＃5 如果你觉得 AI 是这个样子，那你的想象力确实很匮乏。

参考现在 chatGPT 的语音交互能力。以 AI 外卖为例子，你只需要告诉 AI 你需要一份外卖，AI 可能会按照如：
1 、现在时刻决定早餐午餐晚餐
2 、你的历史订单决定口味偏好。
3 、你的历史订单金额决定价格区间。
4 、你的地理位置周边好评/健康/举例等你关注你的条件。
4 、其它如时令食物，近期其它来源（如淘宝搜过腊肠等）偏好。
5 、你的其它指令：如今天想吃面食为主的外卖，今天发工资想吃一顿好的外卖等信息。

得到精准的结果让你选择。且只播报餐品和价格，3-5 个可选项，太少不行，太多也不行。
你需要做的，只是通过生物识别（脸部，声纹等）确认信息和授权支付。
没有复杂需求时，整个交互过程可以在 1 分钟内完成。对于饮食习惯这要的需求，其实 AI 比你更了解你。

不要觉得 AI 是生成你需要的内容。你要认为 AI 是帮你过滤你不需要的内容。

＃26 本质上只有一个问题——比如某个某团、某滴跟了 mcp 的模式，美团、滴滴你跟不跟。整个营销前台几乎都可以直接砍掉，这效率的提升、成本的节省就不少

牛逼了，比本人还懂，终级管家全面接管是吧，能发展到把工作和活着也接管了就最好了，本人只负责吃和睡

在浏览完餐单前你怎么知道你想吃什么

非常同意。

你这不是要改变 APP 啊，大胆点，直接放弃手机吧

合速度

类 Manus 的 UI Agent 完全是个伪需求，前端已经没活路了

近期文章

热门推荐