please sort unity event by their execution order:
Start Awake OnPointerDown OnBeginDrag OnDrag OnEndDrag OnPointerUp

正确的顺序 OnPointerUp 在 OnEndDrag 之前,所有 AI 不联网都按照问题里错误的顺序胡编 OnEndDrag > OnPointerUp ,我测试了好几遍都这样
但是如果把问题改成
please sort unity event by their execution order:
Start Awake OnPointerDown OnBeginDrag OnDrag OnPointerUp OnEndDrag

(用正确的顺序提问)
除了 Claude 3.5 Sonnet 还在坚持 OnEndDrag > OnPointerUp ,还详细胡编了一个解释
其它 AI 都能答对
在 Unity 里不管代码顺序怎么样,OnPointerUp 始终比 OnEndDrag 先调用
另外我还测试了把 OnBeginDrag 写错成 OnDragBegin ,OnEndDrag 写成 OnDragEnd ,只有推特的 Grok 发现了问题,别的 AI 全都按错误的事件名在回复,完全没有怀疑

回答原文截图贴在了 8 楼

另外第一次测试,Claude 3.5 Sonnet 还胡编了 Start > Awake ( Awake 一定比 Start 先)
重新提问没复现

那联网的能答对吗?

联网的全答对了,因为 Google 能搜到现成答案

因为 LLM 本身并没有思考能力,只能模仿训练集里见过的模式来输出概率比较高的 token

其实发展到目前这个水平,有无思考能力的界限已经模糊了。人脑不也是一个大型神经网络模型吗。

正常,因为训练的时候没有摄入相关的资料。行为上只能被迫玄学。

人的记忆不也是如此吗?

Claude 聊天记录

只有 Grok 发现我写错的事件名

Gemini 表现和 GPT4 差不多

还是有点区别的,虽然语言能力和思考能力有交集,但是 LLM 的输出更像是张嘴就来,训练集里没见过的内容就很容易出错。但是人还有更高层次的分析能力,目前的 COT 手段也很难实现同等的效果

LLM 本身并不能区分学到的信息是对的还是错的,目前没有办法制作出“不含错误信息”的训练数据

还有个更简单的, 离散数学真值表, 在线 AI 都答不对.

其实和人没啥区别,“人还有更高层次的分析能力”只不过是人接受的训练集多而已。。。让小学生来回答这个问题,还强制他不能回答不会,必须回答,那他也只能胡言乱语

一个智商 200 的人,如果他没有见过 unity event ,他也回答不上这个问题。

这属于小众领域的专业事实,大语言模型干不过 Google 。

在使用大语言模型时,我通常会给出这个事实,或者搜索出来告诉它。如果它的回答中有一些这样的事实,我还会用 Google 检查。

大语言模型会认为我总是对的,当大语言模型表现不佳的时候,我会想我有没有误导它,或者这个问题不属于大语言模型可以解决的。

对抗幻觉,澄清目标,让大语言模型往我们的方向走。

但是一个智商 200 的人遇到这样的问题应该会说不会或者知道要联网查,而不是乱编一个答案

你说得对,目前大模型最关键的问题就是面对不熟悉的问题,会瞎编而不是说不知道

为什么 AI 看起来那么普通,却那么自信?

(我开玩笑的,以后 AI 统治人类之后请不要因为这句话清算我)

不能依赖 llm 的答案,需要自己辨别和踩坑, 越新越小众的问题,越容易瞎编

游戏这样的小众问题就是这样的。打开 web search 然后强调“Search the Unity docs if you are not sure”。其实 Claude 在冷门知识这方面已经是相对最好的了,不开联网搜索我用过的其他 AI 都 hallucinate 更多。

一个智商 200 的人遇到这样的问题应该会说不会或者知道要联网查,而不是乱编一个答案
  1. 如果人不会吹牛(胡说八道),那谣言是怎么来的?事实上人类社会谣言满天飞,不懂装懂、故弄玄虚、添油加醋才是常态。
  2. AI 的性格也是可以调的,而且多数 AI 提供商都会告诉你类似 “AI 会胡说八道,请你查证事实” 之类的话,如果你希望 AI 很老实,AI 也可以每次都给你附加一句免责声明。

    想想你在过去考试的时候填空,有时你也会对你记忆深信不疑,但实际是模糊了错误的答案。

Hinton 就讨论过这个问题,人回忆时并不是从某个地方直接读取记录,记忆实际是分散的,回忆实际上是个重建和生成的过程,和 LLM 非常相似。人的回忆存在虚构,对应的 LLM 存在幻觉,只是 LLM 幻觉现象目前更严重。

现在 ai 的 底层就是这么个逻辑呀,知识图谱,检索增强 就是为了解决垂直领域瞎扯淡 的问题提出来的解决方案。

人脑也是差不多, 可以了解一下对经过裂脑手术(胼胝体切开术, 切断左右脑连接)的人相关研究

人脑的语言中枢在左脑, 如果将信息只输入给左脑,
人的回答也会发生类似目前 LLM 的幻觉现象, 一本正经的胡说八道.

因为这些模型只是大语言模型,语言之外的东西本身就是他能力之外的,没训练到的东西他都会胡说八道。因为计算机语言也是“语言”,所以已经不错了,让人会误会它已经很智能了。但是你问他点更容易的娱乐业问题,比如让他给你推荐点最新的游戏,答案基本是没眼看的。

大模型只是个工具。任何工具(甚至任何人)都可能在一方面表现不好、在另一方面表现不好(即使这个方面在另一个工具/人看来只是 easy 级别的)。

而使用工具最高效的方式,就是将其应用在它最擅长的方面,而不是质问这个工具为什么做不好它不擅长的方面。

大模型不是检索知识再输出,而是预测生成,生成出来的答案准确只是因为有了大量的事实训练样本。