这两天在琢磨 PowerPC G4 和 6502 ,分别问了 ChatGPT 两个汇编语言的问题,AI 都没有回答正确,而且存在比较严重的似是而非。分析了一下原因,PowerPC G4 在网上的公开资料很少,而 6502 的资料虽然多,但是它有一些 Gotcha (比如说光是寻址模式就有 13 种)。
问题具体就不说了,实在是有点长,而且估计也是大家没啥兴趣的东西。只能说,更加坚定了以后往底层走的信心。
相比之下,笔者的本职工作是数据工程,无论是写 SQL 还是写 Pyspark 、Scala ,AI 除了优化一般之外,基本上都能胜任。我相信如果能够把公司的所有代码都导入进模型的话,可以代替本人 75%的工作。

为嘛你们都在担心被 AI 替代掉?在此之前我已经被卷卷的同行人类替代掉了。

拿特定硬件架构的知识和案例, 做 RAG 场景或者微调特定模型就行了;
这个属于 AI 工程解决的手段,并不是说通用基线大模型或者 AI 不支持,就没用了。毕竟预训练通用大模型并不一定拿得到你这个工作领域的私域知识。但是真要做,也不是不行, 看成本了。

其实资料少的,AI 都不擅长。AI 只擅长有一堆资料的各种技术。

AI 比较容易搞定从青鸟/达内/蓝翔/etc 出来的转码程序员所从事的工作。

#1

呃,其实我无所谓,反正四十多了大不了再做几年不做了。撑到五十就算胜利。我只是紧跟论坛的最新潮流谈一谈想法。

#2

我同意,但是有些资料真不好找。我觉得没人会去到处搜集 PPC g4 的资料。。。当然现在也没这个需求。

#3
我感觉是一种比较强的搜索引擎。当然只是我的直觉。我对 LLM 的原理并不懂。

AI 目前只能解决不精确的工程类问题,比如前端怎么画、爬虫怎么写等。

无非就是没啥资料,没有上下文这样子,有的话就问题不大

就好比你现在去问任何一个非电脑专业的大学教授,你看他能回答你这个什么 PowerPC G4 和 6502 的问题不。。。

正常啊,因为它没怎么学过,就只能瞎猜

你用 RAG 扔几个 PowerPC G4 和 6502 的操作手册,你看它会不会。

现在模型强的是推理(虽然比各位精英还是差一点🐶,但是强于大部分普通人)


我最近在自定义 DSL ,只要你把 DSL 定义文件给它,它也能写你规定的 DSL 。

你得把相关资料输入进去后才有可能回答的出,ai 的知识也不是凭空捏造的,需要关联内容训练过

你举的这两个例子,能从书本中得到知识不,如果可以,那 AI 学会也只是时间问题

语料太少还没办法总结出有效规律吧。

AI 写的最好的是 Python 和 JavaScript 你猜是为什么

确实,公开资料少的都不太能正确解答。

我在使用 verilog 实现 double dabble 算法的时候,有不太理解的地方,AI 对此无能为力。

但是单纯问 verilog 的语法反馈还是可以的。

还不能凭空捏造,需要先学习才可以

但问题是你可以学习,掌握这种知识,只要 AI 也学了,那么。

AI 毕竟也不能凭空捏造,如果 AI 没有这块的垂直资料的学习,估计很难,换成一个行家,如果没有这块资料的输入,估计行家只回答不出来。本质上还是资料困难的问题。

自己训练一个模型,喂你们的内部文档之类的东西,多喂点,效果就好起来了

#8 我们的经验是,AI 可以搜近似,但不能做否定。

把这玩意当成一个搜索引擎就好了,网上都少有的东西,他自然也没什么举一反三的能力。。

同感, 呈现出来的只是针对人类语言文字 最大概率的字符序列化预测

用不着汇编底层,问稍微偏门点的就开始瞎编函数接口了

和人一样问的多了自然也会了

理论上能做,但这种太小众的领域 roi 估计不划算

我问 chatgpt 开发问题,他经常言之凿凿地给个结论,然后像模像样地给一大段分析。
然后我实验一遍发现不对,细看一遍发现疑点之后问他,“你分析的 xxx 这个地方是不是有问题?”
然后他又非常干脆地承认错误:“你是对的! xxx 应该是这么这么写,原因如下……”又给出一大段分析。

不只是硬件,只要是细分领域的东西 ai 都不擅长

ai 是训练出来的,硬件类的本来资料就少,训练的也少。

#26 你这种其实是典型的错误用法,你都明确知道哪里有问题了,就应该直接给它找到相关文档之类更明确的信息,并且附上可能有的报错日志之类的,把充足的信息丢给它,再让它修复;而不是“你这个地方是不是有问题?”,这么做大概率会继续得到错误的结果

我问你,40 个月以前那时候,你有没有想到就这么一段时间 AI 就可以狂刷 LeetCode 了?

我就是做底层的,AI 以后可能真的永远也不能解决底层细节问题,但是以固定静态视角看问题的思路也是真的不可取。

#30 主要我开始也不知道他有问题,只是按他的答案实验之后发现不对,才去仔细研究他给的代码的。我本来也怀疑是不是我想的对不对,只是问了一下它,它就立马改正说他前边说的不对了。
虽说作为一个 AI ,勇于改错的态度很好吧,但是他前后给出两个不同回答时的语气,都是很笃定的,中间认错又是很干脆的,给人一种反差感😂。

你这个有点像之前说中国工业差,造不出圆珠笔珠子

那是你这个行业还没什么价值。或者说卷到最后,可能随便谁顺手整理了下资料就把你们秒了

应该是训练资料少的问题,我之前写一个游戏 mod ,也是一样的,完全不可用,全是幻觉

#31 你可以试着引导 AI“你说的确实是对的,但是 xxxx 出了问题”看看,你就会发现它的回答主要取决于你说了什么,而不是它真的“思考”了

#11
的确,给定义写解释器也很溜。

#13
还是得懂行的人去喂才行。目前这么做的人大概只有玩 retro computing 的同好了。其实我后来找到好几本书,但是如果没做过 Power Mac 的开发可能就真不确定到底是不是我要的。毕竟 PPC 现在还在用,但是和我手头的 g4 差别很大。

#14
不知道为什么我提醒了多次是 MacOSX 他还是坚持写 Linux 。

#16
对,语法还可以,不过碰到汇编这种换一个架构,换一种表达格式就不一样的,还是有困难。

#31

你说的也有道理。大概有人去喂就会好很多。

用 Gemini 把数据手册全部为进去再问问看

所有闭源的东西,特别是苹果的东西,AI 都不好使。你问 ARM 处理器相关的内容,AI 一般回答都没有毛病;你问苹果定制的和 ARM 相关的东西,比如 KTRR ,深入一点 AI 就只会给你车轱辘话或者糊弄你。我已经试过关于 Secure Enclave 里面运行的那个 SepOS 相关问题了,还有苹果的 kext 扩展相关的,AI 都不好使。

这个世界规律是:你对抗什么,你就会成为对抗的反面
你仇视富人,你就会成为穷人
你鄙视年轻人,你就会变老人
你逃避 AI ,你就会被 AI 替代

AI 这么好的东西,干嘛不去拥抱呢,跟 AI 一起淘汰哪些不愿意用 AI 的人啊

这个确实我之前闲暇时间做 gba 模拟器,然后具体的底层相关的 他都回答的答非所问

#43
我的确是积极使用 AI ,只不过是在试探他的极限。下一步我要计算一下,是走月计划划算还是 api 划算。一个月 30 刀的确也不贵就是了。

#44
居然 z80 这么大路的处理器也不行?好吧我承认是改过的 z80 。

#42
我理解 AI ,我也不知道这些是什么,哈哈哈,大佬研究的比较深入?

你这个问题我可以来回答😆
我们团队工作和芯片强相关,chatgpt 这种外部工具因为语料的原因根本就不可用。今年拉着相关的同事再摇了一些深度学习相关部门的外援,搭了一套自用的 RAG ,模型用的是开源的,各种内部才有的 FS Datasheet 喂进去然后稍微做了一下调参,再量化了一些特征来提速,现在基本上做到了纯小白入职,也有一个熟读各种协议和设计的 LLM 来当老师了😁

你觉得 gpt 没法回答的核心原因不是模型问题,而是语料不可获取导致的,你可以找一下能做知识蒸馏的平台,多导入几本文档再试试,有奇效

AI 学的都是 github 上的东西,你如果 github 都搜不到那 ai 也学不到什么

智能的本质是概率学。

但是人类的智能是能持续学习的概率学。

而现代 AI 则是无法持续学习的概率学,它的知识体系永远停留在某一个时间点。所以,楼主可以考虑让它能够持续学习,这样它就能解决特定未知领域的问题了。

我怎么感觉越是硬件底层越完蛋,只要有足够的语料。越是靠近底层的东西越是大道至简

AI 刚火起来的时候有种说法是可以用 AI 设计芯片,左脚踩右脚上天

#48
多谢,明白了,看来的确是资料不足。

cursor 就有喂文档的功能,可以试一试对一些小众问题,喂文档前后的差异有多大。

互联网上相关数据不足导致 LLM 对有些问题的 0-shot 能力很弱,但只要稍微做下 RAG ,就能得到大幅度的提升。

实际上我认为可以直接这么说:一个人类简单看一看文档能解决的问题,给 LLM 喂一下文档和 prompt 基本上也能解决。

目前的 ai 并不能创造一个新的事物,本质上是对已有事物的糅合拼接,所以说他的知识范围是不会超过其语料的

我基本上可以确认,与爱情软硬件紧密联系的具体操作是 AI 所不擅长的
不给草 0 分

在这地方他学得少,太小众了