感觉一些人对 claude 3.7 sonnet 有误解,以为是编程领域最强的模型。
其实只是“某种意义”上的最强。编程分两种,一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域,用朴实无华的编程技能,把整个页面写完善,出成品,这是 claude 3.7 的强项。
另一种编程领域,是竞赛制编程,和数学推理能力很接近,在这一点上 o3-mini-high 要明显强过 claude 3.7 ,所以 claude 3.7 编程专项领域的跑分,看起来并不算太亮眼。
下图是最新的编程竞赛跑分,3.7 连 deepseek r1 都没能打过,实在很遗憾。但是论项目开发,claude 3.7 舍我其谁!
嗯,都是牛马,谁关心竞赛制编程。所以 claude 3.7 他就是编程领域最强
找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的
- 提示词对输出的提升 可能 更重要
还是根据自我感觉来吧 benchmark 都是玩具 定向微调数据+蒸馏 能让 8b 跑上某个榜的前几
claude 后端不行,写个三缓冲都写不明白
chatgpt 排名强,体验拉
可拉到吧
claude 能理解我要什么 谁关心跑分 甚至上边的图我都不愿意点开 其他的差太远太远 根本不值得一比claude 3.7 sonnet 是身边统计学最强,op 发的这个是真的统计学吧,哈哈哈哈
都说 Claude 强 之前没啥感觉 直到我拿 C 写了个内存泄漏 一千来行代码 丫直接给我准确定位并解决了
claude 在 Cursor 里面还好吧,能够一次对话调用多个工具。不知道是 Cursor 包装出来的,还是原生支持。
别的不说,cursor 默认 claude 就说明了很多,专门做编程领域的,肯定调研测试了很多才做的模型选择。
livebench.ai/
claude 上下文 200k token
deepseek 64K token
这还比啥编程领域, 长上下文明显更有优势我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码,用脚投票而不是某种跑分,
不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好,包括但不仅限于特定领域的文本生成,SVG 绘图生成,复杂任务理解和操作等等。
我不关心什么跑分,我只关心谁用的顺手
懂了 claude 3.7 最强
数学和推理 Grok3 目前最强, 代码 Claude3.7 最强.
可以反驳,但我不接受.
"竞赛制编程"有什么明显的不同和特点?这么牛🐂
寫代碼確實是 Claude 3.7 最強
奥林匹克信息竞赛题和实际的编程问题真不是一样的东西,虽然都叫做程序
所以你整天竞赛还是整天 CURD ?
抓 bug 我感觉几个主流模型都非常强
3.7 本身不是推理模型,做题肯定不如推理模型强,但是别忘了还有个 3.7-thinking
这模型代码能力行不行,我们这些天天写前端的人还不清楚么?我用了三年 GPT-4 ,显卡烧穿了,经费花空了,现在好不容易等来 claude3.7 ,可你们非说这是人工智障!
这下跑分的尴尬之处就体现出来了
大家真正都在用的东西,谁更好用不是跑分能体现的
反正对于我这个 CRUD Boy 来说,Cursor 的 claude 3.7 已经足够我搬砖了。
编程排名目前只认 aider.chat/docs/leaderboards/
Exercism Hard 题 + 多语言综合测试,得出来的结果可以说是最接近实际情况的,有效防止小模型刷榜。
所以,你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。
你嫌别的榜不靠谱,那你给的这个榜就很真实客观吗?
两个 32B 的小模型能领先于 DeepSeek-R1 671b ,7B 的小模型能跟 o1-mini 不相上下,榜上的 3.7 也不知道是开了推理的还是没开推理的
刷榜单没意思呀,前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分,也没啥用呀
你还记得“软件真的好难做”中的那个有意思的例子吗?那个例子告诉我们软件开发中假设可能会是致命的事。今天,我又在StackOverflow上看到一个关于时间的问题——为什么192…
总算是用上 gnome 40 了 短期支持版,折腾了没意思啊感觉 fedora 半年前就 gnome 40 了 搞上 非 LTS 也就是刷存在感的 明年上半年的 2…
本人是 r-nacos 作者,在完成 rust 重写 nacos 服务主体功能后,最近在计划用 rust 重写 xxl-job 服务。 本人在写服务端前习惯写个客户端,方便深入…