其实只是“某种意义”上的最强。编程分两种,一种是 CURD 工程化,也就是 claude 3.7 sonnet 擅长的领域,用朴实无华的编程技能,把整个页面写完善,出成品,这是 claude 3.7 的强项。

另一种编程领域,是竞赛制编程,和数学推理能力很接近,在这一点上 o3-mini-high 要明显强过 claude 3.7 ,所以 claude 3.7 编程专项领域的跑分,看起来并不算太亮眼。

下图是最新的编程竞赛跑分,3.7 连 deepseek r1 都没能打过,实在很遗憾。但是论项目开发,claude 3.7 舍我其谁!

嗯,都是牛马,谁关心竞赛制编程。所以 claude 3.7 他就是编程领域最强

找顺手的模型就好了. 没必要必须选最好的. 未来每个公司的模型 taste 都不一样.肯定会细分的

  1. 提示词对输出的提升 可能 更重要
  2. 还是根据自我感觉来吧 benchmark 都是玩具 定向微调数据+蒸馏 能让 8b 跑上某个榜的前几

    claude 后端不行,写个三缓冲都写不明白

    chatgpt 排名强,体验拉

    可拉到吧
    claude 能理解我要什么 谁关心跑分 甚至上边的图我都不愿意点开 其他的差太远太远 根本不值得一比

    claude 3.7 sonnet 是身边统计学最强,op 发的这个是真的统计学吧,哈哈哈哈

    都说 Claude 强 之前没啥感觉 直到我拿 C 写了个内存泄漏 一千来行代码 丫直接给我准确定位并解决了

    claude 在 Cursor 里面还好吧,能够一次对话调用多个工具。不知道是 Cursor 包装出来的,还是原生支持。

    别的不说,cursor 默认 claude 就说明了很多,专门做编程领域的,肯定调研测试了很多才做的模型选择。

    livebench.ai/

    claude 上下文 200k token
    deepseek 64K token
    这还比啥编程领域, 长上下文明显更有优势

    我们在意的是在 AI 编辑器领域哪个模型配合编辑器最能实现用户想要的效果和代码,用脚投票而不是某种跑分,

    不仅写代码。我实测下来很多任务 claude 3.7 的表现都很好,包括但不仅限于特定领域的文本生成,SVG 绘图生成,复杂任务理解和操作等等。

    我不关心什么跑分,我只关心谁用的顺手

    懂了 claude 3.7 最强

    数学和推理 Grok3 目前最强, 代码 Claude3.7 最强.
    可以反驳,但我不接受.
    "竞赛制编程"有什么明显的不同和特点?

    这么牛🐂

    寫代碼確實是 Claude 3.7 最強

    奥林匹克信息竞赛题和实际的编程问题真不是一样的东西,虽然都叫做程序

    所以你整天竞赛还是整天 CURD ?

    抓 bug 我感觉几个主流模型都非常强

    3.7 本身不是推理模型,做题肯定不如推理模型强,但是别忘了还有个 3.7-thinking

    这模型代码能力行不行,我们这些天天写前端的人还不清楚么?我用了三年 GPT-4 ,显卡烧穿了,经费花空了,现在好不容易等来 claude3.7 ,可你们非说这是人工智障!

    这下跑分的尴尬之处就体现出来了

大家真正都在用的东西,谁更好用不是跑分能体现的

反正对于我这个 CRUD Boy 来说,Cursor 的 claude 3.7 已经足够我搬砖了。

编程排名目前只认 aider.chat/docs/leaderboards/

Exercism Hard 题 + 多语言综合测试,得出来的结果可以说是最接近实际情况的,有效防止小模型刷榜。

所以,你的预期是大家用 claude 3.7 sonnet 是为了用来参加编程竞赛的。

你嫌别的榜不靠谱,那你给的这个榜就很真实客观吗?
两个 32B 的小模型能领先于 DeepSeek-R1 671b ,7B 的小模型能跟 o1-mini 不相上下,榜上的 3.7 也不知道是开了推理的还是没开推理的

刷榜单没意思呀,前段时间有人使用 R1 的训练策略猛猛刷 match 的一个得分,也没啥用呀