Gemini 大概是所有 LLM 里最能张口就来的,把不存在的功能文档、示例代码都编得非常详细,还非常嘴硬,为什么排名能这么高
Avalonia 群里看到的聊天记录,用的是 02-05 模型,红字批注是我加的
我尝试复现了但没他这个离谱,就用他的图了,但我测试出来的结果也是全瞎扯的,没有一行代码能用
这种不是特别热门的 UI 框架的问题所有 AI 都答不好,但能答成这样也是我没想到的
追问继续编
连示例代码都有
可惜没一个能用
提出疑问后 “非常确定”
还详细编出了排查方案
连原因都给你编的清清楚楚
第一个链接不知道哪找的废弃域名,里面的链接全是 404
源代码我也搜了,连 Camera 都没有
最能扯淡的就是 gemini ,早就避而远之
更难泵是竟然还有人推(吹)
我用这个问题测试了 Claude Sonnet 和 GPT 4o ( Plus 刚到期不想续了,感觉 o3 也差不多)也都在混入其它 UI 框架的代码,但没有像 Gemini 这么离谱完全无中生有连游戏引擎的功能都搬过来了,还能把全套证据都编出来
但代码类本来就算是 Gemini 的弱项,排名不高啊。。 看起来现在代码类仍然是 Sonnet 3.5 最好用?
比如 webdev ? web.lmarena.ai/leaderboard
Gemini 属于日常用着方便
决定怎么用工具的是你,比如你可以把文档提供给它
因为猜测文本本来就是 LLM 的作用,编得看起来很合理并不奇怪。
另外 Gemini 在英文和非英文下的差距比较大,代码任务用英文 Prompt 效果会好上不少
另外问特定的代码库如果没有 RAG 或者联网的 Tools Use ,受限于训练集,本来就可能导致效果不佳
本质上 LLM 的任务是 对你给定的输入,生成输出字符串,使得输出字符串尽可能像人类的回应。
而 GPT 就不一样了,GPT 属于是冥顽不化
实测目前在编程领域最好的还是 claude ,就算不会也不会瞎说。
LLM 的常见问题,幻觉严重。开了 Grounding with Google Search 的话会好一些
对于一些小众的代码也信誓旦旦的幻觉,发现不对要验证只能看源码
感觉可能用于训练的中文语料较差,某次 Gemini 给的代码中居然有中文变量名和函数名,虽然也不是不能运行吧……
Gemini 代码的确不太行,代码还是 Claude 最强
代码类型的问题, 把模型温度控制在 0.5 以下再试试
Quote from 知乎:
当模型的「温度」较高时(如 0.8 、1 或更高),模型会更倾向于从较多样且不同的词汇中选择,这使得生成的文本风险性更高、创意性更强,但也可能产生更多的错误和不连贯之处。而当「温度」较低时(如 0.2 、0.3 等),模型主要会从具有较高概率的词汇中选择,从而产生更平稳、更连贯的文本。但此时,生成的文本可能会显得过于保守和重复。
Quote from Deepseek:
Temperature 设置
temperature 参数默认为 1.0 。
我们建议您根据如下表格,按使用场景设置 temperature 。
场景 温度
代码生成/数学解题 0.0
数据抽取/分析 1.0
通用对话 1.3
翻译 1.3
创意类写作/诗歌创作 1.5
Gemini 非常垃圾。。。估计是大厂 AI 最垃圾没之一。
用过一次,优点是速度输出是最快的,没有之一,缺点是答案全 tm 是错的
不要用中文 完毕
我对比过发现用英文给的答案我会更满意一些,虽然也有错误,但是尽量还是不要用中文了。
我觉得最难用的 LLM ,v2 上还很多人推荐
gemini flash 2.0 确实垃圾,不如之前的 2.0 体验版。回复快是真快,但是容易胡说八道,哈哈。我猜他们比较看重速度,某些参数调的太过了
LLM 可以从 AI 中拆分开来,不然迟早把 AI 整个领域带进沟里。
gemini 口胡确实有, 有时候我明明都反驳他说这个代码跑不起来, 没这个 API, 它应是继续嘴硬那几行破玩意.
但是用来写平时完全不懂的脚本代码还是挺好玩的, 我让他帮我写了游戏点击 shell script
gemini 有 pro 用户说说体验如何,上周看新闻说大幅度提升,还想下个月试试看
gemini 让我想起了”别管对不对,你就说快不快吧“这个梗
能力越强,幻觉越多
我很好奇,只贴出了 gemini 的测试结果,是怎么得出“Gemini 大概是所有 LLM 里最能张口就来的”这个结论的?意思是其它的 llm 都能很好的回答这个问题?
上次我还在另一个帖子里吐槽过 gemini ,又可以原文拿过来用了,说真的每次看到 v 站有人说 gemini 不错我就想笑,拜托你们真的该吃点好东西:
gemini 这种听不懂人话的智障中的战斗机谁爱用谁用去,用 gemini 纯粹是给自己工作添堵
不光中文,日文等语言也超级拉跨。实在无法理解谁给谷歌的勇气,这种垃圾水平的 ai 还敢拿出来放到商业套餐里,还一个敢收一个用户$36/月的费用
Gemini 付费三个月,刚开通了 ChatGPT pro 。
使用体验上肯定是 Gemini 更好,ChatGPT 目前还是会因为 IP 问题降智,网页端和 Wins 端卡的不行,感觉浪费了两千多块,昨天我想写个健身计划,用 o1 和 o3-mini ,没问几句就开始不回复了,之后估计 Plus 都不会开。
我不是程序员,代码上无法给出参考,不过不是公认 Claude 比较好吗,反正 ChatGPT 就是一坨
主要是谷歌性价比高,开一个会员,可以用 Google ONE 里面很多东西,AI 也没有不好用。
怎么还没人发这个新闻,移出完需要被移除者提供合法性文档来恢复权限。Linus Torvalds 表示很赞同这个做法。 www.phoronix.com/news/Russia…
背景: A 系统是一个面向用户的 saas 系统,用户的所有操作都会在 A 系统上操作。 B 系统是一个独立的系统,A 系统的几乎所有核心操作都需要转发到 B 系统,等 B …
要求支持 WIN ,MAC ,安卓,坑少点就行。 想着开发一次,处处能运行的,或少量修改就行运行的。 那些独立开发者多平台开发用的啥框架呀。 win mac 安卓,坑少,处处…