半个小时前， ollama 上线了目前单显卡里，最强的中小模型 gemma3

由 google 出品，ollama 介绍就一句话“The current strongest model that fits on a single GPU.”，足以证明其强悍程度。
我去 google ai 官方页面看了跑分，27b 的小体积，竟然把体积大自己 20 倍的 deepseek v3 满血模型给灭了？有点令人难以置信。
官方介绍在这里，我也不知道真假，让子弹多飞一会儿。
ai.google.dev/gemma

贴一张网友的测评图，目前世界第二名

claude：
说道跑分。。我可就不困了

不太一样，claude 是商业版。google 这个完全开源模型，包括底模都提供了，吹嘘水准已经到了商业标准。还是多模态，而且还能同时识别多张图片，似乎以前模型只能识别出一张图片。

claude ，跑分没赢过，体验没输过

先质疑一波，等量化模型出来大家跑一跑就知道了。

这么说一张 A100 80G 就搞定了?

怎么没有和 qwq 32b 对比

写的是 H100

跑分冠军挺多的，最终还是需要是骡子是马拉出来遛遛

我玩了 qwq 32b 是真的爽，对中文的拿捏，估计 gemma3 无法达到，等子弹飞一飞

lmarena 上确实把包括 deepseek v3 等一众远大于它的模型给灭了，我自己稍微测了一下感觉算是二线非思考模型水平了（或者说准一线？除了 grok 3 和 claude sonnet 3.7 之外的非思考模型的水平），不过不知道为什么明明是一个这么小的模型，google ai studio 的推理速度特别特别慢，所以我也没测太多。

本地 ollama 没问题，网友 Apple M1 Max 32G ，运行飞快。我自己显卡运行也挺快的。

4090 能跑吗

gpt 4o 都已经这么落魄了么

其实，真正的极致小模型，还得看 rwkv ，0.5b 都能很猛

多少个 tokens/s ?

开源模型生机勃勃了，好事，deepseek 开的好头。
QWQ 32B q8 两张显卡 40G 正好够，已经感觉和 deepseek 满血差距很小了，非常好用。
期待 gemma3 。

这榜单还行，是个写作榜单，也就是评测 llm 在进行写作创作时人哪个人情味更多些。lmarena 评测更多是答案的亲和性。

是有点慢（和同类型的模型对比）。我这里差不多 15 tokens/s ，架构似乎是新的，我看 ollama 上也有人说速度慢，估计需要时间优化。

不过很奇怪的是，官方也很慢。

刚用 ollama 测试了一下，12b 模型，效果一般。老是报错，Error: POST predict: Post " 127.0.0.1:35039/completion": EOF ，不知道怎么回事，可能是我的环境问题。

＃18 ollama 官网也得是：12B parameter model (128k context window)。我比较好奇这 128K 的上下文窗口是怎么来的。ollama 默认都是 2K ，128K 不爆显存吗？

这个可以输入图片，我试了下还挺好，至少各种表情包图片能解释出来

ollama 上的给的参数有问题，温度应该是 1.0, 不是 0.1

请你自己成语拉龙 10 次
好的，没问题！我来连续成语拉龙 10 次：

一帆风顺
水到渠成
蒸蒸日上
鹏程万里
龙腾虎跃
锦上添花
如鱼得水
马到成功
心想事成
福星高照

希望这些成语能给你带来好运！

0.1 的温度

请你自己成语拉龙 10 次
好的，没问题！我来挑战一下成语拉龙十次：

一帆风就 (yīfán fēngjiù) - 比喻一开始就非常顺利。
龙腾虎跃 (lóngténghúyuè) - 形容跑跳时动作矫健，也形容人充满活力，气旺而有精神。
龙马精神 (lóngmǎ-JīngShén) - 形容老气十足的精力旺盛、精神振奋。
呼风唤兽 (hūfēng huànshòu) - 原指道士或巫师招风唤雨，后比喻凭借某种神秘的力量变化事物。
生龙活虎 ( shēnglónghuótiger) - 比喻像龙和虎一样有生机、有活力。
游龙戲珠 (yóu lóng xì zhū) - 喻君王巡视，也形容玩耍得很自得。
画龙点睛 (huà lóng diǎnjīng) - 比喻在关键地方简明地点明要旨，使内容传神生辉。
望云断雾看风辨雨 (wàngyún duànwù kàng fēng biàn yǔ) – 古人根据云、雾、风、雨变化判断天氣。比喻通过敏锐的观察判断事物的发展趋势。
龙争虎斗 (lóng zhàng hū dǒu) - 比喻势力或竞争对手之间激烈的争夺。
惊天动地 (jīngtiāndòngdì)- 形容声势非常大，足以使天大地颤动。也形容事件影响震惊寰宇。

完成了！希望你喜欢我拉的这些“成语龙”!

1.0 temperature

＃21 确实，google 的 aistudio 上就是 1 。
aistudio 上试了一下 27B 的模型，光数学上来看，准确性一般，比 qwq 差远了（当然了，直接这样比较推理模型和非推理模型不是很公平）

大佬，推理模型，和非推理模型，各推荐一个能本地部署的？

QWQ 32B q8 需要的配置不算很低啊

这个等人试了再看

非大佬，纯小白。推理模型 qwq 32b 的 q4 就可以，实际占用显存 20G 多点，4090 、3090 都可以，便宜点 2080ti 也行。目前感觉比 r1 蒸馏的 32b 强很多。唯一的问题就是思考的过程有点长，回答的精细度、准确性非常好。

gemma3 12b

请你自己成语接龍 10 次
好的，没问题！我来挑战一下成语接龙，10 次：

一帆风顺
顺水推舟
舟车劳顿
顿悟成仙
仙姿佚貌
貌合神离
离恨仇深
深恶痛绝
绝无仅有
有恃无恐

怎么样？这是一个有趣的挑战！ 😊

AI 对这种异常输入，表现很一般。
毕竟你说的是“成语拉龙”。你换成“成语接龙”试试。

我是 3090+tesla t10 ，显卡成本 7.5k ，q8 15token 左右。2 个 2080ti22g 更便宜，5k

＃30 ds r1 开深度思考是可以的，他打错是有点欺负国外 AI 了

补充下模型大小对质量的影响肯定还是存在的。671B 基本还是优势很大的，明天部署下原版 gemma3 27B 看看效果

谢谢提醒，老了，经常打错字

Gemma3 的多語言能力肯定比 Qwen2.5 強

最少對正體中文的用戶來說, Gemma3 1B 不寫錯字已經很厲害, Qwen2.5 7B 的輸出有點慘不忍睹, 32B 才像樣, 更不用說用語差異 Qwen 是不行的

Gemma3 4B 連廣東話都比 Qwen2.5 32B 強很多。

我想廣府人會看得懂

QwQ 32B, 完全看不懂, 不懂香港也算了, 回應字體也不對, 這種程度的話在香港是沒有商用價值的。

用戶:

如果一個連登仔見到呢個笑話, 佢會點接落去?

飛機係荒島到墜毀
死淨 3 個幸存者
跟住比當地食人族捉晒番去
3 個人去到比人吊晒起身
食人族公主就問第一個幸存者
「你寧願彈十下賓周定寧願死」
幸存者話寧願彈十下賓周
跟住公主問第二個幸存者
「你寧願彈一百下賓周定寧願死」
幸存者話彈一百下賓周
彈痛到嗚嗚叫
跟住公主問第三個幸存者
「你寧願彈一千下賓周定寧願死」
幸存者話 我寧願死！！
公主就話

AI:

这个笑话的结构是一个递进式的幽默，通过逐步增加数字（从 10 到 100 再到 1000 ）来制造笑点。每个幸存者的反应也随着数字的增大而变得更加极端，最后第三个幸存者选择死亡而不是承受更大的痛苦，这本身已经具有一定的荒谬感和幽默效果。

然而，在第三个人选择了“宁愿死”之后，公主会有什么样的回应呢？这里的关键在于预期与现实之间的反差。根据前面的模式，公主可能会继续沿用类似的句式，但需要制造一个转折或意外来增强笑点。

可能的结局是：
公主说：“好啊！那我让你死一千次！”
或者更夸张一点：
“既然你选择死亡，那么……你就得弹一万下宾周再死！”（进一步加剧了荒谬性）

这样的回应既延续了之前的模式，又通过出乎意料的数量增加制造了额外的幽默效果。同时，这也突显了食人族公主可能具有某种扭曲的逻辑或偏好，即不断加码惩罚以达到极端的效果。

需要注意的是，“宾周”在这里应该是一个特定词汇或双关语，在中文网络环境中可能存在特定含义，但根据上下文推测它可能是“槟榔”或其他有弹性的物品（例如气球等），或者是某个谐音梗。由于具体背景不明确，这里假设其为某种需要反复拉伸的动作对象。

总结来说，这个笑话的高潮在于通过逐步升级的选择和出人意料的结果来制造笑点，并且可能包含文化或语言上的双关元素以增强效果。公主的反应应该打破之前简单的二选一模式，转而采取更极端的方式，从而产生喜剧性的反差。

Gemma 3 27B 就強多了, 懂廣東話, 懂連登

AI:

連登仔見到呢個笑話，接落去嘅反應肯定係：

「公主話：『咁你唔早講！我哋已經彈咗成千下賓周喇！』」

或者會加多句：

「正宗 on9 笑話！」
「笑死，呢個 level 嘅廢柴笑話都得？」 (通常係帶諷刺意味)
「連登仔表示理解哂佢哋嘅痛苦」 (自嘲)
「其實公主想講嘅係：『你 on9 咩？』」

總之，連登仔會用一種好似睇唔起但又忍不住笑嘅態度去接續呢個笑話。佢哋鍾意喺廢柴笑話入面搵啲諷刺同自嘲嘅空間。

QwQ 32B 的古詩賞析, 正體問題還是用簡體回答, 長篇大論的實在頂不住, 我還是換成 Qwen2.5 32B 測測看

＃＃＃問題

賞析以下古詩

早發白帝城 - 李白

朝辭白帝彩雲間，千里江陵一日還。
兩岸猿聲啼不盡，輕舟已過萬重山。

＃＃＃ Qwen 2.5 32B:
《早發白帝城》是唐代著名詩人李白的一首七言絶句，描繪了清晨離開白帝城時的壯麗景象和迅速航行的輕舟情景。這首詩主要表現出詩人的喜悅心情以及對大自然景色的熱愛與贊美。

首先，“朝辭白帝彩雲間”，開頭便呈現了一幅美麗而神祕的畫面：清晨，霞光萬丈，詩人離開了被彩雲環繞的白帝城。這句以“白帝”和“彩雲”的意象，營造出一種神奇、虛幻而又壯麗的意境。

接著，“千里江陵一日還”，通過這種速度感來表現詩人的輕鬆自在。這裡用了一個驚奇的數字對比——“千里”與“一日”。這不單僅是空間和時間上的反差，更重要的是表達了詩人快速返家的急切心情。

下一句，“兩岸猿聲啼不盡”，描寫沿江而行時聽到的猿猴啼鳴。這種自然之音無窮無盡，象徵著旅途中的持續性和永不停息的生命力，也增添了旅程中的一絲寂靜與孤獨感。

最後，“輕舟已過萬重山”則強調了詩人順利抵達目的地的心情。這裡的“輕舟”不僅僅是指船隻本身，更是象征著詩人的自由和洒脫，表現出他對生活的熱愛和樂觀態度；而“萬重山”的意象更突出了這種旅程的艱辛與最終的成功。

整首詩通過生動鮮活的景色描寫、明快優美的語句表達了作者開朗豁達的心境和對大自然之美的無盡讚美，是李白作品中一首非常有名的山水詩。

＃＃＃ Gemma 3 27B
好的，我們來賞析李白的《早發白帝城》。這首詩是李白在被赦免後，離開白帝城時所作，充滿了喜悅、自信和豪邁之情。

詩句解讀：

「朝辭白帝彩雲間」: 描寫詩人清晨告別白帝城。白帝城地處高山峽谷之中，常年雲霧繚繞，景色瑰麗奇特。“彩雲間”不僅點明了地理位置的優美，也暗示了詩人當時的心情如同彩雲般輕鬆愉快。
「千里江陵一日還」: 說明詩人乘坐輕舟，一天之內便可從白帝城返回江陵。這句看似誇張，但卻真實地反映了長江水流的湍急和詩人的歸心似箭。“千里”強調距離遙遠，“一日還”則突顯速度之快，也暗示了詩人被赦免後心情的暢快和對自由的渴望。
「兩岸猿聲啼不盡」: 描寫長江兩岸猿猴的叫聲此起彼伏，連綿不斷。“啼不盡”不僅表現了猿猴的數量之多，也暗示了詩人旅途中的熱鬧和生機勃勃。同時，猿聲也烘托出詩人內心的喜悅之情。
「輕舟已過萬重山」: 描寫詩人的輕舟已經駛過重重山巒。這句是全詩的點睛之筆，“萬重山”既指長江三峽的險峻山勢，也象徵著詩人過去所經歷的困境和阻礙。“輕舟已過”則表明詩人已經克服了困難，迎來了新的開始。

賞析：

意境開闊: 詩歌以簡潔明快的語言，描繪了一幅雄渾壯麗的長江三峽圖景。詩中沒有直接抒發情感，而是通過對自然景物的描寫，間接地表達了詩人的喜悅之情。
豪邁奔放: 李白是一位浪漫主義詩人，他的詩歌往往充滿了豪邁奔放的氣勢。《早發白帝城》也不例外，詩中“千里江陵一日還”、“輕舟已過萬重山”等語句，都表現了詩人的自信和豪情壯志。
動靜結合: 詩歌既有對長江水流、猿聲鳥鳴的動態描寫，也有對白帝城、萬重山的靜態描繪。動靜結合，使詩歌的意境更加豐富生動。
語言精煉: 全詩僅有四句，但卻包含了豐富的信息和深刻的情感。詩人運用了簡潔明快的語言，將複雜的情感表達得淋漓盡致。

總結：

《早發白帝城》是一首充滿浪漫主義色彩的佳作。詩歌以其開闊的意境、豪邁的氣勢和精煉的語言，贏得了後世讀者的廣泛讚譽。這首詩不僅描繪了長江三峽的美麗景色，也表達了詩人被赦免後的喜悅之情和對自由的渴望。

希望這個賞析能幫助你更好地理解李白的《早發白帝城》。

我的評語是

Qwen2.5 32B: 沒有 QwQ 32B 般的簡體 CoT, 輸出字體看來還可以, 但有錯字例如「贊」(應為「讚」)及標點符號用錯了“” (應為「」開引號), 在香港作為教育用途是不行的, 只能將就用。內容也針對原文用字作出回應, 例如形容「彩雲環繞」就是用原文的「彩雲」作出伸展。

Gemma 3 27B: 沒錯字, 起碼能逐句輸出「」開引號, 但仍然錯用了“” , 能用「雲霧繚繞」陳述意象, 也能點出到白帝城經過的是長江三峽。

比較之下我就不會用 Qwen2.5 32B 了。

合速度

半个小时前， ollama 上线了目前单显卡里，最强的中小模型 gemma3

用戶:

AI:

AI:

賞析以下古詩

近期文章

热门推荐