硬件:CPU 5600G + 微星 A520M-A-PRO
平台:PVE 8
正常运行着,大概隔一天就访问不了,路由器中也不见了设备,直接插屏幕访问也卡死。必须强制关机,再开机才能用。查看系统日志,总有一条 Reboot 。结合上文也看不出啥问题,每次 Reboot 上面的内容都不一样。
尝试过加微码,关闭自动更新,关闭直通等操作。
只运行了 3 个 LCX ,CPU 温度啥的也正常,资源占用也不高,实在是没招了。有大佬知道遇到过吗?
May 27 00:44:43 pve kernel: Code: fe 7f 44 1f 80 c5 f8 77 c3 80 3d c4 ad a0 00 01 75 0d c5 f9 ef c0 48 81 fb 00 00 00 02 73 13 48 89 d9 48 c1 e9 03 48 83 e3 07 48 ab e9 65 fe ff ff c5 fe 7f 07 48 89 fe 48 83 c7 20 48 83 e7
May 27 00:44:43 pve kernel: RSP: 002b:000000c00013cf98 EFLAGS: 00010246
May 27 00:44:43 pve kernel: RAX: 0000000000000000 RBX: 0000000000000000 RCX: 000000000000a000
May 27 00:44:43 pve kernel: RDX: 000000c000648000 RSI: 0000000000000000 RDI: 000000c00069a000
May 27 00:44:43 pve kernel: RBP: 000000c00013cff8 R08: 00000000000a2000 R09: 000000c000648000
May 27 00:44:43 pve kernel: R10: 0000000000000051 R11: 00007f2c528eb000 R12: 00000000006e9f01
May 27 00:44:43 pve kernel: R13: 0000000000df3320 R14: 000000c000200680 R15: 0000000000000003
May 27 00:44:43 pve kernel:
May 27 00:44:43 pve kernel: BUG: Bad page state in process mysqld_exporter pfn:3ea78d
-- Reboot --
May 27 01:35:20 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) ()

May 24 13:17:01 pve CRON[353689]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 13:17:01 pve CRON[353688]: pam_unix(cron:session): session closed for user root
May 24 14:17:01 pve CRON[377395]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
May 24 14:17:01 pve CRON[377396]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 14:17:01 pve CRON[377395]: pam_unix(cron:session): session closed for user root
May 24 15:17:01 pve CRON[401123]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
May 24 15:17:01 pve CRON[401124]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 15:17:01 pve CRON[401123]: pam_unix(cron:session): session closed for user root
May 24 16:17:01 pve CRON[424903]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
May 24 16:17:01 pve CRON[424904]: (root) CMD (cd / && run-parts --report /etc/cron.hourly)
May 24 16:17:01 pve CRON[424903]: pam_unix(cron:session): session closed for user root
-- Reboot --
May 25 00:11:59 pve kernel: Linux version 6.8.4-3-pve (build@proxmox) (gcc (Debian 12.2.0-14) 12.2.0, GNU ld (GNU Binutils for Debian) 2.40) #1 SMP PREEMPT_DYNAMIC PMX 6.8.4-3 (2024-05-02T11:55Z) ()

我的第三次 PVE 又有问题了, 这次是连不上网, 重启也解决不了问题, 估计最新这个版本有重大 bug.

有过类似情况是内存报错,我当时是降低频率或只插两条

服务器内存别超频,别开 xmp ,内存默认频率电压加到 1.35V 试试。这里科普下 AMD APU 只有 PRO 版支持纯 ECC 内存,AMD 非 APU 全部版本除了 APU 阉割核显的版本比如 5500 ,都支持纯 ECC 内存。AMD 非 APU 平台做服务器的有条件的建议上华擎的主板上纯 ECC 内存,服务器可以少很多莫名其妙的问题,华擎 AMD 主板基本都支持纯 ECC 。DDR4 非 ECC 内存做服务器的,一律建议非 XMP 默频率电压加到 1.35v 。DDR5 非 ECC 内存做服务器的,一律建议用海力士 Adie 非常稳定,而且有内存容量需求的 Adie 插四根更稳定,镁光三星最好不要用,插四根不稳定除非降频。DDR5 24G 48G Mdie 挑主板适配,注意兼容性,新主板新 BIOS 基本没问题。

memtest86 跑过没有?

沒遇到過。當然我目前還是 6.5 內核,uptime 70 天了,沒事不升級不重啟。話說,考慮過關掉 mysqld exporter 沒?

换内存可以试试

有台 5700u 还是天钡的 插了 32x2 的笔记本 ddr4 没啥问题也是 pve8 稳定不稳定和内存没多大关系

肯定是硬件问题

遇到过一次内存问题,换了大厂内存解决的PS:可以先安装 Windows 一段时间,并长期开机,跑几遍测试

5600G PVE 8.2.2 内核 6.8.4-3 没有遇到这个情况

不过去年在用 7 的时候,遇到过死机情况是因为内存问题,建议 OP 跑一下 memtest86 测试

正常不是内存就是硬盘,用大厂的产品。。May 27 00:44:43 pve kernel: BUG: Bad page state in process mysqld_exporter pfn:3ea78d 这个看起来是内存问题

一样的问题,不过我开了 sriov 。我觉得是 bios 的问题。目前关了 c states 在测试

主机或虚拟机有没有对 internet 开放的服务?所有公网服务断开几天,看看有没有死机改善。

对于某些内存条,黑客攻击 http/https 服务,使用特殊包能造成死机(可能与 ddr4/ddr5 内存 bit 翻转有关)

B660 也约到开机一段时间死机的问题,寄给华硕,他们检查了两次说是内存模块有问题

想起了我 N5105 pve 里装 istore, 网口疯狂 up/down 切换,物理机直装再也没出现这问题。

之前说过了,8.1 的内核是有 bug 的,负载高的时候会直接卡死。但我是虚拟机卡死,并不是 PVE 。你如果是 8.1 可以更新一下试试。

内存是大概率的问题,遇到 1 个群友,换了内存就没问题了

pve 遇到过类似的问题, 系统问题很棘手,即便是修复了这个问题, 难保还会遇到其他问题, 后来切换 VMware 就没问题了

#19 群能加吗,搞这个,一直找不到组织

#20 我这段时间,一度想换 ESXI ,晚上我先试试上面几位老哥说的方法吧

#18 是 8.2.2 版本的了,我晚上先试试上门几位老哥的方法看看吧