CloudRift 表示,在一些配备 RTX 5090 和 RTX PRO 6000 显卡的节点上,这些显卡偶尔会完全无响应 —— 通常在使用虚拟机几天后,或在启动 / 关闭过程中看似随机的时间点。一旦发生这种情况,显卡就无法重新分配。唯一的解决办法是重启整个节点。
CloudRift 已经排除了大多数常见问题:IOMMU 的 quirks、内核版本、驱动绑定以及 libvirt 的配置错误。该公司的 H100s、B200s 和较旧的 RTX 4090 都在运行稳定,但这些较新的 RTX 显卡给他们带来了大麻烦。
据 Tom's Hardware 昨日报道,Proxmox 论坛和 Level1Techs 上的用户也报告了类似的问题。在其中一个案例中,Windows 虚拟机关闭后系统挂起,即使操作系统重启后 GPU 也无法重新初始化。另一位用户描述了 Linux 虚拟机关闭时 FLR 超时后主机 CPU 软锁,切换 PCIe ASPM 或 ACS 设置等尝试未能解决问题。