tcs2408
Goto Top

ESXi Host Crash beim Herunterfahren einer VM mit Passthrough

Hallo zusammen,

ich war vor Kurzem mit dem Problem konfrontiert, dass sich mein ESXi 6.7 U2 mit dem Purple Screen of Death verabschiedet hat, als ich eine VM heruntergefahren habe. Ich habe leider auf deutsch keine Beiträge gefunden, in denen das Problem gelöst wurde. Im Englischen gibt es dazu gefühlt hunderte Beiträge, bei denen ich 2 mit der 'Lösung' gefunden habe.

Zum Symptom:
Beim Herunterfahren der VM mit PCI-E Passthrough stürzt die VM und der Host (Purple Screen of Death) gemeinsam ab (Bild im Anhang)

Mein Testszenario:
HP DL 560 G8
Bios vom 24.05.2019 & Bios vom 30.06.2013
4x E5-4650L
128GB DDR3 ECC RAM
2x AMD Sky 500 für Passthrough
VMware ESXi 6.5 U2 & VMware ESXi 6.7 U1 & VMware ESXi 6.7 U2
2x HP Netzteil 750w

Grundlegende Informationen:
Das Problem tritt allen getesteten ESXi Konstellationen auf, woraufhin ich das Hostsystem nahezu ausgeschlossen habe. Laut anderen Berichten aus dem Netz, soll das Problem bei VMware ESXi 5.5 deutlich weniger auftreten, aber dennoch bei einigen vorhanden sein. Ich habe dies selbst leider nicht gegen geprüft.
Die verwendete Hardware scheint auch keine Rolle zu spielen, da unter anderen Comsumer Boards von MSI, sowie Systeme von Supermicro mit beteiligt waren.
Laut dem was ich gelesen habe begrenzt sich das Problem jedoch auf ältere PCI-E Geräte. Beispielsweise meine eingesetzte AMD Sky500 (baugleich AMD S7000), was die Generation Radeon HD 7700 HD 7800 ist. Andere hatten Probleme mit Consumer Karten der Radeon HD6700 & 6800 Serien, sowie mit AMD Karten aus der Fury Serie. Auch Nvidia Karten der GeForce 600er Serie kamen in einigen Beiträgen vor. Mit neueren Grafikkarten Generationen konnte ich keine Beiträge mit solchen Problemen finden. Auch betroffen sind Raid Controller, sowie Netzwerk Adapter. Bei diesen habe ich jedoch aktuell keine Auflistung. Sobald ich die Beiträge wieder finde und es jemanden interessiert, werde ich diese ergänzen.

Das Problem beschränkt sich auf den PCI-E Bus, der beim Beenden der VM scheinbar nicht vollständig zurückgesetzt wird. Dies führt zu einer fehlerhaften Kommunikation des PCI-E Gerätes bei der Übergabe an den Host. Unter Vorbehalt, da auch das nur von anderen Nutzern in anderen Foren geschrieben wurde und ich die Richtigkeit nicht überprüfen kann. Dies klingt jedoch für mich einleuchtend, weshalb ich es nicht vorenthalten wollte.

Die Problemlösung:
Eine offizielle Lösung seitens VMware, konnte ich leider nicht finden.

Als provisorische Lösung hat ein Nutzer geschrieben, dass unter Windows die Deaktivierung des Gerätes im Gerätemanager den Absturz des Hostsystems verhindert. Dies habe ich unter allen oben genannten ESXi Versionen mit beiden Bios Versionen getestet.
Ohne die Deaktivierung der Grafikkarte im Gerätemanager liegt die Absturzwahrscheinlichkeit bei ca. 90%. Seit der händischen Deaktivierung im Gerätemanager vor dem Herunterfahren der VM habe ich keine Abstürze in den Testreihen gehabt. Unter ESXi 6.5 U2 & ESXi 6.7 U1 waren es jeweils 3 Testläufe, die problemlos klappten. Da ich jedoch ESXi 6.7 U2 im täglichen Einsatz habe habe ich es hierbei entsprechend häufiger getestet. Hierbei verliefen die letzten 15 Versuche problemlos.

Zusatzinformationen:
Bis bei meinem Server das POST durchgelaufen ist vergehen mal locker 5 Minuten, dann noch der Boot des ESXi und der Virtuellen Maschinen. Bis alles für den Test Bereit ist vergehen Schnell mal 15-20 Minuten, sowie diverse Testeinstellungen im Bios. Insgesamt hat mich das Testen, sowie die Suche nach Informationen mehrere Tage gekostet. Daher dachte ich mit bevor es noch mehr von euch so geht wie mir, schreibe ich noch einen Beitrag hier im Forum.

Kurzer Disclaimer:
Ich habe davon selbst keinen Mehrwert und mache dies nach meiner Arbeit und habe sonst mit Administration oder Serversystemen nicht viel zu tun. Lediglich privates Interesse was mich dazu treibt.

Falls noch jemand dieses Problem hat, hoffe ich denjenigen damit helfen zu können und freue mich über Kommentare und Anregungen.
1

Content-Key: 470915

Url: https://administrator.de/contentid/470915

Printed on: April 18, 2024 at 12:04 o'clock

Member: sabines
sabines Jul 09, 2019 at 04:41:49 (UTC)
Goto Top
Moin,

bist Du Dir sicher, dass die AMD Sky 500 überhaupt vom ESXi unterstützt wird?
Im VMware Compatibility Guide kann ich hierzu ad hoc nichts finden:
https://www.vmware.com/resources/compatibility/search.php

Gruss
Member: Ex0r2k16
Ex0r2k16 Jul 09, 2019 at 06:44:52 (UTC)
Goto Top
Hi,

was macht die AMD Karte in dem Server denn? Eine Art 3D VDI oder nix?

Ansonsten hast du bereits selbst die Lösung geschrieben. Consumer Karten gehören per se schon mal nicht einen Server. Daher hinkt dein Vergleich mit älteren Radeon HDs oder Geforce's leider etwas. Ergo: AMD raus und eine Grakka rein die supportet ist.

Alles andere kann klappen, muss aber nicht. Da viele hier Server eher beruflich fahren, wird hier glaube ich auch weniger mit Grakkas in Servern rumgefrickelt. Oder haben wir hier ein paar Citrix 3D Experten? Aber selbst wenn fahren die ziemlich sicher auch nicht mit so alten (kleinen) Karten face-wink Da dreht man sich also im Kreis.

Gruß
Ex0r
Member: TCS2408
TCS2408 Jul 09, 2019 at 11:54:16 (UTC)
Goto Top
Hallo,
die Sky500 selbst besitzen keine Treiber fürs ESXi. Die baugleichen S7000 dagegen schon. Angeblich nur bis ESXi 6.0, das ist jedoch nicht weiter schlimm. Bei Passthrough spielt das jedoch eine untergeordnetere Rolle, da ESXi mit der GPU wenig zu tun hat.

Beste Grüße
Member: TCS2408
TCS2408 Jul 09, 2019 at 12:09:27 (UTC)
Goto Top
Hallo,

Ja das ganze soll einmal eine VDI / Cloud Gaming Umgebung werden.

Natürlich haben Grundsätzlich Consumer Karten im Server in Professionellen Umgebungen nichts Verloren.
Dies ist aber Punkt A: ein Server für den privaten Einsatz, weswegen ich aufs Geld achte und andere, die Consumerkarten einsetzen entsprechend auch.
Und Punkt B: Auch Serverkarten oder Professionelle GPUs sind vom Board und co großteils nicht anders als Consumerkarten. Lediglich die Identifikation der Karten variiert.
Da nicht so viele Privatleute, die sich ein ESXi aufsetzen (Consumerhardware I7 bspw.) Server GPUs verwenden ist der Input von dieser Seite natürlich auch entsprechend gering. Hätten meine AMD RX480 in meinen Server gepasst, hätte ich nie mit dem AMD Sky500 angefangen, aber leider passt nur single Slot. Und auch diese habe ich nur gewählt, weil ich diese aus den USA für 35€ das Stück geschossen habe. Zum testen alle mal gut genug. 250-400€ für eine Testkarte ausgeben ist mir dann leider zu viel für eine aktuelle GPU im Serverbereich (Gebraucht).

Natürlich ist der Beitrag nicht unbedingt an die Admins gerichtet, die jeden Tag mit Servern umgeben sind und diese im komerziellen Einsatz haben. Dies ist eher Falls einmal jemand so ein Problem hat und etwa so spielen möchte wie ich. Bzw. da ich im Außendienst unterwegs bin und daher in vielen Firmen mich rumtreibe, sehe ich auch ab und zu kleinere Unternehmen, die Bastelserverlösungen im Einsatz habe, bei denen ich mir manch einmal denke 'Wie lange das noch so funktionieren soll'. Also nicht nur ich pfusche im privaten Bereich an meinem Server rum auch bei einigen Firmen ist so etwas gang und gebe.
Member: sabines
sabines Jul 10, 2019 at 09:48:07 (UTC)
Goto Top
Also hast Du eine Beitrag geschrieben, für den Einsatz unsupporteter Hardware in einer ungewöhnlichen und ziemlich seltenen Konstellation, right? face-wink
Member: Ex0r2k16
Ex0r2k16 Jul 10, 2019 at 09:49:27 (UTC)
Goto Top
...die dann auch noch abstürzt.
Member: TCS2408
TCS2408 Jul 10, 2019 at 19:06:00 (UTC)
Goto Top
Hallo,

nicht unterstützte Hardware, wenn man das ganze engstirnig betrachtet, ja. Die S7000 von AMD ist baugleich und supported. Dies Tritt aber auch bei anderer Hardware auf, bei der ich mir nicht vorstellen kann, dass alle nicht unterstützt sind. Da bin ich aber aktuell noch auf der Suche, um eine Liste zu erstellen.

Aber natürlich ist es eine seltene Konstellation. Es wäre ja schlimm, wenn in allen Unternehmen täglich die ESXi abstürzen würden.

Dieser Beitrag dient auch lediglich der Information, falls jemand mal danach suchen sollte. Beispielsweise wie ich, jemand mit einem Server und Bastelfreude. Das Thema wird keinen Admin interessieren, der sich von einem Systemhaus ausstatten lässt und nur 100% Zertifizierte und erprobte Hardware einsetzt. Derjenige wird sich bei Problemen ans Systemhaus wenden und das zu den ihren Problem machen. Wer jedoch Server-Umgebungen Stück für Stück aktualisiert und in neue Server ältere Raid Controller einbaut kann zu diesem Problem kommen. (Neben Privatpersonen - Kleinere Unternehmen bspw.)
Member: holli.zimmi
holli.zimmi Jul 16, 2019 at 06:17:53 (UTC)
Goto Top
Hi,

ich danke Dir trotzdem. für den Beitrag. Ich habe auch nicht soviel Knete, muß trotzdem alles möglich lernen.

Gruß

Holger
Member: Ex0r2k16
Ex0r2k16 Jul 16, 2019 at 06:29:41 (UTC)
Goto Top
Hey Holger,

sorry für etwas OT, aber voll esxi (free) kompatible Server und auch Storage Systeme kannst du gut und günstig in der Bucht schießen. Zum Üben perfekt.
Member: TCS2408
TCS2408 Jul 20, 2019 at 14:01:24 (UTC)
Goto Top
Hi,
ESXi lernen durch Probieren. Ich hab es nie anders gemacht.
Zum Thema Hardware und Knete. Je nach dem was du willst Bei eBay gibt es gute Angebote bei Gen8 HP Servern. Viele sind als Auktion drin und gerade die Modelle, die nicht so viel gesucht werden gibt es in diesem Zusammenhang günstig.
DL560 Gen8 (meiner) den hab ich mir als CTO (Nur Gehäuse und Mainboard) gekauft und selbst aufgebaut mit Gebrauchtteilen. ich bin auf etwa 700€ gekommen mit 4x CPU, Ram, HDD und Netzteilen. Komplett gebraucht geht diese Konfiguration meist erst ab 900-1000€ los bei Komplettsystemen. Falls du keine Lust auf selbst bauen hast gibt es die nächst günstigeren Modelle DL380 Gen8 (Grundausstattung 250-300€ verhältnismäßig teuer) oder die DL360 Gen8 (Grundausstattung 150-250€ - meine nächste Anschaffung). Beide mit Dual Socket und extrem Leistungsfähig bei geringen Idle Stromverbrauch.
Bei anderen Herstellern habe ich weniger geschaut, weil ich seit langer Zeit HP habe und keine Lust mich umzuwöhnen. Alternativ habe ich schon über Supermicro nachgedacht, aber die sind mit von der Lautstärke zu hoch.

Generell reicht ESXi free auch für alle möglichen Privaten Spielereien aus.