johnworks
Goto Top

Over Temp HP proliant g7 bootet nicht mehr

Hallo Zusammen,

erst dachte ich die USV ist platt jetzt habe ich mir den Server nochmal angeschaut.

Die OVER TEMP Leute leuchtet?! Sehr komisch ist, dass der Server erst einmal normal hochfährt und nach 7-8 Minuten sich einfach abschaltet?! Der Raum ist klimatisiert und die Lüfter drehen auch?

Hat jemand eine Idee?!

Gruß John

Content-Key: 380632

Url: https://administrator.de/contentid/380632

Printed on: April 19, 2024 at 06:04 o'clock

Member: Pjordorf
Pjordorf Jul 18, 2018 at 23:04:41 (UTC)
Goto Top
Hallo,

Zitat von @JohnWorks:
Die OVER TEMP Leute leuchtet?! Sehr komisch ist, dass der Server erst einmal normal hochfährt und nach 7-8 Minuten sich einfach abschaltet?
Drehen die Lüfter auch genügend welche das kühlen soll was dir deinen OVER TEMP (Temperatur über einen Grenzwer) auslößt? Was sagt dein Handbuch, was sagen deine Temp. Werte im BIOS? Fernwartung bzw. iDRAC oder so dran und drauf? Wärmeleitpaste (Pad) noch in Ordnung?

Hat jemand eine Idee?!
Im Rechner Nachschauen was dort nicht mehr tutu bzw. Kaputt gegangen ist?

Der Raum ist klimatisiert und die Lüfter drehen auch?
Nicht das die Klimaanlage auf Heizen steht face-smile
Wie viele CPUs?

Gruß,
Peter
Member: killtec
killtec Jul 19, 2018 at 05:26:07 (UTC)
Goto Top
Hi,
der ProLiant hat iLO darin ist protokolliert was er für ein Problem hat. Schau da mal rein. iLO ans Netzwerk und per Brwoser drauf. Dann gibt es ein Eventlog auf der Seite.

Gruß
Member: JohnWorks
JohnWorks Jul 19, 2018 at 06:51:17 (UTC)
Goto Top
Guten Morgen Zusammen,

also ich habe in den 8 Minuten mit Ubuntu die Temps ausgewertet:
acpitz-virtual-0
Adapter: Virtual device
temp1:         +8.3°C  (crit = +31.3°C)

power_meter-acpi-0
Adapter: ACPI interface
power1:        0.00 W  (interval = 300.00 s)

coretemp-isa-0000
Adapter: ISA adapter
Core 0:       +20.0°C  (high = +80.0°C, crit = +96.0°C)
Core 1:       +25.0°C  (high = +80.0°C, crit = +96.0°C)
Core 2:       +24.0°C  (high = +80.0°C, crit = +96.0°C)
Core 8:       +17.0°C  (high = +80.0°C, crit = +96.0°C)
Core 9:       +22.0°C  (high = +80.0°C, crit = +96.0°C)
Core 10:      +22.0°C  (high = +80.0°C, crit = +96.0°C)

coretemp-isa-0001
Adapter: ISA adapter
Core 0:       +27.0°C  (high = +80.0°C, crit = +96.0°C)
Core 1:       +23.0°C  (high = +80.0°C, crit = +96.0°C)
Core 2:       +25.0°C  (high = +80.0°C, crit = +96.0°C)
Core 8:       +24.0°C  (high = +80.0°C, crit = +96.0°C)
Core 9:       +25.0°C  (high = +80.0°C, crit = +96.0°C)
Core 10:      +22.0°C  (high = +80.0°C, crit = +96.0°C)

Sieht für mich aktuell von der Prozessorkühlung zu mindestens ok aus! Klima steht auf kühlen... Komisch ist, dass der Server vor dem Neustart Monate lief. Komisch ist echt, dass das Problem erst nach 7-8 Minuten auftritt. Ich denke ich werden morgen mal die iLO-Schnittstelle aktivieren.

Wenn der Sensor platt wäre, würde das Over Temp-Lämpchen doch direkt vom Start an leuchten oder?
Member: Penny.Cilin
Penny.Cilin Jul 19, 2018 at 08:29:54 (UTC)
Goto Top
Hallo,

warum die iLO Schnittstelle erst jetzt aktivieren?
Es ist sinnvoll diese sofort zu aktivieren, da man hiermit den Server Remote (vom Arbeitsplatz) aus administrieren und ggf. auch neu starten kann.
Zudem kannst sofort via iLO sehen, was Dein Server für Bauchschmerzen hat.

man davon abgesehen, daß G7 schon sehr alt ist.

Gruss Penny
Member: JohnWorks
JohnWorks Jul 20, 2018 at 07:11:47 (UTC)
Goto Top
So wie es nach dem iLO-Report aussieht ist der Temperatursensor 29 defekt.
Temp 29 Storage Failed -6C Caution: 60C; Critical 65C

Ist das ein Sensor der direkt von der Platte kommt? Also Platte defekt oder gibt es dort tatsächlich einen Fühler?

Viele Grüße,

John
Member: Pjordorf
Solution Pjordorf Jul 20, 2018 at 07:40:01 (UTC)
Goto Top
Hallo,

Zitat von @JohnWorks:
So wie es nach dem iLO-Report aussieht ist der Temperatursensor 29 defekt.
Temp 29 Storage Failed -6C Caution: 60C; Critical 65C

Ist das ein Sensor der direkt von der Platte kommt? Also Platte defekt oder gibt es dort tatsächlich einen Fühler?
Hier sind auch leute die mit Sensor 29 Probleme kämpfen, aber es kann auch zu deinen Fesztplattensystemen gehören. Die meisten haben es gelöst durch andere Platten...oder durch Netzteile....
https://community.hpe.com/t5/ProLiant-Servers-ML-DL-SL/DL380G6-Position- ...
https://serverfault.com/questions/580671/hp-dl380g6-where-is-the-temp-se ...
https://serverfault.com/questions/312021/controlling-hp-proliant-dl380-g ...
https://serverfault.com/questions/892879/hp-proliant-dl-380-g7-over-temp ...
https://community.spiceworks.com/topic/1215364-hp-proliant-dl380-g6-temp ...
https://www.reddit.com/r/homelab/comments/2n4zw0/dl380_g6_temperature_se ...
http://hardcoreforensics.com/blog/2017/11/05/hp-servers-with-non-hp-dis ...

HP wird dir ein neues Board verkaufen.

Gruß,
Peter
Member: Penny.Cilin
Penny.Cilin Jul 20, 2018 at 07:51:34 (UTC)
Goto Top
Zitat von @JohnWorks:

So wie es nach dem iLO-Report aussieht ist der Temperatursensor 29 defekt.
Temp 29 Storage Failed -6C Caution: 60C; Critical 65C

Ist das ein Sensor der direkt von der Platte kommt? Also Platte defekt oder gibt es dort tatsächlich einen Fühler?
Welche Festplatten verwendest Du? Original HP Festplatten, oder zumindest zertifizierte / freigegebene Festplatten?

Bedenke, wenn Du andere Festplatten verwendest, welche NICHT von HP sind, daß dann diese Fehlermeldungen auftauchen.

Außerdem schaue auf den Deckel bzw. im Internet nach. Dort sind die Sensoren aufgeführt, wo diese sich befinden.

Viele Grüße,

John

Gruss Penny
Member: JohnWorks
JohnWorks Jul 20, 2018 updated at 09:47:14 (UTC)
Goto Top
Welche Festplatten verwendest Du? Original HP Festplatten, oder zumindest zertifizierte / freigegebene Festplatten?

Ich habe ein Raid-Verbund mit SSDs laufen (nicht zertifiziert) und ein Raid-Verbund mit HP SAS Platten. Der Server lief nun Monate lange ohne Probleme... Das wundert mich ein wenig, dass es die SSDs nun zum Problem wird?!

Hat jemand einen Tipp oder eine Idee wie ich zumindest an die Daten komme? Komisch ist auch, dass der Server wirklich erst nach 7-8 Minuten runterfährt?!

Viele Grüße,

John
Member: Pjordorf
Solution Pjordorf Jul 20, 2018 at 10:13:03 (UTC)
Goto Top
Hallo,

Zitat von @JohnWorks:
Ich habe ein Raid-Verbund mit SSDs laufen (nicht zertifiziert) und ein Raid-Verbund mit HP SAS Platten. Der Server lief nun Monate lange ohne Probleme... Das wundert mich ein wenig, dass es die SSDs nun zum Problem wird?!
Ziehe makl die platten deiner RAID Verbünde ab, läuft er dann durch?

Hat jemand einen Tipp oder eine Idee wie ich zumindest an die Daten komme?
RAID Verbünde mitsamt Kontroller in einen anderen Server/Rechner rein tun und deine Daten runterladen....

Komisch ist auch, dass der Server wirklich erst nach 7-8 Minuten runterfährt?!
Wie du gelesen hast gibt es dieses Problem schon länger, auch bei deinen Vorgängermodellen, und keiner hat bis jetzt den Sensor 29 gefunden. Bei manchen war es eins der Netzteile, aber bei den meisten etwas mit den Storage (Festplatten)...

Gruß,
Peter
Member: JohnWorks
JohnWorks Jul 20, 2018 at 15:42:34 (UTC)
Goto Top
Vielen Dank! So die SSDs waren’s.... SSDs raus und SAS Llatten rein und allet läuft. Mir zwar nicht so wirklich begreiflich wieso die Konfiguration jetzt über Monate lief!?

Zum Glück kein Datenverlust und die virtuellen Maschinen wieder druff gepackt und es läuft wieder.