May 06, 2020

3245

Sehr schwankende Performance bei Anwendungssoftware

Hallo Expterten,

ich benötige bitte eure Unterstützung bei einer kleinen Serverumgebung mit < 20 Usern.

Auf dem alten Server liefen die Hauptanwendungen in relativ vernünftiger Geschwindigkeit mit den Anfang dieses Jahres erneuerten Clients.
Nun ist das Problem, dass seit der Umstellung auf den Cluster die Mitarbeiter bei der Hauptanwendung sehr schwankende Ladezeiten haben. Wenn es gut läuft ist die Ladezeit 15-20 Sekunden beim ersten Start. Weitere Module werden in ca. 1-3 Sekunden geladen. Wenn es schlecht läuft, sind es 5:40 Minuten!! Zwischendrin sind auch wieder manche Menüs schneller, manche seeehr langsam.
Das kuriose ist, dass es mal einen Tag schnell(er) ist, am nächsten Tag oder einige Tage später wieder (sehr) langsam. Und das auf alle Clients quer verteilt. Man kann keinen ausschließen und keine Regel ableiten.
Die zweite Hauptanwendung ist auch nicht schneller als mit dem alten Server und teilweise seeehr langsam; selten auch Abstürze.
2-3 Clients laufen noch über einen 100Mbit-Switch, aber selbst auf diesem läuft es mitunter in < 18 Sekunden Startzeit.
Heute kam bei einem User die Meldung, dass die Anwendung (welche per Netzlaufwerk startet), nicht installiert ist. Zugriff auf Netzlaufwerk funktionierte aber. Nach ab- und anmelden war das Netzlaufwerk auch wieder normal da und die Anwendung startete ohne Fehlermeldung.
Irgendwo ist der Wurm drin und ich finde keine Lösung

Rahmenbedingungen:
Alter Server 1 physisch, Server 2012R2, 32GB RAM, HDDs, SQL Express 2014, Awendungs- und "Fileserver"; hat prinzipiell ordentlich seinen Dienst getan, da aber Speicher knapp wurde und kein Support mehr vorhanden war, wurde dieser ersetzt.
Alter Server 2 physisch, Server 2008R2 als DC, DNS, DHCP; > 8 Jahre alt --> ersetzt

Neuer Server: relativ groß dimensioniert, da er einige Jahre halten soll:
Cluster-in-a-Box-Lösung mit 2 Nodes á 128GB RAM, 2x Xeon, gemeinsamer Storage-Pool mit 2 SSDs und 8 SAS-HDDs, Server 2019 Standard, Dual 10G-SMB-Verbindung untereinander für Failover und 1G-NICs für Management und Hyper-V-Anbindung der VMs.
1 Management Domäne für die beiden Nodes als Raid1 auf SSDs mit Hyper-V und DC1 auf Node01 und DC2 auf Node02
Folgende Rollen auf Failover-Cluster
Eine VM Server 2019 als DC, DNS, DHCP
Eine VM Server 2019 als Datenbank-Anwendungsserver 1 mit SQL Express 2017, 64GB RAM - für die Hauptanwendungen
Eine VM Server 2019 als "App-Server" (Backup, Printserver, USV, etc.)
Der Cluster wurde nach Vorgabe der IP-Adressen vom Hersteller vorkonfiguriert und ich habe nur die Rollen mit den Produktiv-VMs installiert.

Clients: PCs mit i5-9400, 8GB, HD Graphics 630, 500GB SSD, Win10 Pro 1903, Office 2013 bzw. 2016, .Net 4.8
Die Clients verbinden per Anmeldeskript die Netzlaufwerke. Die Laufwerksbuchstaben und Pfade wurden 1:1 übernommen

Bei der 1. Anwendung wurden die Daten mit dem Wartungs-Tool des Herstellers exportiert und am neuen Server importiert.
Bei der 2. Anwendung wurden alle Daten mit Robocopy kopiert
Domäne und Benutzer wurden alle neu angelegt
[weitere 10G-Verbindung vom Server Node01 zu NAS für Backup und USB-Verbindung zu RDX-Laufwerk - spielt aber hier vermutlich keine Rolle]

Meine bisherigen Lösungsversuche:
- Netwerkperformance getestet: Datei-Kopieren mit 130MB/s ok und mit iperf bei 941MBit/s auch ok
- Virenscanner (Trend Micro Worry-Free Business Security) erst deaktiviert und später komplett deinstalliert. Beim Defender die relevanten Verzeichnisse als Ausnahmen hinzugefügt, testweise deaktiviert.
- verschiedene Einstellungen beim dynamischen Arbeitsspeicher auf den Clients probiert
- aktuelle (Treiber-) Updates und Windows-Updates installiert
- Anwendung direkt auf Server installiert. Das läuft (bisher) immer recht flott.
- Client direkt an "Core-Switch" angeschlossen
- Windows-Firewall (testweise) deaktiviert und Sophos XG135 noch nicht in Betrieb genommen
- mehrere Tickets bei verschiedenen Herstellern mit teilweise mehrstündigen Remote-Sitzungen und jeder sagt im Endeffekt: Keine Ahnung an was es liegt bzw. verweist an einen anderen
(geprüft wurden diverse Versionen, Datenbank-Checks, Zugriffsberechtigungen, Freigaben, Netzwerkgeschwindigkeiten)

Mein Ziel:
Jeder Mitarbeiter kann zeitnah in vernünftiger Geschwindigkeit fortwährend stabil arbeiten

Evtl. Vermutungen:
- Netzwerkeinstellungen mit Hyper-V, virtuellem Switch oder ähnlichem
- Dateien wurden vom alten Server irgendwie falsch kopiert (Berechtigungen, ...?)
- Probleme bei den Softwareherstellern (Laufzeitumgebung, Windows 10, Updates, ...???)

Ich wäre euch sehr dankbar, wenn ihr den einen oder anderen konkreten Tipp für mich habt und ich dieses Problem irgendwie gelöst bekomme.

Vielen Dank vorab!
grille-server

Please also mark the comments that contributed to the solution of the article

Content-Key: 569864

Url: https://administrator.de/contentid/569864

Printed on: April 19, 2024 at 17:04 o'clock

5 Comments

Latest comment

moin...

Cluster-in-a-Box-Lösung mit 2 Nodes á 128GB RAM, 2x Xeon, gemeinsamer Storage-Pool mit 2 SSDs und 8 SAS-HDDs, Server 2019 Standard, Dual 10G-SMB-Verbindung untereinander für Failover und 1G-NICs für Management und Hyper-V-Anbindung der VMs.

oha... was verstehst du unter Cluster-in-a-Box-Lösung? und was sollte dein Ziel sein?
was sind das genau für SAS HDD´s ? das halte ich nicht für zeitgemäß....

1 Management Domäne für die beiden Nodes als Raid1 auf SSDs mit Hyper-V und DC1 auf Node01 und DC2 auf Node02

also SSDs nur für die Hyper-V Rolle halte ich für sinnfrei...

Folgende Rollen auf Failover-Cluster

aha...

Eine VM Server 2019 als DC, DNS, DHCP

ok..

Eine VM Server 2019 als Datenbank-Anwendungsserver 1 mit SQL Express 2017, 64GB RAM - für die Hauptanwendungen

SQL Express für eine Cluster Lösung? das wird in meinen augen nix, und geht nach meinem wissen nicht!
Maximal genutzter Arbeitsspeicher pro Instanz: ca. 2 GB... also wozu die 64 GB?
Es wird nur ein Prozessor, aber bis zu 4 Prozessorkerne verwendet.
hast du SSD (Storage Spaces Direct) und einen Failovercluster erstellt auf einen zentralen Datespeicher (VSAN)?
und genau da sind die spindeln (SAS HDD´s) fehl am platz... da wären SSD bzw. NVMe richtig...

Eine VM Server 2019 als "App-Server" (Backup, Printserver, USV, etc.)

ok...

Der Cluster wurde nach Vorgabe der IP-Adressen vom Hersteller vorkonfiguriert und ich habe nur die Rollen mit den Produktiv-VMs installiert.

oha... wer ist der Hersteller?

Evtl. Vermutungen:
- Netzwerkeinstellungen mit Hyper-V, virtuellem Switch oder ähnlichem

jaein... ich hoffe du hast sfp+ und keine RJ45 Kupfer lösung genommen!

- Dateien wurden vom alten Server irgendwie falsch kopiert (Berechtigungen, ...?)

glaube ich nicht...

- Probleme bei den Softwareherstellern (Laufzeitumgebung, Windows 10, Updates, ...???)

was ist das für Software?

Meine bisherigen Lösungsversuche:
Netwerkperformance getestet: Datei-Kopieren mit 130MB/s ok und mit iperf bei 941MBit/s auch ok

du meinst sicher zu den Clients.... was ist mit dem beiden Blechen? bei 10 GBit muss da vie viel mehr kommen.... besonders was die schreibrate angeht... das muss das stoarge erst mal verarbeiten.

- Anwendung direkt auf Server installiert. Das läuft (bisher) immer recht flott.

jo...
also ich tippe auf falsche SQL Cluster einrichtung...und die spindeln. bei 10 GBit und nehr für ein VSAN brauchst du schon ein SSD bzw. NVMe storage...
Frank

Moin,

sind eher die Startzeiten der Anwendungen das Problem oder die Performance während man mit der Software arbeitet?

Bei Startzeiten würde ich entweder Richtung Namensauflösung suchen ( dafür spricht z.B. dass ja manchmal die Netzlaufwerke nicht verfügbar sind) oder alternativ die Netzwerkeinstellungen vom SQL-Server prüfen. Bei einer Express-Instanz muss man ja das TCP/IP noch manuell aktivieren und in der Firewall vom Server zulassen.
Gibt es denn während der Wartezeiten irgendein Feedback der Anwendung á la "warte auf Serververbindung" ?

Gruß
Bernhard

Hallo Frank,
ist praktisch folgende HA-Lösung von Tarox: https://www.aicipc.com/image/images/psg/HA201-TP_Datasheet.pdf
Auf Node01 und Node02 sind jeweils 2 SSDs als RAID1 mit Server2019 die den Failover-Cluster samt Management Domäne mit DCs zur Verfügung stellen. Die anderen 10 Laufwerke ergeben einen "Clusterpool" auf dem die Rollen-VMs laufen und der File-Storage liegt.
SFP+ anstatt RJ45 wegen der Geschwindigkeit oder EMV? 10G läuft über SFP+ als DAC, Rest RJ45.
Da die Support-Aussage für Anwendung 2 wie folgt lautet reichen diesbezüglich eigentlich auch 100Mbit/s:
Da es sich hierbei auch um Dateibasiertes System handelt mit Dateigrößen von 0,1 – 10MB spielt hier die Netzwerkgeschwindigkeit auch nur eine untergeordnete Rolle.
Zwischen den VMs habe ich ca. 8,5Gbit/s bei laufendem Betrieb tagsüber gemessen.
Der SQL läuft nicht direkt im Cluster. Nur die VM, auf der der SQL läuft, ist im Failover-Cluster.
grille-server

Moin,
betrifft besonders die Startzeiten aber auch die Zeiten während der Arbeit sind langsam.
Fehler kommen nicht. In der Ereignisanzeige steht dazu auch nicht viel drin.
SQL-Server samt Netzwerkeinstellungen und Firewall wurde vom Support per Remote-Session geprüft und für richtig befunden.

Heißer Tipp war die Namensauflösung. Obwohl ich schon vorher mit dcdiag /test:dns alles bestanden habe, konnte ich durch diverse Tests mit dcdiag einen Time-Service Fehler finden. Zeitunterschied waren knapp 5 Minuten! Keine Ahnung, wieso ich das nicht sofort gesehen habe ...
Entsprechende Tests danach waren leider genauso langsam.
Irgendwas scheint mit dem DNS zu sein, aber ich habe bisher nichts weiter gefunden.
Ich setze jetzt eine Client-VM mit Win10 auf, füge die der Domäne hinzu und installiere die Arbeitsplatz-Software. Mal sehen wie sich das verhält...
Danke
grille-server

moin...

Zitat von @grille-server:

Hallo Frank,
ist praktisch folgende HA-Lösung von Tarox: https://www.aicipc.com/image/images/psg/HA201-TP_Datasheet.pdf

oha....

Auf Node01 und Node02 sind jeweils 2 SSDs als RAID1 mit Server2019 die den Failover-Cluster samt Management Domäne mit DCs zur Verfügung stellen. Die anderen 10 Laufwerke ergeben einen "Clusterpool" auf dem die Rollen-VMs laufen und der File-Storage liegt.
SFP+ anstatt RJ45 wegen der Geschwindigkeit oder EMV? 10G läuft über SFP+ als DAC, Rest RJ45.

ok, SFP+ ist ok... 10G über Kupfer ist Käse, ein Knick im Kabel und das wars... und heiß wird es auch....

Da die Support-Aussage für Anwendung 2 wie folgt lautet reichen diesbezüglich eigentlich auch 100Mbit/s:

ok... wenn die das so sagen.

Da es sich hierbei auch um Dateibasiertes System handelt mit Dateigrößen von 0,1 – 10MB spielt hier die Netzwerkgeschwindigkeit auch nur eine untergeordnete Rolle.

das sehe ich aber anders... geht ja nicht nur um die Bandbreite, sondern auch um die Latenz...besonders bei vielen kleinen dateien!
und da sind wir auch gleich zurück bein Storage!

Zwischen den VMs habe ich ca. 8,5Gbit/s bei laufendem Betrieb tagsüber gemessen.

ok...

Der SQL läuft nicht direkt im Cluster. Nur die VM, auf der der SQL läuft, ist im Failover-Cluster.

finde ich jetzt nicht so glücklich.

Ich setze jetzt eine Client-VM mit Win10 auf, füge die der Domäne hinzu und installiere die Arbeitsplatz-Software. Mal sehen wie sich das verhält.

gute idee, das wäre jetzt auch mein vorschlag gewesen

grille-server

Frank

German Question Windows Installation Microsoft

Hotly discussed