Ein Hyper-V Cluster soll die Hochverfügbarkeit von Virtuellen Maschinen (VMs) gewährleisten.

Treten aber kleine Unterbrechungen bei der Intra-Cluster-Kommunikation auf, hat dies bisher dazu geführt, dass der Cluster reagierte und den Host offline nahm. Die VMs wurden dabei über ein Failover auf einem anderen Host neu gestartet.

Microsoft hat bei Windows Server 2016 hierzu ein Feature Compute Resiliency eingeführt. Der Failover Cluster reagiert damit weniger aggressiv bei einer Unterbrechung der Intra-Cluster-Kommunikation und vermeidet damit den Neustart der VMs durch ein Failover.

Werden die VMs auf einem Windows Server 2016 Cluster mir aktivierter Resiliency (Standard) betrieben und ein kurzzeitiger Fehler bei der Intra-Cluster-Kommunikation tritt auf, werden die VMs auf dem Host weiter ausgeführt bzw. pausiert. Ein Failover wird nicht mehr sofort ausgeführt.

 

Mögliche kurzzeitige Fehlerszenarien

  • Ein Hyper-V Knoten ist nicht verbunden: Der Cluster-Dienst versucht die aktiven Knoten zu erreichen. Der unterbrochene Knoten kann zu keinem aktiven Knoten im Cluster Verbindung aufbauen.
  • Der Cluster-Dienst auf einem Hyper-V Knoten läuft nicht mehr bzw. ist abgestürzt. Der Knoten kommuniziert mit keinem anderen Knoten.

 

Neue Failover Cluster-Status

Mit Windows Server 2016 gibt es für VMs und den Hyper-V Knoten 3 neue Statusbezeichnungen:

 

Für Virtuelle Maschinen:

  • Nicht Überwacht (Unmonitored)

Der Status zeigt eine VM die nicht mehr vom Cluster Dienst überwacht wird.

 

Cluster-Knoten:

  • Isoliert (Isolated)

Der Knoten ist kein aktives Mitglied des Clusters. Die VM Rollen werden weiter auf dem Knoten ausgeführt bzw. pausiert.

  • Unter Quarantäne (Quarantine)

Der Knoten darf nicht mehr dem Cluster beitreten für eine bestimmte Zeit (Standard 2 Stunden).

Ein Knoten wird in Quarantäne genommen, wenn dieser 3-mal innerhalb einer Stunde den Status Isoliert erreicht. Dies soll das Cluster schützen, um nicht durch ständigen Statuswechsel in einen instabilen Zustand zu geraden.

Der Knoten kann durch folgenden Powershell-Befehl wieder aus dem Zustand genommen werden:

start-ClusterNode –clearQuarantine

 

Was passiert bei einer kurzen Unterbrechung der Intra-Cluster-Kommunikation?

Tritt eine kurze Unterbrechung der Intra-Cluster-Kommunikation auf einem Cluster Knoten auf, wird dieser in den Status „Isoliert“ gesetzt und aus dem Cluster entfernt.

Die VMs bekommen dann den Status „Nicht Überwacht“ im Cluster.

  • Sind die VMs auf einem SMB 3.0 Storage gespeichert, bleiben die VMs auf dem Knoten online.
  • Sind die VMs auf einem Block Storage (SAS, iSCSI, FC, FCoE) gespeichert, werden diese pausiert.

Der Status der VMs kann im Hyper-V Manger auf dem Knoten überprüft werden.

Wird die Intra-Cluster-Kommunikation innerhalb von 4 Minuten wiederaufgebaut und der Knoten kann dem Cluster wieder beitreten (Status „Aktive“), erhalten die VMs wieder den Status „Wird ausgeführt“. Bleibt die Kommunikation weiter unterbrochen wird ein Failover der Virtuellen Maschinen durchgeführt.

 

Redakt.: Martin Krakau