Wichtige Information vorab: Dieses Tutorial befasst sich mit Linux. Sollten Sie stattdessen Windows verwenden, schauen Sie bitte in unser entsprechendes Tutorial zur RAID-Controller Administration unter Windows.
Überwachung eines RAID Arrays
Ein Hardware RAID hat bestimmte Vorzüge, aber auch ein Hardware RAID muss regelmäßig überprüft werden. Wir setzen stets auf bewährte Markenhardware, um Defekte möglichst auszuschließen. Es besteht jedoch immer ein bestimmtes Restrisiko, einen Festplattenausfall kann man nicht immer vorhersagen oder gar verhindern. Es ist daher wichtig, auch funktionierende Hardware kritisch zu überwachen.
Bei einem Software RAID generiert das Betriebssystem Meldungen über das RAID, bei einem Hardware RAID macht das der Controller selbst – man benötigt jedoch eine spezielle Software um diese Meldungen auszulesen.
Dieser Blogeintrag zeigt die Installation und Nutzung der Software für Adaptec und LSI Controller auf Linux Betriebssystemen.
Für die Verwaltung von RAID-Controllern stehen ebenfalls grafische Oberflächen zur Verfügung – bspw. ein Webinterface.
Falls Sie nicht genau wissen welcher RAID-Controller verbaut ist, kontaktieren Sie bitte unseren Support per E-Mail.
Bitte installieren Sie keine neue Firmware auf dem Controller oder Treiber im Betriebssystem – das kann unter Umständen zu einem kompletten Datenverlust führen!
In diesem Tutorial werden zusätzliche Software-Tools benutzt, zur Vorbereitung des Betriebssystems (in unserem Fall Ubuntu 17.10) installieren Sie diese mit „apt install zip unzip net-tools“
1. Adaptec
Eine Übersicht der verfügbaren Adaptec Software findet man unter https://storage.microsemi.com/en-us/support/series6/index.php
1.1 Installation des arcconf Binary
Das „arcconf“ Binary kann unter Linux sehr einfach installiert werden. Über die Linux Commandline kann man den RAID-Controller dann verwalten.
Sollten Sie sich nicht sicher sein, ob Ihr Benutzer über die notwendigen Rechte verfügt, können Sie zu Beginn einer jeden SSH-Session das folgende Kommando ausführen:
sudo -i
Nach Ausführung des Kommandos erhalten Sie weiterführende (Root-) Berechtigungen ohne das Kommando „sudo“ jedem Befehl auf der Kommandozeile voranstellen zu müssen.
Zunächst wird das Binary heruntergeladen, dieses befindet sich im Menü „Storage Manager Downloads“ auf der oben genannten Webseite des Herstellers.
Generell ist das „arcconf“ Binary bei allen Adaptec RAID-Controllern identisch. Für unseren Testserver laden wir folgendes Binary herunter: https://storage.microsemi.com/en-us/speed/raid/storage_manager/arcconf_v2_03_22476_zip.php
wget http://download.adaptec.com/raid/storage_manager/arcconf_v2_03_22476.zip && unzip arcconf_v2_03_22476.zip
Nun verschieben wir das entsprechende Binary und machen dieses ausführbar:
mv linux_x64/cmdline/arcconf /usr/sbin/ && chmod +x /usr/sbin/arcconf
Man hat nun den Befehl „arcconf“ zur Verfügung und kann diesen jederzeit nutzen.
root@contabo:~# arcconf
Controllers found: 1
| UCLI | Adaptec by PMC uniform command line interface
| UCLI | Version 2.03 (B22476)
| UCLI | (C) Adaptec by PMCS 2003-2016
| UCLI | All Rights Reserved
1.2 Überwachung des RAID Controllers
Im Normalfall wird das RAID als „OPTIMAL“ angezeigt, falls eine Festplatte ausfällt ertönt automatisch ein akustisches Signal. Dieses Signal wird von unseren Technikern im Rechenzentrum wahrgenommen. In einem solchen Fall informieren wir Sie über den Alarm.
Mit den Parametern „arcconf GETCONFIG 1“ bekommt man sämtliche Daten vom 1. Controller der erkannt wurde. Falls mehr als ein Controller verbaut wurde, kann man den zweiten mit „arcconf GETCONFIG 2“ ansteuern.
Eine Übersicht der Optionen bekommt man mit dem Befehl „arcconf getconfig“ aufgelistet.
Die wichtigsten Status kann man mit „arcconf getconfig 1 | grep Status“ auflisten.
root@contabo:~# arcconf getconfig 1 | grep Status
Controller Status : Optimal
Status : ZMM not installed
Status of Logical Device : Optimal
„ZMM not installed“ signalisiert, dass keine BBU (Battery Backup Unit) vorhanden ist, eine BBU kann selbstverständlich auch nachträglich bestellt werden.
Eine ausgefallene Festplatte erkannt man am „Degraded“.
root@contabo:~# arcconf getconfig 1 | grep Status
Controller Status : Optimal
Status : ZMM not installed
Status of Logical Device : Degraded
Die defekte Festplatte (in unserem Fall ist es eine SSD) findet man mit folgendem Befehl:
root@contabo:~# arcconf getconfig 1 PD
Controllers found: 1
----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
Device #0
Device is a Hard drive
State : Failed
Block Size : 512 Bytes
Failed logical device segments : True
Supported : Yes
Transfer Speed : Failed
Reported Channel,Device(T:L) : 0,0(0:0)
Reported Location : Connector 0, Device 0
Vendor :
Model : Crucial_CT275MX3
Firmware : M0CR040
Serial number : 11111111111111
World-wide name : 500A075116639956
Total Size : 262321 MB
Write Cache : Enabled (write-back)
FRU : None
S.M.A.R.T. : No
S.M.A.R.T. warnings : 0
Power State : Full rpm
Supported Power States : Full power,Powered off,Standby
SSD : Yes
Temperature : Not Supported
NCQ status : Enabled
Um die Festplatte auszutauschen, benötigt unser Support die entsprechende Seriennummer und den Port. Der Port entspricht der Device ID, in diesem Fall ist es Port 0.
Sobald die Festplatte getauscht wurde, beginnt der Rebuild.
root@contabo:~# arcconf getconfig 1 | grep Status
Controller Status : Optimal
Status : ZMM not installed
Status of Logical Device : Degraded, Rebuilding ( Rebuild : 1 % )
Je nach RAID Setup kann dies einige Stunden dauern.
1.3 Installation des Webinterface
Hierfür muss der MaxView Storage Manager heruntergeladen werden, der Download für Linux befindet sich unter https://storage.microsemi.com/de-de/speed/raid/storage_manager/msm_linux_x64_v2_03_22476_tgz.php
wget http://download.adaptec.com/raid/storage_manager/msm_linux_x64_v2_03_22476.tgz && tar -xzf msm_linux_x64_v2_03_22476.tgz
Es wird ein Ordner „manager“ angelegt, in diesem befinden sich die Installer.
Auf dem für das Testsystem genutzte Betriebssystem (Ubuntu 17.04) führen wir folgenden Befehl aus:
dpkg -i manager/StorMan-2.03-22476_amd64.deb
Anschließend ist das Webinterface unter https://<SERVERIP>:8443 erreichbar.
2. LSI
2.1 Installation des StorCLI Binary
Download des Commandline Binary :
wget https://docs.broadcom.com/docs-and-downloads/raid-controllers/raid-controllers-common-files/1.21.16_StorCLI.zip --no-check-certificate && unzip 1.21.16_StorCLI.zip && cd versionChangeSet/univ_viva_cli_rel/ && unzip storcli_All_OS.zip
dpkg -i storcli_All_OS/Ubuntu/storcli_1.21.06_all.deb
ln -s /opt/MegaRAID/storcli/storcli64 /usr/sbin/storcli
2.2 Überwachung des Raidcontrollers
Anschließend kann man mit dem Befehl
root@contabo:~#storcli /c0 show
den Status des RAID-Controllers anzeigen lassen.
TOPOLOGY :
========
-----------------------------------------------------------------------------
DG Arr Row EID:Slot DID Type State BT Size PDC PI SED DS3 FSpace
-----------------------------------------------------------------------------
0 - - - - RAID1 Optl N 255.656 GB dflt N N dflt N
0 0 - - - RAID1 Optl N 255.656 GB dflt N N dflt N
0 0 0 64:4 12 DRIVE Onln N 255.656 GB dflt N N dflt -
0 0 1 64:5 13 DRIVE Onln N 255.656 GB dflt N N dflt -
----------------------------------------------------------------------------
Beispiel einer ausgefallenen HDD:
TOPOLOGY :
========
----------------------------------------------------------------------
DG Arr Row EID:Slot DID Type State BT Size PDC PI SED DS3 FSpace
----------------------------------------------------------------------
0 - - - - RAID1 Dgrd N 255 GB dflt N N dflt N
0 0 - - - RAID1 Dgrd N 255 GB dflt N N dflt N
0 0 0 - - DRIVE Msng - 255 GB - - - - -
0 0 1 64:5 13 DRIVE Onln N 255 GB dflt N N dflt -
---------------------------------------------------------------------
root@contabo:~#storcli /c0 /sall show
Controller = 0
Status = Failure
Description = No drive found!
Detailed Status :
===============
----------------------------------------
Drive Status ErrCd ErrMsg
----------------------------------------
/c0/sALL Failure 255 Drives not found
----------------------------------------
Den Rebuild Status kann man mit folgendem Befehl anzeigen lassen:
root@contabo:~#storcli /c0 /eall /sall show rebuild
Controller = 0
Status = Success
Description = Show Drive Rebuild Status Succeeded.
---------------------------------------------------------
Drive-ID Progress% Status Estimated Time Left
---------------------------------------------------------
/c0/e64/s4 0 In progress -
/c0/e64/s5 - Not in progress -
---------------------------------------------------------
2.3 Installation eines Webinterfaces
Ein Webinterface für Linux ist leider nicht verfügbar.