raid

Basis Tools

blkid zeigt Info über Block Devices, ua. UUID und PTUIID

<synopsis> blkid -po udev device_name </synopsis> .. zeigt noch mehr Infos

smartctl -a devcice_name liest die Smart Daten der Platte aus.

Raid Pflege bei Hetzner

Welche Platte im Array hat eine Macke?

# cat /proc/mdstat

An [U_] bzw. [_U] erkennt man, dass eine Festplatte nicht synchron ist.

cat /proc/mdstat Personalities : [raid1] md3 : active raid1 sda4[0] sdb4[1](F) 1822442815 blocks super 1.2 [2/1] [U_] md2 : active raid1 sda3[0] sdb3[1](F) 1073740664 blocks super 1.2 [2/1] [U_] md1 : active raid1 sda2[0] sdb2[1](F) 524276 blocks super 1.2 [2/1] [U_]

Mit mdadm /dev/md0 -r /dev/sdb1 lässt sich einen Platte gezielt aus dem Array entfernen.

Hetzner braucht die Information, welche Platte defekt ist. Dazu benutzt man

mdadm –detail /dev/md0

Sobald die neue Platte ins System eingebaut ist, muss die Partitionstabelle von der alten auf die neue Platte kopiert werden.

sgdisk -R /dev/sdb /dev/sda

Dann bekommt die Platte eine neue UUID:

sgdisk -G /dev/sdb

Danach werden die Arrays wieder neu aufgebaut

mdadm /dev/md0 -a /dev/sdb1 mdadm /dev/md1 -a /dev/sdb2 mdadm /dev/md2 -a /dev/sdb3 mdadm /dev/md3 -a /dev/sdb4

Die Partitionen werden jetzt automatisch wieder synchronisiert. Den Fortschritt/Status sieht man mit

cat /proc/mdstat

Der Bootloader sollte neu installiertden, da sich ja die Device Map geändert hat: Im gebooteten System reicht ein

grub-mkdevicemap

Ansonsten gilt

grub-install /dev/sdb

Referenzen: http://wiki.hetzner.de/index.php/Festplattenaustausch_im_Software-RAID

Datenrettung von einem RAID Array

Manueller Array Build mit einem Laufwerk

mdadm –build –verbose /dev/md0 –level=1 –raid-device=2 /dev/sdb missing

Plattentausch in einem RAID1 Array in Open Media Vault (NAS)

smartctl liefert Hinweise, dass die Platte einen Hieb hat:

This message was generated by the smartd daemon running on:

   host name:  nas
   DNS domain: netzwissen.loc

The following warning/error was logged by the smartd daemon:

Device: /dev/disk/by-id/ata-WDC_WD60EFRX-68L0BN1_WD-WXB1HB4YS7K3 [SAT], **1275 Currently unreadable (pending) sectors**

Device info:
WDC WD60EFRX-68L0BN1, S/N:WD-WXB1HB4YS7K3, WWN:5-0014ee-2b83025c8, FW:82.00A82, 6.00 TB

Die Anzahl der „pending sectors“ nimmt nach und nach zu. Der Fehler wird zuerst in S.M.A.R.T. sichtbar, bevor die Platte irgendwann hart ausfällt. Challenge: die richtige Hardware austauschen.

ssh shell auf OMV öffnen, sudo. lsblk liefert die Partitionen und die Zuordnung zur Hardware

root@nas:/home# lsblk
NAME        MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
sda           8:0    0   5,5T  0 disk
├─sda1        8:1    0   487M  0 part
└─sda2        8:2    0   5,5T  0 part
  └─md0       9:0    0   5,5T  0 raid1 /srv/dev-disk-by-id-md-name-thommienas-0
sdb           8:16   0 931,5G  0 disk
└─sdb1        8:17   0 931,5G  0 part  /srv/dev-disk-by-label-data
sdc           8:32   0   5,5T  0 disk
├─sdc1        8:33   0   487M  0 part
└─sdc2        8:34   0   5,5T  0 part
  └─md0       9:0    0   5,5T  0 raid1 /srv/dev-disk-by-id-md-name-thommienas-0
nvme0n1     259:0    0 232,9G  0 disk
├─nvme0n1p1 259:1    0   512M  0 part  /boot/efi
├─nvme0n1p2 259:2    0 200,5G  0 part  /
└─nvme0n1p3 259:3    0  31,9G  0 part  [SWAP]

Die UUIDs der Partitionen zeigen, darin ist die aufgedruckte Seriennummer der Platte integriert:

root@nas:/home# ls -n /dev/disk/by-id/
insgesamt 0
lrwxrwxrwx 1 0 0  9 Mär 11 12:16 ata-ST1000LM035-1RK172_WES237QV -> ../../sdb
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 ata-ST1000LM035-1RK172_WES237QV-part1 -> ../../sdb1
lrwxrwxrwx 1 0 0  9 Mär 11 12:16 ata-WDC_WD60EFRX-68L0BN1_WD-WX11D3678FVK -> ../../sdc
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 ata-WDC_WD60EFRX-68L0BN1_WD-WX11D3678FVK-part1 -> ../../sdc1
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 ata-WDC_WD60EFRX-68L0BN1_WD-WX11D3678FVK-part2 -> ../../sdc2
lrwxrwxrwx 1 0 0  9 Mär 11 12:16 **ata-WDC_WD60EFRX-68L0BN1_WD-WXB1HB4YS7K3** -> ../../sda
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 ata-WDC_WD60EFRX-68L0BN1_WD-WXB1HB4YS7K3-part1 -> ../../sda1
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 ata-WDC_WD60EFRX-68L0BN1_WD-WXB1HB4YS7K3-part2 -> ../../sda2
lrwxrwxrwx 1 0 0  9 Mär 11 12:16 md-name-thommienas:0 -> ../../md0
lrwxrwxrwx 1 0 0  9 Mär 11 12:16 md-uuid-6a3e6f11:c60382cd:d674583d:4a397bce -> ../../md0
lrwxrwxrwx 1 0 0 13 Mär 11 12:16 nvme-eui.0026b768386e21d5 -> ../../nvme0n1
lrwxrwxrwx 1 0 0 15 Mär 11 12:16 nvme-eui.0026b768386e21d5-part1 -> ../../nvme0n1p1
lrwxrwxrwx 1 0 0 15 Mär 11 12:16 nvme-eui.0026b768386e21d5-part2 -> ../../nvme0n1p2
lrwxrwxrwx 1 0 0 15 Mär 11 12:16 nvme-eui.0026b768386e21d5-part3 -> ../../nvme0n1p3
lrwxrwxrwx 1 0 0 13 Mär 11 12:16 nvme-KINGSTON_SA2000M8250G_50026B768386E21D -> ../../nvme0n1
lrwxrwxrwx 1 0 0 15 Mär 11 12:16 nvme-KINGSTON_SA2000M8250G_50026B768386E21D-part1 -> ../../nvme0n1p1
lrwxrwxrwx 1 0 0 15 Mär 11 12:16 nvme-KINGSTON_SA2000M8250G_50026B768386E21D-part2 -> ../../nvme0n1p2
lrwxrwxrwx 1 0 0 15 Mär 11 12:16 nvme-KINGSTON_SA2000M8250G_50026B768386E21D-part3 -> ../../nvme0n1p3
lrwxrwxrwx 1 0 0  9 Mär 11 12:16 wwn-0x5000c5009d5f58c2 -> ../../sdb
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 wwn-0x5000c5009d5f58c2-part1 -> ../../sdb1
lrwxrwxrwx 1 0 0  9 Mär 11 12:16 wwn-0x50014ee262d99ce4 -> ../../sdc
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 wwn-0x50014ee262d99ce4-part1 -> ../../sdc1
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 wwn-0x50014ee262d99ce4-part2 -> ../../sdc2
lrwxrwxrwx 1 0 0  9 Mär 11 12:16 wwn-0x50014ee2b83025c8 -> ../../sda
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 wwn-0x50014ee2b83025c8-part1 -> ../../sda1
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 wwn-0x50014ee2b83025c8-part2 -> ../../sda2

Aus der Liste die betroffene Platte anhand der UUID/Seriennummer aus smartctl rausfiltern:

root@nas:/dev/disk/by-id# ls -n /dev/disk/by-id/ | grep WXB1HB4YS7K3
lrwxrwxrwx 1 0 0  9 Mär 11 12:16 ata-WDC_WD60EFRX-68L0BN1_WD-WXB1HB4YS7K3 -> ../../sda
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 ata-WDC_WD60EFRX-68L0BN1_WD-WXB1HB4YS7K3-part1 -> ../../sda1
lrwxrwxrwx 1 0 0 10 Mär 11 12:16 ata-WDC_WD60EFRX-68L0BN1_WD-WXB1HB4YS7K3-part2 -> ../../sda2

Mit mdadm –detail die Details zum aktuellen RAID Array zeigen

root@nas:/dev/disk/by-id# mdadm --detail /dev/md0
/dev/md0:
           Version : 1.2
     Creation Time : Thu Dec  1 18:32:25 2016
        Raid Level : raid1
        Array Size : 5860021112 (5588.55 GiB 6000.66 GB)
     Used Dev Size : 5860021112 (5588.55 GiB 6000.66 GB)
      Raid Devices : 2
     Total Devices : 2
       Persistence : Superblock is persistent

       Update Time : Sun Mar 21 13:34:53 2021
             State : clean
    Active Devices : 2
   Working Devices : 2
    Failed Devices : 0
     Spare Devices : 0

Consistency Policy : resync

              Name : thommienas:0
              UUID : 6a3e6f11:c60382cd:d674583d:4a397bce
            Events : 2061

    Number   Major   Minor   RaidDevice State
       0       8       34        0      active sync   /dev/sdc2
       1       8        2        1      active sync   /dev/sda2

Mit mdadm –manage wird die defekte Platte als fehlerhaft markiert und danach aus dem Array entfernt:

root@nas:~#  mdadm --manage /dev/md0 --fail /dev/sda2
mdadm: set /dev/sda2 faulty in /dev/md0

mdadm --manage /dev/md0 --remove /dev/sda2

Check:

root@nas:~# cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sdc2[0] sda2[1](F)
      5860021112 blocks super 1.2 [2/1] **[U_]**

mit df prüfen, ob weitere Partitionen auf dieser Platte gemountet sind und sie mit umount entfernen, falls nötig:

root@nas:~# df
Dateisystem     1K-Blöcke    Benutzt  Verfügbar Verw% Eingehängt auf
udev             16347724          0   16347724    0% /dev
tmpfs             3274520      75320    3199200    3% /run
/dev/nvme0n1p2  205909892    3102112  192278400    2% /
tmpfs            16372580          0   16372580    0% /dev/shm
tmpfs                5120          0       5120    0% /run/lock
tmpfs            16372580          0   16372580    0% /sys/fs/cgroup
tmpfs            16372580          0   16372580    0% /tmp
/dev/nvme0n1p1     523248        148     523100    1% /boot/efi
/dev/md0       5767937448 1673488612 4094432452   30% /srv/dev-disk-by-id-md-name-thommienas-0
/dev/sdb1       960380628   54

Mit fdisk /dev/sda die Partionierung der alten Platte checken:

root@nas:~# fdisk /dev/sda

Welcome to fdisk (util-linux 2.33.1).
Changes will remain in memory only, until you decide to write them.
Be careful before using the write command.

Command (m for help): p
Disk /dev/sda: 5,5 TiB, 6001175126016 bytes, 11721045168 sectors
Disk model: WDC WD60EFRX-68L
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disklabel type: gpt
Disk identifier: 20058C4A-758A-4D16-9F6C-22D4C3B5DCF8

Device      Start         End     Sectors  Size Type
/dev/sda1    2048      999423      997376  487M Linux filesystem
/dev/sda2  999424 11721043967 11720044544  5,5T Linux filesystem

Jetzt kann die alte Platte ausgebaut werden. Auf der neuen Platte mit gparted oder mkfs die Partitionierung analog anlegen (erst die Paritionstabelle gpt, dann die Partition selbst, in der Regel ext4).

Nach dem Umbau quittiert smartctl das Array als degraded:

This is an automatically generated mail message from mdadm
running on nas.netzwissen.loc

A DegradedArray event had been detected on md device /dev/md/0.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] 
md0 : active (auto-read-only) raid1 sdb2[0]
      5860021112 blocks super 1.2 [2/1] [U_]
      
unused devices: <none>

Die neue Platte wird wieder ins Array integriert:

root@nas:~# mdadm --manage /dev/md0 --add /dev/sdc1
mdadm: added /dev/sdc1

Das sw raid beginnt danach, die Dateien zwischen beiden Platten zu synchronisieren:

root@nas:~# mdadm --detail /dev/md0 
/dev/md0:
           Version : 1.2
     Creation Time : Thu Dec  1 18:32:25 2016
        Raid Level : raid1
        Array Size : 5860021112 (5588.55 GiB 6000.66 GB)
     Used Dev Size : 5860021112 (5588.55 GiB 6000.66 GB)
      Raid Devices : 2
     Total Devices : 2
       Persistence : Superblock is persistent

       Update Time : Mon Mar 22 19:47:34 2021
             State : clean, degraded, recovering 
    Active Devices : 1
   Working Devices : 2
    Failed Devices : 0
     Spare Devices : 1

Consistency Policy : resync

    Rebuild Status : 0% complete

              Name : thommienas:0
              UUID : 6a3e6f11:c60382cd:d674583d:4a397bce
            Events : 2082

    Number   Major   Minor   RaidDevice State
       0       8       18        0      active sync   /dev/sdb2
**       2       8       33        1      spare rebuilding   /dev/sdc1**
  • raid.txt
  • Zuletzt geändert: vor 4 Wochen
  • von thommie4