samedi 30 janvier 2016

RAID : Conseils pour éviter les pertes de données


Quelques conseils pour l'utilisation du RAID :

Que faire en cas de panne de disque sur un RAID ? 
Avant toute chose il faut s'assurer d'avoir une sauvegarde complète, à jour et utilisable des données ; si on ne l'a pas il faut la faire de toute urgence avant toute chose ! Seulement ensuite on peut tenter le remplacement de disque pour démarrer la reconstruction du RAID qui, en fonction de la taille de l'espace disque, peut échouer.
Cela implique d'éviter tout disque hot spare dans le RAID qui provoque une reconstruction automatique en cas de panne et qui peut donc aussi provoquer une perte automatique des données !
Il faut lancer la reconstruction du RAID lorsque les données sont le moins utilisées par les utilisateurs et espérer que la reconstruction soient finies avant le retour des utilisateurs, au besoin offrir des vacances à tout le monde :-).

En règle générale :
- Il faut éviter, dans un système en production accessible aux utilisateurs, tous les types RAID avec parité (RAID 5, 6, ...). Il vaut mieux réserver ces types RAID à des systèmes de sauvegarde (RAID 5 ou 6 pour moins de 12 To, RAID 6 entre 12 et 24 To) ce qui permet de "tenter sa chance" pendant une reconstruction RAID sans gêner les utilisateurs, sans risquer de perdre des données et en économisant l'achat de quelques disques durs.
- Pour un système en production accessible aux utilisateurs, il vaut mieux utiliser un type RAID sans parité comme le RAID 1 ou 10 (à la limite RAID 01 mais il a des temps de reconstruction long en fonction de la taille de stockage qui peuvent gêner les utilisateurs en cas de panne).
- Eviter autant que possible d'utiliser des disques durs issus de la même série de production car si ils ont été fabriqués de la même façon, mis en service en même temps et utilisés de la même façon, il devient très probable... qu'ils tombent en panne en même temps aussi ou à peu de temps d'intervalle ! Il vaut mieux acheter les disques chez différents fournisseurs et à quelques temps d'intervalle ou de différentes marques aussi.


Le choix du type de RAID utilisé doit être bien réfléchi car il conditionne la survie et la disponibilité des données en cas de problème.


Les explications :

RAID est une solution de stockage de données qui permet de regrouper plusieurs disques durs pour créer un espace de stockage plus grand. RAID inclut des sécurités (redondance ou parité) qui évitent de perdre toutes les données stockées en cas de panne d'un ou plusieurs disques (selon le type de RAID).
Il existe plusieurs types de RAID dont les principaux sont RAID 0, RAID 1, RAID 5, RAID 6, RAID 10, RAID 01. Un article sur Wikipedia récapitule les différents types. RAID n'est en aucun cas un moyen de sauvegarde, il peut préserver les données en cas d'une panne de disque mais pas en cas d'incendie, de suppression de données ou perte de données provoquée par un virus ou autre.

En bref, RAID 0 répartit les données sur plusieurs disques et n'offre aucune sécurité en cas de panne d'un disque qui provoque la perte de toutes les données, RAID 1 copie en miroir les données entre deux ou plusieurs disques (la panne de tous les disques en même temps provoque la perte totale des données (chose possible mais peu probable) mais il ne permet pas d'avoir un espace de stockage plus grand que la taille d'un seul disque, RAID 5 et RAID 6 utilisent un système de parité pour répartir les données sur plusieurs disques et éviter des pertes de données en cas de panne d'un disque (RAID 5) ou de deux disques (RAID 6), RAID 10 et RAID 01 associe la répartition des données sur plusieurs disques du RAID 0 et la copie en miroir entre deux disques du RAID 1 pour permettre un espace de stockage plus grand et une sécurité des données en cas de panne d'un ou plusieurs disques.

Problèmes des RAID avec parité :

RAID 5 et RAID 6 semblent les RAID les plus avantageux car ils offrent le meilleur compromis entre sécurité des données, nombre de disques nécessaires et espace de stockage utilisable mais ils ont plusieurs inconvénients qui peuvent empêcher l'accès aux données pendant la reconstruction du RAID ou entraîner la perte totale des données suite à la panne d'un seul disque bien que ces RAID soient sensés préserver les données dans ce cas...

En effet en cas de panne d'un ou plusieurs disques dans un RAID 5 ou 6, le remplacement du ou des disques entraîne une reconstruction du RAID par un calcul qui, en fonction de l'importance des accès aux données par les utilisateurs et de la taille du stockage, peut durer de quelques heures à plusieurs semaines voire des mois. Pendant le temps de la reconstruction, le RAID 5 ou 6 devient vulnérable à la panne d'un autre disque et les données risquent de ne pas être disponibles pour les utilisateurs car les disques seront très sollicités pendant ce temps et le système peut sembler figé. Un reconstruction RAID 5/6 est le "burning test" des disques...

Une reconstruction RAID peut aussi échouer et provoquer la perte totale des données à cause :
- d'une panne d'un 2ème ou 3ème disque (plus probable avec des disque durs identiques et d'une même série) à cause de la surcharge d'activité due à la reconstruction du RAID.
- d'un secteur défectueux sur les disques restants qui empêche de calculer le contenu du disque remplacé et provoque la défaillance du RAID.
- d'une erreur de lecture sur les disques restants dont la probabilité est donnée par le fabricant du disque. Elle est nommée "Unrecoverable Read Error rate (URE)" ou "Non-recoverable read errors per bits read" et correspond à une erreur irrécupérable de lecture tous les 10^14 bits en général, soit une erreur prévue tous les 11 To environ. Les stockages de petite taille sont donc assez à l'abri de cette erreur mais plus ils se rapprochent des 11 To plus ils peuvent en être victimes.

En règle générale, plus l'espace de stockage est grand, plus il devient certain d'avoir un de ces problèmes.

Par exemple, pour un RAID 5 qui fournit 12 To d'espace de stockage (quel que soit le nombre de disques), on peut être sûr d'avoir un problème de reconstruction RAID à 99,9% (on laisse 0.1% pour les très chanceux) même en cas de panne d'un seul disque car un disque est en panne et une erreur de lecture très probable sur les autres disques peut empêcher le calcul de la parité pour reconstruire le RAID. A 50 % pour un RAID 5 qui fournit 6 To d'espace de stockage, à 25 % pour un RAID 5 qui fournit 3 To d'espace de stockage et ainsi de suite.
Il ne faut pas oublier que le RAID 5 date des années où les disques durs de 100 Go étaient un luxe et où on était bien content de pouvoir en regrouper plusieurs pour faire 1 To, donc à l'époque les problèmes indiqués ci-dessus étaient négligeables... RAID 5 est donc devenu obsolète à cause des tailles de disques durs qui sont de plus en plus grande et des problèmes de reconstruction RAID qu'il inclut.

Le RAID 6 doit donc remplacer le RAID 5 lorsque l'espace de stockage utilisable dépasse 12 To car il peut supporter deux disques en panne (ou un disque en panne et une erreur de lecture) mais on retrouve le même problème qu'avec le RAID 5 lorsque l'espace de stockage utilisable atteint 24 To, dans ce cas on peut être sûr d'avoir un problème de reconstruction RAID à 99,9% même en cas de panne d'un seul disque car un disque est en panne et deux erreurs de lecture très probables sur les autres disques peuvent empêcher le calcul de la parité pour reconstruire le RAID. Pour les espaces de stockages inférieurs à 24 To, les probabilités d'échec de la reconstruction RAID sont plus difficiles à définir, car il faut prendre en compte la possibilité de pannes de deux disques et d'une erreur de lecture pendant la reconstruction mais il faut se rappeler que plus le stockage est petit plus la reconstruction peut réussir. Par exemple pour 12 To, il y aura sûrement une erreur de lecture mais avec seulement un disque en panne la reconstruction peut réussir, elle échoue si un 2ème disque tombe en panne avant la fin de la reconstruction.
Le RAID 6 est donc aussi obsolète pour un système en production qui approche des 24 To mais on va quand même bien réussir à s'en servir quelque part...

Pour éviter ces erreurs de lecture il faudrait des disques avec un taux URE plus grand.

En dehors des erreurs de lecture fatales, tous les RAID avec parité ont le problème du temps de reconstruction du RAID qui peut gêner les utilisateurs.
Il existe aussi différentes variantes de RAID 5 pour palier à ces différents problèmes mais que je ne connais pas bien et dont je ne saurai parler.


Heureusement...

Tous les problèmes indiqués et liés aux différents RAID avec parité (5, 6, ...) n'existent pas pour les RAID sans parité (RAID 1, RAID 10, RAID 01, ...) ou provoquent moins de dégâts, enfin une bonne nouvelle !!! Ce sont les RAID les plus fiables mais ils sont plus coûteux que les RAID avec parité car, par exemple, pour 10 To de stockage utilisable il faut acheter pour 20 To de disques durs, la fiabilité a un coût mais la tranquillité d'esprit n'a pas de prix...
Mauvaise nouvelle? Mais non, les disques durs coûtent toujours moins chers et sont toujours plus grands !!!
Dans l'exemple précédent, 4 disques de 5 To à environ 200 € l'unité (janvier 2016) suffisent.

Par ailleurs, pour un RAID 1 ou 10, quand un disque tombe en panne, le remplacement du disque et sa mise en service est beaucoup plus rapide qu'avec les RAID 5 ou 6 car il n'y a pas besoin de recalculer le contenu du disque mais il suffit de copier le disque jumeau déjà en service (pour le RAID 01 le temps de la reconstruction dépend de la taille de l'espace de stockage utilisable et peut être long, donc il vaut mieux privilégier le RAID 10). De plus en cas d'erreurs de lecture pendant la reconstruction d'un RAID 1, 10 ou 01, la perte de toutes les données du RAID peut, en fonction des contrôleurs RAID, être évitée, ouf !
Mais tout cela ne nous évite pas d'avoir une sauvegarde des données sur un autre support (même plusieurs) car les RAID sans parité ne sont pas infaillibles. En effet il peut toujours arriver une panne simultanée des deux disques en miroir (même si cela reste peu probable), un incendie, une surtension électrique, la chute d'une météorite sur le serveur, ... Un homme averti en vaut deux !

Il vaut donc mieux mettre en place un système qui coûte plus cher qu'un RAID 5 ou 6 mais qui est beaucoup plus fiable et qui garantit un accès optimal aux données même en cas de problème, surtout pour un système en production.


A lire :
http://www.clubic.com/forum/hardware-general/le-raid-ami-ou-ennemi-id905303-page1.html
http://www.zdnet.com/article/why-raid-5-stops-working-in-2009/
http://www.zdnet.com/article/why-raid-6-stops-working-in-2019/
http://www.smbitjournal.com/2012/07/hot-spare-or-a-hot-mess/

Un outils qui peut servir : http://www.diskinternals.com/raid-to-raid/

Aucun commentaire:

Enregistrer un commentaire