Santé prédictive des SSD : détecter une panne 6 mois à l'avance — Blog Microdiag

En 2026, les SSD représentent plus de 85 % des stockages de poste professionnel en France. Contrairement à un disque dur mécanique, un SSD ne fait pas de bruit avant de mourir — pas de claquement, pas de ralentissement progressif évident. Il fonctionne normalement, puis s’arrête.

Pourtant, il envoie des signaux depuis des semaines ou des mois. Le problème : ces signaux ne sont lisibles qu’avec les bons outils, au bon intervalle, avec la bonne interprétation.

Comment un SSD “parle” avant de mourir

Le protocole SMART

SMART (Self-Monitoring, Analysis and Reporting Technology) est un protocole intégré dans tous les disques depuis 1995. Chaque disque maintient en permanence des compteurs internes que les logiciels peuvent lire : nombre d’erreurs, usure des cellules, température, heures d’utilisation, blocs défectueux…

Le problème du SMART brut : il y a plus de 70 attributs différents, dont la signification varie selon le fabricant (Samsung, Western Digital, Seagate, Crucial ont chacun leurs attributs propriétaires). Un administrateur qui ouvre CrystalDiskInfo voit des colonnes de chiffres sans contexte.

Microdiag agrège et interprète ces attributs avec un modèle IA entraîné sur les patterns de défaillance documentés par fabricant.

Les 6 indicateurs critiques (et ce qu’ils signifient)

1. Reallocated Sectors Count (attribut 5)

Le SSD maintient une réserve de cellules de rechange. Quand une cellule devient défectueuse, elle est “remappée” vers une cellule de la réserve — le Reallocated Sectors Count augmente. Sur un SSD NAND QLC ou TLC neuf, ce compteur est à 0. Quand il commence à monter, c’est un signal précoce de dégradation.

Signal d’alerte : toute valeur > 0 sur un SSD de moins de 3 ans mérite une attention. Une valeur en augmentation progressive est plus préoccupante qu’une valeur stable.

2. Media Wearout Indicator / Percentage Used

Exprimé en pourcentage de 0 à 100 % (ou 0 à 255 selon le fabricant). Représente l’usure des cellules NAND par rapport à leur durée de vie théorique (en cycles d’écriture).

Signal d’alerte : > 80 % d’usure. À 90 %, planifiez le remplacement dans les 3 mois.

Point contre-intuitif : ce compteur dépend des cycles d’écriture, pas du temps. Un SSD utilisé intensivement (serveur de logs, montage vidéo) s’usera bien plus vite qu’un SSD de poste bureautique. Microdiag calcule la durée de vie résiduelle estimée en tenant compte du rythme d’écriture observé.

3. Pending Sectors (attribut 197)

Blocs que le SSD a identifiés comme potentiellement défectueux et qui attendent d’être réalloués (ou confirmés comme perdus). Un pending sector n’est pas encore perdu — mais c’est un avertissement.

Signal d’alerte : toute valeur > 0 mérite une sauvegarde immédiate et une vérification approfondie.

4. Total Bytes Written (TBW)

Compteur cumulatif des données écrites sur le SSD depuis sa fabrication. Chaque fabricant spécifie une endurance maximale en TBW (Samsung 870 EVO 1TB : 600 TBW, WD Black 1TB : 600 TBW, Crucial MX500 1TB : 360 TBW…).

Signal d’alerte : > 80 % de l’endurance garantie. La garantie constructeur expire généralement en même temps que cette endurance.

5. Power On Hours (POH)

Nombre d’heures de mise sous tension cumulées. En lui-même, ce n’est pas un indicateur de santé — mais combiné aux autres, il permet de calculer le rythme d’utilisation et d’identifier des disques qui vieillissent plus vite que prévu.

6. Température

Les SSD NVMe en particulier sont sensibles à la chaleur. Au-dessus de 70°C en utilisation, la durée de vie se dégrade significativement. Une température élevée en permanence indique souvent un problème de ventilation du boîtier.

Signal d’alerte : > 55°C en utilisation prolongée sur un SSD SATA, > 65°C sur un NVMe.

Surveiller automatiquement tous vos disques

Microdiag Essentiel lit les attributs SMART toutes les 10 minutes sur chaque poste et vous alerte avant que le problème ne devienne critique.

Télécharger Microdiag Sentinel →

Comment Microdiag prédit les pannes

Lecture toutes les 10 minutes

La plupart des outils SMART lisent ponctuellement (à la demande ou une fois par jour). Microdiag Essentiel lit les attributs toutes les 10 minutes en arrière-plan, avec un impact CPU inférieur à 0,1 %.

Cette fréquence permet de détecter des dégradations soudaines — un disque qui passe de 0 à 50 pending sectors en quelques heures est une urgence, pas un problème à signaler le lendemain matin.

Modèle IA par fabricant

Les valeurs SMART brutes n’ont pas la même signification selon le fabricant. L’attribut 231 (“SSD Life Left”) est fiable chez Intel/Solidigm, absent chez Western Digital, et a une échelle inversée chez certains modèles Samsung.

Le modèle IA de Microdiag est entraîné par famille de disques (SATA TLC, NVMe TLC, NVMe QLC, SSD enterprise, SSD consumer) avec les seuils documentés par les fabricants et les données de défaillance réelles. Il produit un score de santé de 0 à 100 et une estimation de viabilité à 6, 12 et 18 mois.

Détection des anomalies de rythme

Un SSD qui enregistre 100 GB d’écritures par jour alors qu’il en écrivait 5 GB les semaines précédentes : c’est un signal. Cela peut indiquer un processus qui tourne en boucle, un ransomware qui chiffre des fichiers, ou un problème de swap Windows.

Microdiag corrèle les données SMART avec les métriques système pour distinguer un pic normal (grosse copie de fichiers) d’une anomalie persistante.

Un cas concret : 180 € économisés, 2 500 € évités

Un poste de direction sous Windows 11, SSD Samsung 970 EVO Plus 1TB, 18 mois d’utilisation. Score de santé Microdiag : 94 % en janvier. En mars : passage à 71 %, Media Wearout Indicator en progression rapide, 3 pending sectors apparus.

Alerte générée. Analyse : le disque recevait 180 GB d’écritures par jour au lieu des 15 GB habituels — à cause d’un logiciel de sauvegarde mal configuré qui créait des incréments complets toutes les heures plutôt que de vrais incrémentaux.

Double action corrective : correction de la configuration de sauvegarde + commande d’un SSD de remplacement planifié à 2 mois.

Coût de remplacement planifié : 180 € de SSD + 1h de migration de données.

Coût sans la détection : panne complète avec probabilité de 60 à 80 % de récupération partielle des données (selon l’état de la panne), devis récupération de données : 1 500–4 000 € selon le prestataire, immobilisation du poste 3 à 7 jours.

L’angle RGPD : perte de données = incident à notifier

Un SSD qui tombe en panne avec perte de données contenant des informations personnelles de clients est un incident RGPD. Si la perte est significative, vous avez 72 heures pour notifier la CNIL (article 33 RGPD) et potentiellement informer les personnes concernées.

La maintenance prédictive n’est pas qu’une question de coût — elle fait partie de vos obligations de protection des données. Une structure qui n’a pas de surveillance SMART active peut difficilement démontrer qu’elle a pris des “mesures techniques appropriées” pour sécuriser les données.

En savoir plus sur les obligations RGPD pour TPE-PME →

Ce que vous devriez vérifier sur vos postes maintenant

Quelques questions simples pour évaluer votre exposition :

Quel est l’âge moyen des SSD de votre parc ? Un SSD de plus de 4 ans avec utilisation intensive est en zone de risque.
Avez-vous des postes de direction ou des postes serveur avec des données critiques non sauvegardées localement ?
Savez-vous si Windows Defender ou votre antivirus a des SSD qui font des analyses complètes toutes les nuits (générateur de cycles d’écriture) ?

L’Audit Flash Microdiag répond à ces questions en 3 minutes sur chaque poste et génère un rapport d’état SMART avec score de santé, estimation de durée de vie et recommandations.

Pour un contexte plus large sur la maintenance préventive du parc Windows, consultez notre guide de maintenance et sécurité Windows 2026.

Sources : JEDEC JESD218B (Flash Endurance Standard), documentation SMART T13/1699-D, études de défaillance Backblaze Hard Drive Stats Q4 2025, documentation fabricants Samsung, WD, Crucial, Seagate. Article mis à jour mai 2026.