Recupero dati da un array SHR che fallisce durante il processo di ricostruzione (Synology Hybrid RAID)

Hai sostituito un disco da 4 TB nell’array Synology SHR con un disco da 8 TB. La ricostruzione è iniziata, ha proceduto per un po’ — e poi si è interrotta. DSM mostra lo stato Degradato o Arresto anomalo, oppure la barra di avanzamento non si è mossa da ore. Il NAS potrebbe essere diventato completamente non rispondente. Questo articolo tratta il recupero dati dopo un crash della ricostruzione SHR: cosa è effettivamente avvenuto all’interno dell’array, come valutare lo stato corrente senza aggravare il problema e come recuperare i file.

Prima di intervenire

Tre azioni possono sembrare logiche quando una ricostruzione RAID si blocca — e tutte e tre possono compromettere il recupero dati, trasformando una situazione recuperabile in una perdita permanente di dati:

🔄

Riavvio del NAS

Un array RAID degradato mantiene lo stato dei singoli membri in memoria. Un riavvio obbliga mdadm a rileggere i superblocchi dai dischi — se tali superblocchi risultano fuori sincronizzazione a causa di una ricostruzione interrotta, l’array potrebbe non riuscire a ricomporsi affatto dopo il riavvio.

💽

Rimozione dei dischi

Anche il disco che DSM segnala come guasto. La rimozione di un membro modifica il conteggio dell’array RAID e fa sì che mdadm aggiorni i superblocchi sui dischi rimasti, registrando la rimozione come evento permanente. Questo può escludere definitivamente un disco che in realtà era leggibile.

🔧

Fare clic su “Ripara” in Storage Manager

L’opzione “Ripara” avvia un nuovo tentativo di ricostruzione. Se la ricostruzione iniziale è fallita a causa di errori di lettura su un disco esistente, un secondo tentativo rileggerà gli stessi settori — aggravando il danneggiamento di un’unità già sotto stress e aumentando il rischio di un ulteriore guasto.

⚡

Spegnimento forzato dell’alimentazione

Un’interruzione improvvisa dell’alimentazione durante una ricostruzione attiva (anche se il processo risulta bloccato) può scrivere blocchi di parità parziali sul disco sostitutivo, lasciando l’array RAID in uno stato in cui né i dati originali né quelli nuovi risultano coerenti. Se l’interfaccia è ancora accessibile, utilizzare sempre la procedura di spegnimento di DSM (DiskStation Manager).

🔬

Esecuzione di fsck o btrfs check

Gli strumenti per la riparazione del filesystem operano a livello del volume — un livello al di sopra dell’array. Eseguirli su un array degradato significa che leggono dati ricostruiti che possono contenere errori di parità e possono riscrivere metadati corrotti sul disco.

🔀

Aggiunta di un’altra unità

Inserire un’unità di ricambio in un array in stato “Crashed” induce DSM ad avviare una ricostruzione automatica. Se non si è individuata la causa del primo fallimento, un secondo tentativo incontrerà lo stesso problema — e comporterà un’ulteriore serie di letture sull’intero array su hardware già sotto stress.

Perché la ricostruzione SHR è fallita

Quando SHR sostituisce un’unità di capacità diversa, esegue operazioni ben più complesse di una semplice copia dei dati. La sequenza è la seguente:

mdadm legge tutte le partizioni dati dai dischi rimanenti con un throughput sequenziale sostenuto — per ore o giorni sugli array multiterabyte.
La parità viene calcolata e scritta sulla nuova unità. Per gli SHR con dischi di capacità mista, mdadm utilizza più dispositivi md di dimensioni differenti impilati tra loro, perciò il calcolo della parità è più complesso rispetto a un RAID 5 a geometria fissa.
LVM ricalcola l’allocazione dei Physical Extents nel pool di archiviazione espanso. Se la nuova unità ha capacità superiore, ciò comporta la rimappatura del layout del Volume Group — un’operazione separata che viene eseguita in parallelo o dopo la ricostruzione operata da mdadm.

Qualsiasi errore in una qualsiasi fase interrompe la sequenza. Tre cause principali spiegano la maggior parte dei fallimenti di ricostruzione SHR:

🧱

Errori di lettura non recuperabili (URE)

Le unità disco consumer presentano un tasso di URE di circa 1 ogni 10¹⁴ bit letti. Su un disco da 4 TB ciò significa che, statisticamente, è probabile che durante una passata sequenziale completa si verifichi un errore di lettura. In condizioni operative normali questi settori sono raramente interessati. Durante la ricostruzione RAID, ogni settore viene letto — e un singolo settore illeggibile interrompe il calcolo della parità per l’intera striscia. L’unità non deve necessariamente guastarsi; è sufficiente che produca un errore di lettura nel momento sbagliato.

🔌

Timeout SATA sotto carico

Una connessione tramite cavo o backplane che è marginale sotto carichi di lavoro normali può andare ripetutamente in timeout durante le letture prolungate ad elevato throughput tipiche di una ricostruzione RAID. Il kernel registra un errore SATA, mdadm interpreta il disco come irraggiungibile e lo segnala come Faulty — nonostante l’unità sia fisicamente integra. L’unità torna disponibile dopo la riconnessione, ma mdadm l’ha già rimossa dall’array RAID.

⚙️

Attività DSM in background

Synology pianifica automaticamente i test S.M.A.R.T., l’indicizzazione dei contenuti multimediali (Photo Station, Video Station) e lo scrubbing del filesystem Btrfs. Qualsiasi di queste attività, se eseguita contemporaneamente a una ricostruzione, compete per la stessa larghezza di banda I/O del disco. Su un sistema già sottoposto a lettura sostenuta dell’intero disco, I/O aggiuntivo può aumentare la latenza di lettura fino a provocare timeout delle unità — con lo stesso risultato di un problema di connessione fisica.

Per un confronto più ampio sul rischio della ricostruzione rispetto al recupero diretto dei dati, consultare il nostro articolo su Ricostruzione RAID vs. recupero tramite software.

Verificare lo stato corrente dell’array

Prima di qualsiasi tentativo di recupero, è fondamentale accertare esattamente cosa riporta mdadm. Se è disponibile l’accesso SSH, due comandi forniscono la visione completa dello stato. Per una guida dettagliata su come interpretare l’output di mdadm e le procedure di recupero RAID, consultare la nostra guida al recupero RAID con mdadm. Di seguito sono riportati i pattern specifici da rilevare in questo scenario.

cat /proc/mdstat — mostra lo stato dell’assemblaggio e, se è in corso una ricostruzione, il progresso e la velocità correnti.

Una ricostruzione bloccata si presenta così:

Rebuild stuck — progress not advancing

Personalities : [raid5] [raid6] [raid1]
md3 : active raid5 sdb3[0] sdc3[1] sdd3[2]
      5860468736 blocks super 1.2 level 5, 64k chunk, algorithm 2 [3/2] [UU_]
      [================>....]  recovery = 83.2% (2436352/2930234) finish=∞ speed=0K/sec
unused devices: <none>

finish=∞ e speed=0K/sec confermano che la ricostruzione è bloccata — mdadm è in attesa di un settore che non riesce a leggere.

Un array crashato si presenta così:

Array inactive — not assembling

Personalities : [raid5] [raid6] [raid1]
md3 : inactive sdb3[0](S) sdc3[1](S)
      5860468736 blocks super 1.2
unused devices: <none>

inactive con le flag (S) (spare) indica che mdadm non ha un array attivo — i dispositivi sono presenti ma non assemblati. I dati sono fisicamente sui dischi, ma non sono accessibili.

La tabella seguente mappa lo stato mostrato da DSM con quanto sta realmente accadendo e le azioni consigliate:

Cosa mostra DSM	Cosa significa	Da non fare	Prossimo passo
Ricostruzione bloccata, speed = 0 Degraded	Un URE (errore di lettura non correggibile) su un disco esistente sta bloccando le scritture di parità. Array degradato ma integro.	Non attendere; non riavviare la ricostruzione	RS RAID Retrieve (recupero RAID / recupero dati)
Un disco marcato Faulty, ricostruzione interrotta Degraded	mdadm ha escluso un disco dopo letture ripetute o errori SATA. Il sistema opera senza ridondanza.	Non rimuovere il disco Faulty	Controllo S.M.A.R.T., poi RS RAID Retrieve
Storage Pool: Crashed Crashed	mdadm non è riuscito a mantenere il quorum. Array inattivo — dati presenti ma non accessibili.	Non cliccare Repair; non riavviare il sistema	RS RAID Retrieve
NAS non risponde, DSM non si avvia Unknown	Possibile blocco del kernel durante I/O di ricostruzione. Stato dell’array sconosciuto.	Non forzare lo spegnimento se non necessario	Arresto pulito tramite pressione prolungata del pulsante di accensione, quindi RS RAID Retrieve

Recupero dati con RS RAID Retrieve

💻

RS RAID Retrieve Windows · Linux · macOS

Difficoltà:

Bassa

RS RAID Retrieve è uno strumento per il recupero dati RAID che ricostruisce la configurazione dell’array SHR dai superblocchi di mdadm presenti sui dischi rimanenti. Supporta array degradati in cui un membro è assente o contrassegnato come Faulty e fornisce accesso in sola lettura al volume per il recupero selettivo dei file — senza avviare un nuovo tentativo di ricostruzione dell’array.

Passaggio 1 — Collegare le unità e verificare S.M.A.R.T.

Arrestare il NAS in modo corretto, se possibile. Collegare tutte le unità — inclusa quella che DSM ha contrassegnato come difettosa — a un sistema di recupero e aprire il monitor S.M.A.R.T. integrato in RS RAID Retrieve. Verificare lo stato di ogni disco, non solo quello che risulta guasto. Durante la ricostruzione dell’array RAID l’unità che appare sana è spesso quella che ha causato il problema a causa di errori di lettura su un membro esistente.

Fase 2 — Creare un’immagine di qualsiasi unità con valori S.M.A.R.T. elevati

Se un’unità mostra valori diversi da zero per Conteggio settori riallocati (Reallocated Sector Count), Settori pendenti (Pending Sectors) o Errori non correggibili (Uncorrectable Errors), creare prima della scansione un’immagine a livello di settore dell’unità utilizzando la funzione di imaging integrata in RS RAID Retrieve. Tutte le successive operazioni di recupero dati vengono eseguite sull’immagine. Questo protegge l’unità sorgente da ulteriori letture durante la scansione e previene un ulteriore degrado su un’unità già sottoposta a stress.

Passaggio 3 — Ricostruzione automatica dell’array RAID

RS RAID Retrieve analizza il superblocco di mdadm presente su ciascun disco o immagine collegata, individua l’UUID dell’array, i ruoli dei membri, il livello RAID e i parametri di striping, e ricostruisce la struttura del volume SHR. Per un array degradato con un membro mancante o guasto, il programma può ricostruire utilizzando i dischi rimanenti — calcolando i dati mancanti dalla parità, esattamente come farebbe mdadm in modalità degradato, ma senza effettuare alcuna scrittura sui dischi.

Fase 4 — Esplorazione e recupero file

Arrestare il NAS correttamente, se possibile. Collegare tutte le unità — inclusa quella che DSM ha contrassegnato come “Faulty” — a una workstation di recupero per il recupero dati e aprire il monitor S.M.A.R.T. integrato in RS RAID Retrieve. Controllare ogni disco, non soltanto quello che ha segnalato il guasto. Durante la ricostruzione RAID, l’unità che sembra funzionare correttamente è spesso quella che ha causato il guasto a causa di errori di lettura su un membro esistente.

🔍

Gestisce array degradati e guasti

Ricostruisce volumi SHR (Synology Hybrid RAID) a partire dai membri rimanenti senza richiedere un array completo e integro — inclusi gli array inattivi che mdadm rifiuta di assemblare.

📊

Monitoraggio S.M.A.R.T.

Verificare lo stato di salute del disco (S.M.A.R.T.) prima della scansione. Identificare quale unità ha causato il fallimento della ricostruzione RAID e se è necessario effettuare l’acquisizione dell’immagine del disco prima del recupero dei dati.

💾

Imaging del disco

Creare un’immagine a livello di settore di un’unità in stato critico prima del recupero dati. Tutte le operazioni vengono eseguite sull’immagine — proteggendo l’originale da ulteriori cicli di lettura.

🔗

Connessione SSH remota

Se il NAS è ancora alimentato e raggiungibile in rete, RS RAID Retrieve può stabilire una connessione SSH remota per eseguire il recupero RAID — senza rimuovere fisicamente le unità dal telaio.

Quando il recupero software non è sufficiente

Se più unità non vengono rilevate una volta collegate alla macchina di recupero, oppure se S.M.A.R.T. segnala valori critici su più membri dell’array, la situazione ha superato il livello software. Un array SHR‑1 (Synology Hybrid RAID) con due unità guaste non dispone di parità da cui effettuare la ricostruzione: non esiste un percorso matematico per recuperare i dati mancanti affidandosi esclusivamente al software.

Interrompere l’uso e contattare un laboratorio di recupero dati se si rileva

Due o più unità non rilevate, o che mostrano immediatamente un errore S.M.A.R.T. all’accensione
Rumori di clic, stridio o tentativi ripetuti di avvio della rotazione (failed spin‑up) su qualsiasi unità
RS RAID Retrieve non è in grado di ricostruire l’array neppure in modalità manuale
Le unità risultano calde al tatto entro pochi minuti dalla connessione

Il recupero fisico dei dati — sostituzione delle testine, trasferimento dei piatti — richiede una camera bianca. Ogni ulteriore ciclo di alimentazione su un’unità con guasto meccanico riduce la probabilità di successo del recupero.

Dopo il ripristino: prevenire il prossimo errore di ricostruzione RAID

Un crash della ricostruzione RAID durante la sostituzione di un disco non è casuale. Colpisce una vulnerabilità specifica: tutte le unità rimanenti sono sottoposte al massimo carico di lettura sostenuto esattamente nel momento in cui l’array è privo di ridondanza. Le azioni seguenti riducono la probabilità che questo scenario si ripeta.

📋

Verificare lo stato S.M.A.R.T. prima di sostituire un’unità

Eseguire un test S.M.A.R.T. esteso su tutti i dischi rimanenti prima di rimuovere l’unità difettosa. Un disco con settori riallocati o errori pendenti rischia di generare un URE (errore di lettura non recuperabile) durante la ricostruzione successiva.

🔕

Disabilitare le attività di DSM in background durante la ricostruzione

Accedere a Pannello di controllo → Pianificazione attività e sospendere, per tutta la durata della ricostruzione, i test S.M.A.R.T. pianificati, le operazioni di scrub di Btrfs e le scansioni della libreria multimediale. L’I/O concorrente è una delle cause di fallimento della ricostruzione più facilmente prevenibili.

🔌

Ricollegare i cavi SATA prima di iniziare

Una connessione marginale che funziona con carichi leggeri può interrompersi sotto la larghezza di banda sostenuta di una ricostruzione dell’array (ricostruzione RAID) che si protrae per più giorni. Prima di avviare la procedura di sostituzione, scollegare e ricollegare tutti i cavi dati e i cavi di alimentazione SATA.

🗂️

Non mescolare lotti di unità disco

Le unità disco (HDD/SSD) acquistate contemporaneamente e appartenenti allo stesso lotto di produzione accumulano usura alla stessa velocità. Quando una unità si guasta, le altre dello stesso lotto sono statisticamente a rischio di guasto a breve termine. Procurare dischi di ricambio da un produttore o da un lotto di produzione differente.

🔔

Abilita le notifiche e-mail in DSM

Pannello di controllo → Notifiche → E-mail. In DSM puoi attivare le notifiche e-mail per il monitoraggio dei dischi: riceverai un avviso non appena un’unità viene contrassegnata come guasta o quando un pool di archiviazione si degrada. Individuare il guasto tempestivamente — prima che la ricostruzione superi le 60 ore — preserva maggiori opzioni per il recupero dei dati.

💾

Mantieni un backup indipendente

SHR fornisce tolleranza ai guasti, non un backup. Un array degradato durante la ricostruzione RAID non offre protezione in caso di un secondo guasto. Hyper Backup verso un’unità esterna o una destinazione cloud è l’unica garanzia che un crash durante la ricostruzione non si traduca in perdita permanente dei dati.

Un errore di ricostruzione durante la sostituzione di un disco è uno degli scenari più frequenti di perdita dati con SHR, proprio perché avviene nel momento peggiore: carico I/O massimo sull’hardware più datato dell’array, senza alcun margine di ridondanza. Una volta recuperati i dati, considerare l’evento come un campanello d’allarme — non solo riguardo al disco che ha ceduto, ma anche sull’integrità e lo stato di salute di tutti i componenti con cui era in funzione.

Domande frequenti

Non necessariamente, e questa è una delle idee sbagliate più pericolose sui rebuild dei RAID. In RAID 5 e SHR i dati non vengono scritti in modo sequenziale da un disco all'altro: la parità è distribuita tra tutti i membri in strisce. Un rebuild al 97% significa che il 97% delle strisce è stato ricalcolato e scritto, ma l'array non è coerente finché non raggiunge il 100%. Un rebuild interrotto lascia la tabella di parità parzialmente aggiornata, quindi qualsiasi striscia che attraversi il confine tra le regioni ricostruite e quelle non ricostruite si trova in uno stato indefinito. Non è possibile accedere selettivamente «alla parte completata»: il volume o si monta correttamente per intero oppure non si monta affatto.

Sì, ma è improbabile che dipenda dal disco nuovo essere difettoso. Quando mdadm marca un disco come "Faulty" durante la ricostruzione, lo fa in risposta a un evento — un errore di lettura, un timeout SATA o un comando che non si è completato entro la finestra di timeout del kernel. Il disco nuovo è il target di scrittura durante la ricostruzione, non una sorgente di lettura. Se viene segnalato come "Faulty", la causa più probabile è un problema di connessione SATA (cavo, porta del backplane o slot del controller) che si è manifestato sotto il carico di scrittura sostenuto della ricostruzione. Prima di dare per scontato che il disco sia guasto, prova a reinserirlo in un bay diverso e a collegarlo con un cavo differente. I dati S.M.A.R.T. di un'unità nuova saranno praticamente a zero e non dovrebbero mostrare errori — se invece riportano errori, allora il problema è il disco stesso.

Si tratta di un'opzione ragionevole se il NAS sostitutivo è identico o compatibile, ma comporta gli stessi rischi di qualsiasi ricostruzione: se uno dei dischi esistenti presenta un URE (errore di lettura non recuperabile) o uno stato di salute marginale, la ricostruzione sul nuovo hardware incontrerà lo stesso problema. Prima della migrazione, controlla lo stato S.M.A.R.T. di ogni disco. Se tutti i dischi sono sani, la procedura HDD Migration di Synology preserva il pool di archiviazione e la configurazione dei volumi — il DSM sulla nuova unità riconoscerà l'array esistente e riprenderà invece di ricostruire da zero. Tuttavia, se il crash della ricostruzione originale è stato causato da un errore di lettura su un disco esistente, la migrazione non lo risolve: il disco problematico rimane nell'array indipendentemente dal chassis in cui è inserito.

Le velocità di ricostruzione (rebuild) su hardware Synology tipicamente variano tra 50 e 120 MB/s in condizioni ideali — assenza di I/O concorrente, dischi sani e connessioni stabili. Con 60 MB/s, la ricostruzione di un’unità da 4 TB richiede circa 18–19 ore; una da 8 TB circa 37 ore. La velocità oscilla naturalmente, e DSM riduce la priorità della ricostruzione per mantenere il NAS utilizzabile, quindi una ricostruzione lenta non è automaticamente un problema. Diverso è il caso di una ricostruzione bloccata: /proc/mdstat mostrerà speed=0K/sec e finish=∞, e la percentuale non avanzerà per più di 15–30 minuti. Questa combinazione specifica — velocità zero più tempo di completamento infinito — significa che mdadm è bloccato su un settore illeggibile e sta riprovando all’infinito. Aspettare non aiuta; il settore non diventerà leggibile da solo.