Hai sostituito un disco da 4 TB nell’array Synology SHR con un disco da 8 TB. La ricostruzione è iniziata, ha proceduto per un po’ — e poi si è interrotta. DSM mostra lo stato Degradato o Arresto anomalo, oppure la barra di avanzamento non si è mossa da ore. Il NAS potrebbe essere diventato completamente non rispondente. Questo articolo tratta il recupero dati dopo un crash della ricostruzione SHR: cosa è effettivamente avvenuto all’interno dell’array, come valutare lo stato corrente senza aggravare il problema e come recuperare i file.

Prima di intervenire
Tre azioni possono sembrare logiche quando una ricostruzione RAID si blocca — e tutte e tre possono compromettere il recupero dati, trasformando una situazione recuperabile in una perdita permanente di dati:
Riavvio del NAS
Un array RAID degradato mantiene lo stato dei singoli membri in memoria. Un riavvio obbliga mdadm a rileggere i superblocchi dai dischi — se tali superblocchi risultano fuori sincronizzazione a causa di una ricostruzione interrotta, l’array potrebbe non riuscire a ricomporsi affatto dopo il riavvio.
Rimozione dei dischi
Anche il disco che DSM segnala come guasto. La rimozione di un membro modifica il conteggio dell’array RAID e fa sì che mdadm aggiorni i superblocchi sui dischi rimasti, registrando la rimozione come evento permanente. Questo può escludere definitivamente un disco che in realtà era leggibile.
Fare clic su “Ripara” in Storage Manager
L’opzione “Ripara” avvia un nuovo tentativo di ricostruzione. Se la ricostruzione iniziale è fallita a causa di errori di lettura su un disco esistente, un secondo tentativo rileggerà gli stessi settori — aggravando il danneggiamento di un’unità già sotto stress e aumentando il rischio di un ulteriore guasto.
Spegnimento forzato dell’alimentazione
Un’interruzione improvvisa dell’alimentazione durante una ricostruzione attiva (anche se il processo risulta bloccato) può scrivere blocchi di parità parziali sul disco sostitutivo, lasciando l’array RAID in uno stato in cui né i dati originali né quelli nuovi risultano coerenti. Se l’interfaccia è ancora accessibile, utilizzare sempre la procedura di spegnimento di DSM (DiskStation Manager).
Esecuzione di fsck o btrfs check
Gli strumenti per la riparazione del filesystem operano a livello del volume — un livello al di sopra dell’array. Eseguirli su un array degradato significa che leggono dati ricostruiti che possono contenere errori di parità e possono riscrivere metadati corrotti sul disco.
Aggiunta di un’altra unità
Inserire un’unità di ricambio in un array in stato “Crashed” induce DSM ad avviare una ricostruzione automatica. Se non si è individuata la causa del primo fallimento, un secondo tentativo incontrerà lo stesso problema — e comporterà un’ulteriore serie di letture sull’intero array su hardware già sotto stress.
Perché la ricostruzione SHR è fallita
Quando SHR sostituisce un’unità di capacità diversa, esegue operazioni ben più complesse di una semplice copia dei dati. La sequenza è la seguente:
mdadm legge tutte le partizioni dati dai dischi rimanenti con un throughput sequenziale sostenuto — per ore o giorni sugli array multiterabyte.
La parità viene calcolata e scritta sulla nuova unità. Per gli SHR con dischi di capacità mista, mdadm utilizza più dispositivi md di dimensioni differenti impilati tra loro, perciò il calcolo della parità è più complesso rispetto a un RAID 5 a geometria fissa.
LVM ricalcola l’allocazione dei Physical Extents nel pool di archiviazione espanso. Se la nuova unità ha capacità superiore, ciò comporta la rimappatura del layout del Volume Group — un’operazione separata che viene eseguita in parallelo o dopo la ricostruzione operata da mdadm.
Qualsiasi errore in una qualsiasi fase interrompe la sequenza. Tre cause principali spiegano la maggior parte dei fallimenti di ricostruzione SHR:
Errori di lettura non recuperabili (URE)
Le unità disco consumer presentano un tasso di URE di circa 1 ogni 1014 bit letti. Su un disco da 4 TB ciò significa che, statisticamente, è probabile che durante una passata sequenziale completa si verifichi un errore di lettura. In condizioni operative normali questi settori sono raramente interessati. Durante la ricostruzione RAID, ogni settore viene letto — e un singolo settore illeggibile interrompe il calcolo della parità per l’intera striscia. L’unità non deve necessariamente guastarsi; è sufficiente che produca un errore di lettura nel momento sbagliato.
Timeout SATA sotto carico
Una connessione tramite cavo o backplane che è marginale sotto carichi di lavoro normali può andare ripetutamente in timeout durante le letture prolungate ad elevato throughput tipiche di una ricostruzione RAID. Il kernel registra un errore SATA, mdadm interpreta il disco come irraggiungibile e lo segnala come Faulty — nonostante l’unità sia fisicamente integra. L’unità torna disponibile dopo la riconnessione, ma mdadm l’ha già rimossa dall’array RAID.
Attività DSM in background
Synology pianifica automaticamente i test S.M.A.R.T., l’indicizzazione dei contenuti multimediali (Photo Station, Video Station) e lo scrubbing del filesystem Btrfs. Qualsiasi di queste attività, se eseguita contemporaneamente a una ricostruzione, compete per la stessa larghezza di banda I/O del disco. Su un sistema già sottoposto a lettura sostenuta dell’intero disco, I/O aggiuntivo può aumentare la latenza di lettura fino a provocare timeout delle unità — con lo stesso risultato di un problema di connessione fisica.
Per un confronto più ampio sul rischio della ricostruzione rispetto al recupero diretto dei dati, consultare il nostro articolo su Ricostruzione RAID vs. recupero tramite software.
Verificare lo stato corrente dell’array
Prima di qualsiasi tentativo di recupero, è fondamentale accertare esattamente cosa riporta mdadm. Se è disponibile l’accesso SSH, due comandi forniscono la visione completa dello stato. Per una guida dettagliata su come interpretare l’output di mdadm e le procedure di recupero RAID, consultare la nostra guida al recupero RAID con mdadm. Di seguito sono riportati i pattern specifici da rilevare in questo scenario.
cat /proc/mdstat — mostra lo stato dell’assemblaggio e, se è in corso una ricostruzione, il progresso e la velocità correnti.
Una ricostruzione bloccata si presenta così:
Personalities : [raid5] [raid6] [raid1] md3 : active raid5 sdb3[0] sdc3[1] sdd3[2] 5860468736 blocks super 1.2 level 5, 64k chunk, algorithm 2 [3/2] [UU_] [================>....] recovery = 83.2% (2436352/2930234) finish=∞ speed=0K/sec unused devices: <none>
finish=∞ e speed=0K/sec confermano che la ricostruzione è bloccata — mdadm è in attesa di un settore che non riesce a leggere.
Un array crashato si presenta così:
Personalities : [raid5] [raid6] [raid1] md3 : inactive sdb3[0](S) sdc3[1](S) 5860468736 blocks super 1.2 unused devices: <none>
inactive con le flag (S) (spare) indica che mdadm non ha un array attivo — i dispositivi sono presenti ma non assemblati. I dati sono fisicamente sui dischi, ma non sono accessibili.
La tabella seguente mappa lo stato mostrato da DSM con quanto sta realmente accadendo e le azioni consigliate:
| Cosa mostra DSM | Cosa significa | Da non fare | Prossimo passo |
|---|---|---|---|
| Ricostruzione bloccata, speed = 0 Degraded | Un URE (errore di lettura non correggibile) su un disco esistente sta bloccando le scritture di parità. Array degradato ma integro. | Non attendere; non riavviare la ricostruzione | RS RAID Retrieve (recupero RAID / recupero dati) |
| Un disco marcato Faulty, ricostruzione interrotta Degraded | mdadm ha escluso un disco dopo letture ripetute o errori SATA. Il sistema opera senza ridondanza. | Non rimuovere il disco Faulty | Controllo S.M.A.R.T., poi RS RAID Retrieve |
| Storage Pool: Crashed Crashed | mdadm non è riuscito a mantenere il quorum. Array inattivo — dati presenti ma non accessibili. | Non cliccare Repair; non riavviare il sistema | RS RAID Retrieve |
| NAS non risponde, DSM non si avvia Unknown | Possibile blocco del kernel durante I/O di ricostruzione. Stato dell’array sconosciuto. | Non forzare lo spegnimento se non necessario | Arresto pulito tramite pressione prolungata del pulsante di accensione, quindi RS RAID Retrieve |
Recupero dati con RS RAID Retrieve
RS RAID Retrieve è uno strumento per il recupero dati RAID che ricostruisce la configurazione dell’array SHR dai superblocchi di mdadm presenti sui dischi rimanenti. Supporta array degradati in cui un membro è assente o contrassegnato come Faulty e fornisce accesso in sola lettura al volume per il recupero selettivo dei file — senza avviare un nuovo tentativo di ricostruzione dell’array.
Passaggio 1 — Collegare le unità e verificare S.M.A.R.T.
Arrestare il NAS in modo corretto, se possibile. Collegare tutte le unità — inclusa quella che DSM ha contrassegnato come difettosa — a un sistema di recupero e aprire il monitor S.M.A.R.T. integrato in RS RAID Retrieve. Verificare lo stato di ogni disco, non solo quello che risulta guasto. Durante la ricostruzione dell’array RAID l’unità che appare sana è spesso quella che ha causato il problema a causa di errori di lettura su un membro esistente.
Fase 2 — Creare un’immagine di qualsiasi unità con valori S.M.A.R.T. elevati
Se un’unità mostra valori diversi da zero per Conteggio settori riallocati (Reallocated Sector Count), Settori pendenti (Pending Sectors) o Errori non correggibili (Uncorrectable Errors), creare prima della scansione un’immagine a livello di settore dell’unità utilizzando la funzione di imaging integrata in RS RAID Retrieve. Tutte le successive operazioni di recupero dati vengono eseguite sull’immagine. Questo protegge l’unità sorgente da ulteriori letture durante la scansione e previene un ulteriore degrado su un’unità già sottoposta a stress.
Passaggio 3 — Ricostruzione automatica dell’array RAID
RS RAID Retrieve analizza il superblocco di mdadm presente su ciascun disco o immagine collegata, individua l’UUID dell’array, i ruoli dei membri, il livello RAID e i parametri di striping, e ricostruisce la struttura del volume SHR. Per un array degradato con un membro mancante o guasto, il programma può ricostruire utilizzando i dischi rimanenti — calcolando i dati mancanti dalla parità, esattamente come farebbe mdadm in modalità degradato, ma senza effettuare alcuna scrittura sui dischi.
Fase 4 — Esplorazione e recupero file
Arrestare il NAS correttamente, se possibile. Collegare tutte le unità — inclusa quella che DSM ha contrassegnato come “Faulty” — a una workstation di recupero per il recupero dati e aprire il monitor S.M.A.R.T. integrato in RS RAID Retrieve. Controllare ogni disco, non soltanto quello che ha segnalato il guasto. Durante la ricostruzione RAID, l’unità che sembra funzionare correttamente è spesso quella che ha causato il guasto a causa di errori di lettura su un membro esistente.
Gestisce array degradati e guasti
Ricostruisce volumi SHR (Synology Hybrid RAID) a partire dai membri rimanenti senza richiedere un array completo e integro — inclusi gli array inattivi che mdadm rifiuta di assemblare.
Monitoraggio S.M.A.R.T.
Verificare lo stato di salute del disco (S.M.A.R.T.) prima della scansione. Identificare quale unità ha causato il fallimento della ricostruzione RAID e se è necessario effettuare l’acquisizione dell’immagine del disco prima del recupero dei dati.
Imaging del disco
Creare un’immagine a livello di settore di un’unità in stato critico prima del recupero dati. Tutte le operazioni vengono eseguite sull’immagine — proteggendo l’originale da ulteriori cicli di lettura.
Connessione SSH remota
Se il NAS è ancora alimentato e raggiungibile in rete, RS RAID Retrieve può stabilire una connessione SSH remota per eseguire il recupero RAID — senza rimuovere fisicamente le unità dal telaio.
Quando il recupero software non è sufficiente
Se più unità non vengono rilevate una volta collegate alla macchina di recupero, oppure se S.M.A.R.T. segnala valori critici su più membri dell’array, la situazione ha superato il livello software. Un array SHR‑1 (Synology Hybrid RAID) con due unità guaste non dispone di parità da cui effettuare la ricostruzione: non esiste un percorso matematico per recuperare i dati mancanti affidandosi esclusivamente al software.
Interrompere l’uso e contattare un laboratorio di recupero dati se si rileva
- Due o più unità non rilevate, o che mostrano immediatamente un errore S.M.A.R.T. all’accensione
- Rumori di clic, stridio o tentativi ripetuti di avvio della rotazione (failed spin‑up) su qualsiasi unità
- RS RAID Retrieve non è in grado di ricostruire l’array neppure in modalità manuale
- Le unità risultano calde al tatto entro pochi minuti dalla connessione
Il recupero fisico dei dati — sostituzione delle testine, trasferimento dei piatti — richiede una camera bianca. Ogni ulteriore ciclo di alimentazione su un’unità con guasto meccanico riduce la probabilità di successo del recupero.
Dopo il ripristino: prevenire il prossimo errore di ricostruzione RAID
Un crash della ricostruzione RAID durante la sostituzione di un disco non è casuale. Colpisce una vulnerabilità specifica: tutte le unità rimanenti sono sottoposte al massimo carico di lettura sostenuto esattamente nel momento in cui l’array è privo di ridondanza. Le azioni seguenti riducono la probabilità che questo scenario si ripeta.
Verificare lo stato S.M.A.R.T. prima di sostituire un’unità
Eseguire un test S.M.A.R.T. esteso su tutti i dischi rimanenti prima di rimuovere l’unità difettosa. Un disco con settori riallocati o errori pendenti rischia di generare un URE (errore di lettura non recuperabile) durante la ricostruzione successiva.
Disabilitare le attività di DSM in background durante la ricostruzione
Accedere a Pannello di controllo → Pianificazione attività e sospendere, per tutta la durata della ricostruzione, i test S.M.A.R.T. pianificati, le operazioni di scrub di Btrfs e le scansioni della libreria multimediale. L’I/O concorrente è una delle cause di fallimento della ricostruzione più facilmente prevenibili.
Ricollegare i cavi SATA prima di iniziare
Una connessione marginale che funziona con carichi leggeri può interrompersi sotto la larghezza di banda sostenuta di una ricostruzione dell’array (ricostruzione RAID) che si protrae per più giorni. Prima di avviare la procedura di sostituzione, scollegare e ricollegare tutti i cavi dati e i cavi di alimentazione SATA.
Non mescolare lotti di unità disco
Le unità disco (HDD/SSD) acquistate contemporaneamente e appartenenti allo stesso lotto di produzione accumulano usura alla stessa velocità. Quando una unità si guasta, le altre dello stesso lotto sono statisticamente a rischio di guasto a breve termine. Procurare dischi di ricambio da un produttore o da un lotto di produzione differente.
Abilita le notifiche e-mail in DSM
Pannello di controllo → Notifiche → E-mail. In DSM puoi attivare le notifiche e-mail per il monitoraggio dei dischi: riceverai un avviso non appena un’unità viene contrassegnata come guasta o quando un pool di archiviazione si degrada. Individuare il guasto tempestivamente — prima che la ricostruzione superi le 60 ore — preserva maggiori opzioni per il recupero dei dati.
Mantieni un backup indipendente
SHR fornisce tolleranza ai guasti, non un backup. Un array degradato durante la ricostruzione RAID non offre protezione in caso di un secondo guasto. Hyper Backup verso un’unità esterna o una destinazione cloud è l’unica garanzia che un crash durante la ricostruzione non si traduca in perdita permanente dei dati.
Un errore di ricostruzione durante la sostituzione di un disco è uno degli scenari più frequenti di perdita dati con SHR, proprio perché avviene nel momento peggiore: carico I/O massimo sull’hardware più datato dell’array, senza alcun margine di ridondanza. Una volta recuperati i dati, considerare l’evento come un campanello d’allarme — non solo riguardo al disco che ha ceduto, ma anche sull’integrità e lo stato di salute di tutti i componenti con cui era in funzione.





