Soluzione 1:
Probabilmente la soluzione migliore è un problema hardware da qualche parte tra i tuoi dischi e fino al tuo controller raid sas incluso. Consiglio di provare:
- Esegui eventuali strumenti diagnostici del fornitore/i, se disponibili
- Controllare/riposizionare/sostituire i cavi
- elimina i componenti hardware e sostituisci l'hardware nella catena che collega i dischi al tuo controller raid, incluso il controller stesso (ovvero, per te, prova qualcosa di diverso dal raid integrato nella scheda madre).
Ho avuto uno dei due Dell PowerEdge R515 identici che davano messaggi molto simili (i registri si riempiono periodicamente di messaggi mpt2sas0, anche se non ho i codici numerici esatti). La diagnostica avviabile di Dell li ha rilevati come "errori hardware" e la sostituzione del backplane RAID sas ha risolto il problema.
Quando stavo indagando, non sono riuscito a trovare una risorsa completa sul significato dei vari codici di errore mpt2sas0. Sospetto che possano anche essere specifici del fornitore di hardware (qualcuno che ne sa di più su SAS deve confermarlo o negarlo). Quindi i tuoi codici di errore potrebbero significare qualcosa di molto diverso, ma se SMART è pulito è difficile immaginare altri buoni motivi per cui mpt2sas0 riporti i codici di errore.
Questi errori possono essere molto gravi. Il mio R515 ha funzionato apparentemente bene con questi messaggi per una settimana con un raid 6 del software Ubuntu Linux da 12 dischi, ma poi improvvisamente ha espulso tutti i 12 dischi dall'array come rotto (!)
Anche nel mio caso lo SMART per tutti i dischi era completamente pulito. Un buon controllo è un test di autodiagnosi intelligente:smartctl -t long /dev/sdX
, quindi controlla i risultati circa un giorno dopo con smartctl -l selftest /dev/sdX
. Se tutto va bene il test dovrebbe dire Completed
e il LBA_first_err
la colonna deve essere vuota.
Soluzione 2:
Wow, difficile.
Questo sembra indicare che 0x31120303 è un ripristino del bus a causa di uno dei tuoi dispositivi sotto carico pesante. Dice anche che non devi preoccuparti. (Haha, sì giusto.)
Ciò indica che questi messaggi di registro si verificano perché uno dei tuoi dispositivi impiega troppo tempo per rispondere ai comandi. Questo dice la stessa cosa e indica anche che si verifica sotto carico pesante.
Anche se questa non è una risposta completa, si spera che ti indichi una direzione utile.