Amikor egyszerre minden beszarik

On 2012/01/24, in Egyéb, by Taracque

Tegnap dúrván indult a napom, bejöttem és azzal vártak a kollegák, hogy nem megy az email. Eddig ez viszonylag rutinnak látszot, Windows szerver újraindítás, esetleg hely felszabadítás, ennek nézett ki. Majd amikor kicsit ránéztem a dologra már szörnyen nézett ki. A Virtuális szerverek nagyrésze nem ment, a storage azt mutatta, hogy 2 diszk, és egy kontroller elszállt mégpedig egyidőben. Mentés volt persze, de az Exchange szerver 500GB-ját visszaszedni backupból még jó esetben is eltartott volna egy napig, úgyhogy már a lehetséges katasztrófa elhárítási terveken kezdtem agyalni.
A storage szerint reggel 1:07 kor leállt 1 diszk, majd 2:45kor elszállt az egyik storage controller, és 6:53-kor eldobta magát az a diszk, ami a hibás helyét akarta átvenni. A raid rebuild 80%-on leállt, kb. 8 terra adat logott a semmiben, és a raidkontroller hibája miatt nem is lehetett hozzáférni.
Az első bassza meg-ek után riasztottam a storage supportját, mert ha ez igaz, akkor itt valami kapitális hiba történt, amit nem biztos hogy házon belűl meg tudtunk volna oldani. Azért bennem volt, hogy annak a valószinűsége, hogy 2 diszk, és egy kontroller is ennyire rövid időn belűl szarik be jóval kisebb egy lottó 5ösnél, és mivel nem is egyszerre történt reménykedni bírtam abban is, hogy nem egy villámcsapás szerű esemény nyírta ki az egész szerverszobát.
Szóval kapcsoljunk ki mindent, majd indítsuk el step-by-step, és hátha kiderül valami. A leállítás is 1 órát vett igénybe, de már az első eszköz lekapcsolásakor feltűnt, hogy az addig akkumulátor hibás UPS egyszercsak magához tért (1 hete szart be az aksija, már meg volt rendelve a csere aksi, csak még nem ért ide). És láss csodát újraindításkor minden szépen elindult, a storage is magához tért, a rossz diszkek is elindultak.
A logokat nézve valami olyan történt, hogy a hibás UPS nem tudta tartani a feszültséget, emiatt állt le szépen lassan a storage mert nem bírta pörgetni a diszkeket. Az eredendő bűnt az okozta, hogy ugyan minden két betáppal rendelkezik (UPS és vonali), de feszültség esés esetén a hibás UPS miatt gyakorlatilag ugyanaz a feszültség meg mindkét vonalon. Szóval nagy hírtelen beraktunk egy új UPS-t, és átterveztük a betápokat.
Volt egy 3 órás üzemszünet, illetve nem kis idegeskedés amiatt hogy hogy a fenébe fogunk mindent backupból visszaállítani 7 óra leforgása alatt.
Végül is szerencsénk volt megúsztuk. 🙂

Tagged with:  

Leave a Reply

Or

Your email address will not be published.