Oderland Status

Vad hände?

Driftstörningen som uppstod igår kväll var relaterad till problem med ett av våra lagringskluster som används för den delade webbhotellstjänsten. Notera att detta inte påverkade t.ex. Managed Server, eller andra tjänster. Under tiden för störningen så fungerade generellt läsningar, men lagringsklustret blockerade skrivningar.

Varför hände det?

Problemet uppstod under kvällen c:a 21:28. Men vi kunde redan tidigare, via vår övervakning, notera en del mindre prestandarelaterade problem orsakade av en utav två speglade diskar (RAID1) på tre olika noder i ett av våra lagringskluster. Vi inledde med att göra s.k. SMART-tester på diskarna när systemet var online och inga fel kunde noteras - även om vi kunde observera att de inte fungerade normalt.

Detta orsakade i sig inga problem - i det här läget - men eftersom vi bedömde att problemen kunde eskalera beslutade vi att bryta speglingen på servrarna. En i taget. Vi utförde åtgärder och kunde sedan verifiera att prestandan var tillfredsställande. Därefter startade vi en "rebuild" av speglingen. Allt såg väl ut.

En stund efter att underhållsarbetet var klart, och noderna var "fullvärdiga medlemmar" i klustret igen, så noterades filsystemskorruption på två av de tre noderna. Varpå vissa tjänster slutade fungera, mer eller mindre samtidigt, på båda noderna.

När detta hände så slutade lagringsklustret att acceptera skrivningar. All data var under hela tiden intakt, men det är en säkerhetsåtgärd att blockera skrivningar då det alltid måste finnas minst två kopior av all data i klustret. Klustret ser automatiskt till att sprida ut data på de övriga noderna i klustret så att man återfår minst två kopior av all data, men det kan i vissa fall (om t.ex. två noder går ner precis samtidigt) vara en ganska tidskrävande process.

Vi påbörjade snabbt arbetet med att återställa noderna, men tyvärr drog det ut lite på tiden och det dröjde drygt en halvtimme innan klustret fungerade normalt igen.

Systemen övervakades därefter extra noggrant under en tid samtidigt som vi verifierade att alla relaterade webbhotellstjänster fungerade korrekt. Drygt två timmar senare kunde vi konstatera att inga nya problem noterats och att allt fortfarande såg väl ut.

Vilka åtgärder vidtas framgent?

Vi har under dagen gjort en noggrann analys av det som inträffade och har bl.a. kunnat konstatera följande:

Även om underhållet gjordes på en nod i taget, borde vi ha spridit ut underhållsarbetet över en längre tid för att minska risken för följdfel som, i det här fallet, kan uppstå efter ett underhåll.
Problemet i sig, som orsakade delvis filsystemskorruption efter att speglingen slutförts, ser av allt att döma ut att varit relaterad till en mjukvarubugg. Vi har, efter att analyserat situationen och testat olika alternativ, hittat ett annat tillvägagångssätt som fungerar mer stabilt vid den här typen av arbete - även om metoden vi använde är fullt supportad och skall (samt brukar) fungera väl.

Vi har tagit med oss flera lärdomar och kommer se över våra rutiner för den här typen av underhåll generellt, och bl.a. anpassa dem med hänsyn till ovan.

Vi beklagar problem som detta inneburit för dig som kund, samt vill betona att vi ser allvarligt på det inträffade och kommer arbeta vidare med åtgärder för att minska risken för liknande incidenter i framtiden.

Problem på samtliga delade servrar

Postmortem

Vad hände?

Varför hände det?

Vilka åtgärder vidtas framgent?

Historik

Åtgärdad

Övervakar

Övervakar

Identifierad

Undersöker