Oderland Status

Senast uppdaterad 2024-07-27 08:49 CEST

Incidentrapport

Problem med MariaDB på server11.serverdrift.com

Den här incidenten påverkade: server11.serverdrift.com

Postmortem

24 May 2024 11:30 CEST

Vad hände?

Korruption uppstod plötsligt i en systemdatafil (ibdata1) för InnoDB på servern, vilket resulterade i att MariaDB (tidigare MySQL) kraschade. Detta innebar att webbplatser beroende av MariaDB inte kunde laddas korrekt.

Varför hände det?

Vi vet ännu inte varför korruptionen uppstod och letar fortfarande efter bakomliggande orsaker. Det finns flera vanliga orsaker till liknande problem (t.ex. strömavbrott), men ingen som stämmer in i det här fallet. Det är värt att notera att vi inte tidigare har stött på just detta problem, vilket gör det extra viktigt för oss att förstå vad som gick fel. Vi misstänker just nu en bugg i programvaran, men vi hittar inga relevanta buggrapporter hos MariaDB.

Orsaken till att det tog drygt en timme att få igång tjänsterna igen var därför att vi ville vara särskilt försiktiga för att inte förvärra problemet. Under processen tog vi bland annat en extra backup på alla databaser för att ha en helt färsk kopia. Vi diskuterade även internt de olika stegen, för att säkerställa att inget gick fel. Vi felsökte grundligt för att kontrollera att vi inte hade några andra underliggande fel som riskerade att samma problem uppstod igen. Därefter utförde vi en "InnoDB recovery" och verifierade noggrant resultatet samt kontrollerade alla databaser och tabeller för att säkerställa att inga fel rapporterades.

Vår bedömning är att ingen data förlorades, annat än ett fåtal transaktioner som pågick under själva kraschen och aldrig hann skrivas klart.

Vad kommer ni göra för att det inte ska hända igen?

För tillfället, tills vi har identifierat den exakta orsaken till korruptionen, har vi ingen specifik åtgärd att vidta för att förhindra att det händer igen. Vi ser dock allvarligt på det inträffade och kommer att fortsätta undersöka det noggrant, för att så gott vi kan undvika att det händer igen.

Vi planerar även att samla in mer information och rapportera detta som en bugg till MariaDB.

Eventuella åtgärder och förbättringar som identifieras kommer att implementeras så snart som möjligt för att säkerställa att våra tjänster förblir stabila och tillförlitliga.

Vi ber om ursäkt för de problem som uppstod och tackar för ditt tålamod.

Historik

Åtgärdad

Vi har haft servern under extra övervakning sedan händelsen igår. Vi har inte sett några ytterligare problem, utan bedömer att allt fungerar normalt.

Vi kommer publicera mer information om vad som hände senare.

Övervakar

Problemet är identifierat och löst men vi fortsätter att övervaka för att se så att allting fungerar som det ska.

Undersöker

Vi undersöker fortfarande problemet.

Undersöker

Vi undersöker just nu ett problem med MariaDB på server11.serverdrift.com vilket gör att det just nu inte går att nå några databaser på servern.