10-09-2017 / blog / Marc de Beer

Business Continuïty

Beschikbaarheid van diensten. Dat is waar het bij Mission Critical om gaat. Daar is Business Continuïty één van de belangrijkste aspecten. We zorgen er dag en nacht voor dat alle diensten draaien over meerdere locaties om daarmee de continuïteit van de dienst te waarborgen.

 

Daarbij is het juist belangrijk om met elkaar na te denken wat we moeten doen wanneer het mis gaat. Stel dat een DataCenter niet beschikbaar is, wat doen we dan? Dat gaat niet alleen over de oplossingen in de techniek, maar zeker ook de wijze waarop de organisatie wordt ingericht en de manier waarop onze medewerkers acteren op een dergelijke situatie.

 

Het is niet alleen belangrijk om er over na te denken, maar nog veel belangrijker is het om regelmatig testen uit te voeren. Niet alleen voor de techniek, werkt alle techniek zoals we dat bedacht hebben, maar ook de wijze waarop we dit organiseren zoals het beschrijven van uitwijkplannen. En zeker ook het trainen van medewerkers. Wie voert wat uit op het moment dat een dergelijke situatie zich voor doet.

In de praktijk

In de afgelopen maanden hebben we voor één van onze klanten de voorbereidingen getroffen om een simulatie te doen voor de uitval van een DataCenter. Naast dat alle documentatie gecontroleerd is, de techniek getest is en er veel 'droogzwemsessies' gedaan zijn om daarmee de draaiboeken volledig en up-to-date te houden is er dan een datum geprikt waarop we deze simulatie in de praktijk gaan brengen.

 

In de nacht van 9 op 10 september is het dan zover. Een twintigtal medewerkers komen op locatie naar kantoor om de test uit te voeren. Ondanks alle voorbereidingen heerst er een gezonde spanning. Hoe reageert de techniek in de praktijk, hebben we alles nu beschreven en weet iedereen wat wat zijn of haar taak is.

 

Na de laatste checks gedaan te hebben of alle systemen zich gedragen zoals het zou moeten gaat de test dan echt van start. Er wordt een knip gemaakt tussen de DataCenters. En dan kom je er in de praktijk pas echt achter hoe een omgeving met meerdere Mission Critical diensten zich gedraagt.

 

Gaat alles dan in één keer goed? Het antwoord daarop heel kort: nee. Er komen wat zaken aan het licht waardoor de omgeving zich anders gedraagt dan verwacht. Ondanks dat de druk hoog is om de diensten beschikbaar te hebben blijven onze medewerkers rustig. Ze weten wat ze moeten doen en gaan vol energie aan de gang om functieherstel te bieden. De oorzaken worden snel gevonden en daarmee hebben we een volledige uitwijk gerealiseerd.

 

Nadat alle diensten gecontroleerd zijn en we concluderen dat alles draait zoals we verwachten wordt het weer tijd om terug te gaan naar de oorspronkelijke situatie. Ook hier zijn alle draaiboeken in gereedheid en worden deze stap voor stap uitgevoerd. Ook hier komen wat zaken aan het licht welke we mee nemen ter verbetering.

Conclusie

Het jaarlijks oefenen in de praktijk van een dergelijke test is een noodzaak. We kunnen alles beschreven hebben, 100 keer droog geoefend hebben en vertrouwen op de techniek, maar we moeten zekerheid hebben dat de omgeving zich gedraagd zoals dat bedacht is. In een test doen we dit op een gecontroleerde manier, maar daarmee weten we wel hoe een omgeving zich gedraagd op het moment dat er plotseling ongecontroleerd een DataCenter uitvalt. We halen er 'lessons learned' uit waardoor we onze dienstverlening nog beter kunnen maken.

 

Een dergelijke test is een nachtelijk avontuur waarbij ik trots ben op al onze medewerkers die zich dag en nacht inzetten voor onze klanten en de Mission Critical diensten die wij aan ze mogen leveren.

Uitwijk2