Vrijdagmorgen 14 oktober waren er performance problemen met Self Service. Na onderzoek van onze telemetrie, bleek al snel dat de servers van Self Service niet de oorzaak waren.
Ons viel direct op dat er verschillende dips waren in het aantal verzoeken dat de servers van Self Service te verwerken kregen. Zie onderstaande grafiek.
Deze dips waren voor ons een indicatie dat er een probleem was tussen de browser van de gebruikers en het verwerken van de verzoeken op de omgeving.
Om dit verder te onderzoeken hebben we de volgende stappen genomen:
- Laatste release van Self Service teruggedraaid, dit is onderdeel van de “best practice” om snel terug te gaan naar een stabiele situatie. Helaas bleef het probleem bestaan en hebben we de volgende stap genomen.
- Analyse van alle componenten tussen de browser en de Self Service omgeving. Dit is een lijst van componenten die zorgen voor Authenticatie, Autorisatie, Performance en Security.
- Microsoft betrokken om te helpen met de analyse van de verschillende componenten.
- Oorzaak van het probleem gevonden bij een van de componenten namelijk de Application Gateway, deze component de Application Gateway is een component dat verantwoordelijk is om het web verkeer te verdelen over onze Self Service omgevingen. Deze component bestaat intern uit verschillende virtuele instances om een goede performance te garanderen. Het bleek dat een van die virtuele instances corrupt was geraakt, dit werd ook bevestigd door de Microsoft engineer. Deze engineer heeft de logfiles op dat moment zeker gesteld. Toen we de Application Gateway forceerde om nieuwe instances te gebruiken was het probleem opgelost. Daarna hebben we de Application Gateway terug gezet in de oorspronkelijk configuratie waardoor deze weer kan groeien tussen de 2 en 10 instances. Omdat het inmiddels na 21:00 uur was en er niet veel gebruikers meer op het systeem waren hebben we een aantal performance tests uitgevoerd om te controleren of het systeem ook stabiel blijft draaien als er meer gebruikers zouden zijn. Het probleem trad tijdens deze performance testen niet meer op.
Vanaf vanmorgen zien we dat de Application Gateway stabiel is gebleven, maar dat de load heel hoog is waardoor het heel druk is op de omgeving. We hebben in de loop van de ochtend de capaciteit verhoogd waardoor de performance verbeterde. Uiteraard blijven we dit scherp monitoren.