Cette page décrit comment Hotjar gère les incidents.
Qu'est-ce qu'un incident ?
Un incident est déclaré si nous découvrons une interruption non planifiée ou une réduction de la qualité du service normal qui dure depuis plus de 15 minutes et affecte au moins 5 utilisateurs. Lorsqu'un incident est déclaré, nous activons notre Plan de Réponse aux Incidents.
Vous pouvez trouver des exemples d'incidents précédents et notre réponse à ces incidents sur notre page d'état.
Plan de réponse aux incidents en 9 étapes de Hotjar
Notre Plan de Réponse aux Incidents nous offre un processus défini pour identifier rapidement la cause première d'un incident et déployer une solution. Il nous aide également à gérer la communication avec nos utilisateurs. Pour pouvoir traiter efficacement les incidents, Hotjar dispose d'une équipe de Gestionnaires de Réponse aux Incidents (IRMs).
Dès que la surveillance détecte un incident, nos ingénieurs d'astreinte sont notifiés. Un IRM prend alors la responsabilité d'exécuter notre Plan de Réponse aux Incidents (IRP). Les incidents survenant en dehors des heures de bureau notifient nos ingénieurs d'astreinte qui vont contenir le problème et suivre une version simplifiée de l'IRP, en ne faisant appel à un IRM que si la gravité le nécessite. Notre objectif est de résoudre les problèmes rapidement et d'apporter un soutien à nos utilisateurs grâce à une communication transparente. Le processus est le suivant :
Étape 1 : Mettre en place l'incident
L'IRM désignera un interlocuteur technique et un interlocuteur support. Ces trois personnes constituent alors l'équipe de réponse aux incidents et participeront à une conférence vidéo créée par l'IRM. Si l'incident est soupçonné d'être une violation de données ou une faille de sécurité, le Délégué à la Protection des Données (DPD) de Hotjar sera invité à rejoindre l'équipe de réponse aux incidents.
Une fois la nature de l'incident identifiée, son niveau de gravité est ensuite évalué par l'équipe comme étant Critique, Majeur ou Mineur. Ces niveaux dépendent de l'étendue des fonctionnalités affectées par la panne, du pourcentage de clients affectés, ainsi que de la sécurité des données.
Étape 2 : Annoncer qu'un incident s'est produit et est en cours d'investigation
Les détails de l'incident sont partagés au sein de Hotjar (via Slack).
L'équipe de réponse aux incidents évalue quand nous disposons d'informations suffisamment précises et une notification d'incident sera publiée sur notre page d'état publique. L'équipe de réponse aux incidents mettra à jour cette page au fur et à mesure que nous progressons dans les étapes 5 à 7 ci-dessous. Le statut de l'incident est également publié sur notre compte Twitter @hotjar_status.
Étape 3 : Préparer un plan de support pour les utilisateurs affectés
L'interlocuteur support travaillera avec l'équipe de support Hotjar pour aider les utilisateurs affectés par l'incident. Les préparatifs pourraient inclure la création de documentation pour aider les utilisateurs à contourner le problème. L'équipe de support Hotjar envisagera également de contacter directement les utilisateurs affectés.
Étape 4 : Travailler à identifier et résoudre l'incident
Le responsable technique travaillera avec l'équipe d'ingénierie pour identifier la portée de l'incident et, si possible, la cause de l'incident. L'objectif immédiat est de limiter la situation (c'est-à-dire de rétablir le service le plus rapidement possible).
À mesure que plus d'informations sur l'incident sont découvertes, l'équipe d'incident réévaluera la gravité.
Étape 5 : Annoncer l'incident tel qu'identifié
Une fois que la portée et la cause de l'incident ont été identifiées, le responsable de support annoncera cela à la fois en interne chez Hotjar et en externe via notre page d'état (si l'incident a été annoncé au public).
Étape 6 : Annoncer l'incident en surveillance
Une fois qu'une solution a été identifiée et appliquée, le responsable de support annoncera qu'ils surveillent désormais la situation pour s'assurer que la correction a fonctionné. Cela sera fait à la fois en interne chez Hotjar et en externe via notre page d'état (si l'incident a été annoncé au public).
Étape 7 : Annoncer la résolution de l'incident
Lorsque l'équipe de réponse à l'incident est convaincue que l'incident n'a plus d'impact sur les utilisateurs, ils annonceront que l'incident est résolu. Cela sera fait à la fois en interne chez Hotjar et en externe via notre page d'état (si l'incident a été annoncé au public).
Étape 8 : Finaliser les communications avec les clients
Si l'incident a été annoncé publiquement, via la page d'état, l'équipe de réponse à l'incident rédigera maintenant un rapport public avec plus de détails sur l'incident. Cela est mentionné sur la page d'état comme le rapport "Postmortem".
Dans certaines circonstances, le responsable de support travaillera avec l'équipe de support Hotjar pour contacter directement les utilisateurs affectés par l'incident.
Étape 9 : Actions de suivi
L'équipe d'incident planifiera un postmortem interne de l'incident, tenu (si possible) dans les 24 heures suivant la résolution de l'incident. Le postmortem identifiera probablement d'autres actions à entreprendre pour éviter que l'incident ne se reproduise chez Hotjar.
L'équipe de réponse à l'incident mettra à jour le rapport/postmortem sur notre page d'état si d'autres détails sont découverts lors du postmortem interne.