Esta página describe cómo Hotjar maneja los incidentes.
¿Qué es un incidente?
Se declara un incidente si descubrimos una interrupción no planificada o una reducción en la calidad del servicio normal que ha durado más de 15 minutos y está afectando al menos a 5 usuarios. Cuando se declara un incidente, activamos nuestro Plan de Respuesta a Incidentes.
Puede encontrar ejemplos de incidentes anteriores y nuestra respuesta a ellos en nuestra página de estado.
Plan de respuesta a incidentes de 9 pasos de Hotjar
Nuestro Plan de Respuesta a Incidentes nos proporciona un proceso definido para identificar rápidamente la causa raíz de un incidente y implementar una solución. También nos ayuda a gestionar el proceso de comunicación con nuestros usuarios. Para poder abordar eficazmente los incidentes, Hotjar cuenta con un equipo de Gerentes de Respuesta a Incidentes (IRMs, por sus siglas en inglés).
Tan pronto como el monitoreo detecta un incidente, se notifica a nuestros ingenieros de guardia. Luego, un IRM asume la responsabilidad de ejecutar nuestro Plan de Respuesta a Incidentes (IRP). Los incidentes que comienzan fuera del horario comercial notifican a nuestros ingenieros de guardia, quienes controlarán el problema y seguirán una versión simplificada del IRP, solo llamando a un IRM si la gravedad lo requiere. Nuestro objetivo es resolver los problemas rápidamente y brindar soporte a nuestros usuarios a través de una comunicación transparente. El proceso es el siguiente:
Paso 1: Configurar el incidente
El IRM designará un enlace técnico y un enlace de soporte. Estas tres personas constituirán el equipo de respuesta a incidentes y se unirán a una videoconferencia creada por el IRM. Si se sospecha que el incidente es una violación de datos o una violación de seguridad, se pedirá al Oficial de Protección de Datos (DPO) de Hotjar que se una al equipo de respuesta a incidentes.
Una vez que se identifica la naturaleza del incidente, el equipo evaluará su gravedad como Crítico, Mayor o Menor. Estos niveles dependen del alcance de las características afectadas por la falla, el porcentaje de clientes afectados, así como la seguridad de los datos.
Paso 2: Anunciar que se ha producido un incidente y se está investigando
Los detalles del incidente se comparten dentro de Hotjar (a través de Slack).
El equipo de respuesta a incidentes evalúa cuándo tenemos suficiente información precisa y se publicará una notificación de incidente en nuestra página de estado pública. El equipo de respuesta a incidentes actualizará esta página a medida que avancemos en los pasos 5-7 a continuación. El estado del incidente también se publica en nuestra cuenta de Twitter @hotjar_status.
Paso 3: Preparar un plan de soporte para los usuarios afectados
El enlace de soporte trabajará con el equipo de soporte de Hotjar para brindar soporte a los usuarios afectados por el incidente. Las preparaciones podrían incluir la creación de documentación para que los usuarios los ayuden a trabajar en torno al problema. El equipo de soporte de Hotjar también considerará comunicarse directamente con los usuarios afectados.
Paso 4: Trabajar para identificar y resolver el incidente
El enlace técnico trabajará con el equipo de ingeniería para identificar el alcance del incidente y, si es posible, la causa del incidente. El enfoque inmediato es mitigar la situación (es decir, restaurar el servicio lo antes posible).
A medida que se descubra más información sobre el incidente, el equipo de incidentes volverá a evaluar la gravedad.
Paso 5: Anunciar el incidente como identificado
Una vez que se haya identificado el alcance y la causa del incidente, el enlace de soporte lo anunciará tanto internamente en Hotjar como externamente a través de nuestra página de estado (si el incidente se anunció al público).
Paso 6: Anunciar el incidente como monitoreo
Una vez que se haya identificado y aplicado una solución, el enlace de soporte anunciará que ahora está monitoreando la situación para asegurarse de que la solución haya funcionado. Esto se realizará tanto internamente en Hotjar como externamente a través de nuestra página de estado (si el incidente se anunció al público).
Paso 7: Anunciar el incidente como resuelto
Cuando el equipo de respuesta a incidentes esté satisfecho de que el incidente ya no afecta a los usuarios, anunciarán que el incidente está resuelto. Esto se realizará tanto internamente en Hotjar como externamente a través de nuestra página de estado (si el incidente se anunció al público).
Paso 8: Completar las comunicaciones con los clientes
Si el incidente se anunció externamente, a través de la página de estado, el equipo de respuesta a incidentes ahora redactará un informe público con más detalles sobre el incidente. Esto se menciona en la página de estado como el informe "Postmortem".
En algunas circunstancias, el enlace de soporte trabajará con el equipo de soporte de Hotjar para contactar directamente a los usuarios afectados por el incidente.
Paso 9: Acciones de seguimiento
El equipo de incidentes programará un informe interno posterior al incidente, que se llevará a cabo (si es posible) dentro de las 24 horas posteriores a la resolución del incidente. El informe posterior al incidente probablemente identificará acciones adicionales que Hotjar debe emprender para evitar que el incidente vuelva a ocurrir.
El equipo de respuesta a incidentes actualizará el informe/postmortem en nuestra página de estado si se descubren más detalles en el informe interno posterior al incidente.