Esta página describe cómo Hotjar maneja los incidentes.
¿Qué es un incidente?
Se declara un incidente si descubrimos una interrupción no planificada o una reducción en la calidad del servicio normal que ha durado más de 15 minutos y está afectando al menos a 5 usuarios. Cuando se declara un incidente, activamos nuestro Plan de Respuesta a Incidentes.
Puedes encontrar ejemplos de incidentes anteriores y nuestra respuesta a ellos en nuestra página de Estado.
Plan de Respuesta a Incidentes de 9 pasos de Hotjar
Nuestro Plan de Respuesta a Incidentes nos proporciona un proceso definido para identificar rápidamente la causa raíz de un incidente y desplegar una solución. También nos ayuda a gestionar la comunicación con nuestros usuarios. Para poder abordar eficazmente los incidentes, Hotjar cuenta con un equipo de Gerentes de Respuesta a Incidentes (IRMs).
Tan pronto como el monitoreo detecta un incidente, se notifica a nuestros ingenieros de guardia. Un IRM asumirá entonces la responsabilidad de ejecutar nuestro Plan de Respuesta a Incidentes (IRP). Los incidentes que comienzan fuera del horario laboral notifican a nuestros ingenieros de guardia, quienes contienen el problema y siguen una versión simplificada del IRP, llamando a un IRM solo si la gravedad lo requiere. Nuestro objetivo es resolver los problemas rápidamente y brindar apoyo a nuestros usuarios a través de una comunicación transparente. El proceso es el siguiente:
Paso 1: Configurar el incidente
El IRM designará un enlace técnico y un enlace de soporte. Estas tres personas constituyen entonces el equipo de respuesta a incidentes y se unirán a una videoconferencia creada por el IRM. Si se sospecha que el incidente es una violación de datos o de seguridad, se pedirá al Oficial de Protección de Datos (DPO) de Hotjar que se una al equipo de respuesta a incidentes.
Una vez identificada la naturaleza del incidente, su gravedad es evaluada por el equipo como Crítica, Mayor o Menor. Estos niveles dependen de la extensión de las características afectadas por la falla, el porcentaje de clientes afectados, así como la seguridad de los datos.
Paso 2: Anunciar que ha ocurrido un incidente y se está investigando
Los detalles del incidente se comparten dentro de Hotjar mismo (a través de Slack).
El equipo de respuesta a incidentes evalúa cuándo tenemos información suficiente y precisa, y se publicará una notificación de incidente en nuestra página de Estado pública. El equipo de respuesta a incidentes actualizará esta página a medida que avancemos en los pasos 5-7 a continuación. El estado del incidente también se publica en nuestra cuenta de Twitter @hotjar_status.
Paso 3: Preparar un plan de soporte para los usuarios afectados
El enlace de soporte trabajará con el equipo de soporte de Hotjar para apoyar a los usuarios afectados por el incidente. Las preparaciones podrían incluir la creación de documentación para ayudar a los usuarios a trabajar en torno al problema. El equipo de soporte de Hotjar también considerará comunicarse directamente con los usuarios afectados.
Paso 4: Trabajar para identificar y resolver el incidente
El enlace técnico trabajará con el equipo de ingeniería para identificar el alcance del incidente y, si es posible, la causa del incidente. El enfoque inmediato es mitigar la situación (es decir, restaurar el servicio lo antes posible).
A medida que se descubra más información sobre el incidente, el equipo de incidentes reevaluará la gravedad.
Paso 5: Anunciar el incidente una vez identificado
Una vez identificado el alcance y la causa del incidente, el enlace de soporte anunciará esto tanto internamente en Hotjar como externamente a través de nuestra página de Estado (si el incidente fue anunciado al público).
Paso 6: Anunciar el incidente en monitoreo
Una vez identificada y aplicada una solución, el enlace de soporte anunciará que ahora están monitoreando la situación para asegurarse de que la solución haya funcionado. Esto se llevará a cabo tanto internamente en Hotjar como externamente a través de nuestra página de Estado (si el incidente fue anunciado al público).
Paso 7: Anunciar el incidente como resuelto
Cuando el equipo de respuesta a incidentes esté satisfecho de que el incidente ya no está afectando a los usuarios, anunciarán que el incidente está resuelto. Esto se llevará a cabo tanto internamente en Hotjar como externamente a través de nuestra página de Estado (si el incidente fue anunciado al público).
Paso 8: Completar las comunicaciones con los clientes
Si el incidente fue anunciado externamente, a través de la página de Estado, el equipo de respuesta a incidentes ahora redactará un informe público con más detalles sobre el incidente. Esto se menciona en la página de Estado como el informe "Postmortem".
En algunas circunstancias, el enlace de soporte trabajará con el equipo de soporte de Hotjar para contactar directamente a los usuarios afectados por el incidente.
Paso 9: Acciones de seguimiento
El equipo de incidentes programará un postmortem interno del incidente, que se llevará a cabo (si es posible) dentro de las 24 horas posteriores a la resolución del incidente. El postmortem probablemente identificará más acciones para que Hotjar realice y evite que el incidente vuelva a ocurrir.
El equipo de respuesta a incidentes actualizará el informe/postmortem en nuestra página de Estado si se descubren más detalles en el postmortem interno.