Esta página descreve como o Hotjar lida com incidentes.
O que é um incidente?
Um incidente é declarado se descobrirmos uma interrupção não planejada ou redução na qualidade do serviço normal que tenha durado mais de 15 minutos e esteja afetando pelo menos 5 usuários. Quando um incidente é declarado, ativamos nosso Plano de Resposta a Incidentes.
Você pode encontrar exemplos de incidentes anteriores e nossa resposta a eles em nossa página de Status.
Plano de Resposta a Incidentes de 9 etapas do Hotjar
Nosso Plano de Resposta a Incidentes nos dá um processo definido para identificar rapidamente a causa raiz de um incidente e implementar uma correção. Também nos ajuda a gerenciar o processo de comunicação com nossos usuários. Para poder lidar efetivamente com os incidentes, o Hotjar conta com uma equipe de Gerentes de Resposta a Incidentes (IRMs).
Assim que a monitoração detecta um incidente, nossos engenheiros de plantão são notificados. Um IRM assumirá então a responsabilidade por executar nosso Plano de Resposta a Incidentes (IRP). Incidentes que começam fora do horário comercial notificam nossos engenheiros de plantão, que irão conter o problema e seguir uma versão simplificada do IRP, chamando um IRM apenas se a gravidade exigir. Nosso objetivo é resolver os problemas rapidamente e fornecer suporte aos nossos usuários por meio de comunicação transparente. O processo é o seguinte:
Etapa 1: Configurar o incidente
O IRM designará um técnico e um contato de suporte. Essas três pessoas então constituem a equipe de resposta a incidentes e participarão de uma videoconferência criada pelo IRM. Se o incidente for suspeito de ser uma violação de dados ou de segurança, o Oficial de Proteção de Dados (DPO) do Hotjar será solicitado a se juntar à equipe de resposta a incidentes.
Assim que a natureza do incidente for identificada, sua gravidade será então avaliada pela equipe como Crítica, Principal ou Menor. Esses níveis dependem da extensão dos recursos afetados pela falha, porcentagem de clientes afetados, bem como segurança de dados.
Etapa 2: Anunciar que ocorreu um incidente e está sendo investigado
Os detalhes do incidente são compartilhados dentro do próprio Hotjar (via Slack).
A equipe de resposta a incidentes avalia quando temos informações precisas suficientes e uma notificação de incidente será publicada em nossa página de Status pública. A equipe de resposta a incidentes atualizará esta página à medida que avançamos nas etapas 5-7 abaixo. O status do incidente também é postado em nossa conta do Twitter @hotjar_status.
Etapa 3: Preparar um plano de suporte para usuários afetados
O contato de suporte trabalhará com a equipe de suporte do Hotjar para apoiar os usuários afetados pelo incidente. As preparações podem incluir a criação de documentação para os usuários para ajudá-los a contornar o problema. A equipe de suporte do Hotjar também considerará entrar em contato diretamente com os usuários afetados.
Etapa 4: Trabalhar para identificar e resolver o incidente
O contato técnico trabalhará com a equipe de engenharia para identificar o escopo do incidente e, se possível, a causa do incidente. O foco imediato é mitigar a situação (ou seja, restaurar o serviço o mais rápido possível).
À medida que mais informações sobre o incidente são descobertas, a equipe de incidentes reavaliará a gravidade.
Passo 5: Anunciar o incidente conforme identificado
Assim que o escopo e a causa do incidente forem identificados, o contato de suporte anunciará isso internamente para o Hotjar e externamente por meio de nossa Página de Status (se o incidente foi anunciado ao público).
Passo 6: Anunciar o incidente como monitoramento
Assim que uma correção for identificada e aplicada, o contato de suporte anunciará que está monitorando a situação para garantir que a correção funcionou. Isso será feito tanto internamente para o Hotjar quanto externamente por meio de nossa Página de Status (se o incidente foi anunciado ao público).
Passo 7: Anunciar o incidente como resolvido
Quando a equipe de resposta a incidentes estiver satisfeita de que o incidente não está mais afetando os usuários, eles anunciarão que o incidente foi resolvido. Isso será feito tanto internamente para o Hotjar quanto externamente por meio de nossa Página de Status (se o incidente foi anunciado ao público).
Passo 8: Concluir as comunicações com os clientes
Se o incidente foi anunciado externamente, por meio da Página de Status, a equipe de resposta a incidentes agora escreverá um relatório público com mais detalhes sobre o incidente. Isso é referido na Página de Status como o relatório "Postmortem".
Em algumas circunstâncias, o contato de suporte trabalhará com a equipe de suporte do Hotjar para entrar em contato diretamente com os usuários afetados pelo incidente.
Passo 9: Ações de acompanhamento
A equipe de incidentes agendará um pós-mortem interno do incidente, realizado (se possível) dentro de 24 horas da resolução do incidente. O pós-mortem provavelmente identificará mais ações para o Hotjar realizar para evitar que o incidente ocorra novamente.
A equipe de resposta a incidentes atualizará o relatório/pós-mortem em nossa Página de Status se mais detalhes forem descobertos no pós-mortem interno.