Esta página descreve como a Hotjar lida com incidentes.
O que é um incidente?
Um incidente é declarado se descobrirmos uma interrupção não planejada ou uma redução na qualidade do serviço normal que durou mais de 15 minutos e está afetando pelo menos 5 usuários. Quando um incidente é declarado, ativamos nosso Plano de Resposta a Incidentes.
Você pode encontrar exemplos de incidentes anteriores e nossa resposta a eles em nossa página de Status.
Plano de Resposta a Incidentes em 9 passos da Hotjar
Nosso Plano de Resposta a Incidentes nos fornece um processo definido para identificar rapidamente a causa raiz de um incidente e implementar uma correção. Ele também nos ajuda a gerenciar o processo de comunicação com nossos usuários. Para poder lidar efetivamente com incidentes, a Hotjar tem uma equipe de Gerentes de Resposta a Incidentes (GRIs).
Assim que a monitoração detecta um incidente, nossos engenheiros de plantão são notificados. Um GRI então assume a responsabilidade de executar nosso Plano de Resposta a Incidentes (PRI). Incidentes que começam fora do horário comercial notificam nossos engenheiros de plantão, que irão conter o problema e seguir uma versão simplificada do PRI, chamando um GRI apenas se a gravidade exigir. Nosso objetivo é resolver os problemas rapidamente e fornecer suporte aos nossos usuários através de uma comunicação transparente. O processo é o seguinte:
Passo 1: Configurar o incidente
O GRI designará um contato técnico e um de suporte. Essas três pessoas então constituem a equipe de resposta a incidentes e se juntarão a uma chamada de vídeo conferência criada pelo GRI. Se o incidente for suspeito de ser uma violação de dados ou de segurança, o Encarregado de Proteção de Dados (EPD) da Hotjar será convidado a se juntar à equipe de resposta a incidentes.
Uma vez identificada a natureza do incidente, sua gravidade é então avaliada pela equipe como Crítica, Maior ou Menor. Esses níveis dependem da extensão das funcionalidades afetadas pela falha, porcentagem de clientes afetados, bem como segurança de dados.
Passo 2: Anunciar que um incidente ocorreu e está sendo investigado
Os detalhes do incidente são compartilhados internamente na Hotjar (via Slack).
A equipe de resposta a incidentes avalia quando temos informações suficientemente precisas e uma notificação de incidente será publicada em nossa página de Status pública. A equipe de resposta a incidentes atualizará esta página à medida que avançamos pelos passos 5-7 abaixo. O status do incidente também é postado em nossa conta do Twitter @hotjar_status.
Passo 3: Preparar um plano de suporte para os usuários afetados
O contato de suporte trabalhará com a equipe de suporte da Hotjar para auxiliar os usuários afetados pelo incidente. As preparações podem incluir a criação de documentação para os usuários para ajudá-los a contornar o problema. A equipe de suporte da Hotjar também considerará entrar em contato diretamente com os usuários afetados.
Passo 4: Trabalhar para identificar e resolver o incidente
O contato técnico trabalhará com a equipe de engenharia para identificar o escopo do incidente e, se possível, a causa do incidente. O foco imediato é mitigar a situação (ou seja, restaurar o serviço o mais rápido possível).
À medida que mais informações sobre o incidente são descobertas, a equipe do incidente reavaliará a gravidade.
Passo 5: Anuncie o incidente como identificado
Uma vez que o escopo e a causa do incidente foram identificados, o contato de suporte anunciará isso internamente para a Hotjar e externamente através da nossa página de status (se o incidente foi anunciado ao público).
Passo 6: Anuncie o incidente como monitorado
Uma vez que uma solução foi identificada e aplicada, o contato de suporte anunciará que agora está monitorando a situação para garantir que a solução funcionou. Isso será realizado internamente para a Hotjar e externamente através da nossa página de status (se o incidente foi anunciado ao público).
Passo 7: Anuncie o incidente como resolvido
Quando a equipe de resposta ao incidente estiver satisfeita que o incidente não está mais afetando os usuários, eles anunciarão que o incidente está resolvido. Isso será realizado internamente para a Hotjar e externamente através da nossa página de status (se o incidente foi anunciado ao público).
Passo 8: Concluir as comunicações voltadas para o cliente
Se o incidente foi anunciado externamente, através da página de status, a equipe de resposta ao incidente agora escreverá um relatório público com mais detalhes sobre o incidente. Isso é referido na página de status como o relatório "Pós-morte".
Em algumas circunstâncias, o contato de suporte trabalhará com a equipe de suporte da Hotjar para entrar em contato diretamente com os usuários afetados pelo incidente.
Passo 9: Ações de acompanhamento
A equipe do incidente agendará um pós-morte interno do incidente, realizado (se possível) dentro de 24 horas após a resolução do incidente. O pós-morte provavelmente identificará ações adicionais para a Hotjar realizar para evitar que o incidente ocorra novamente.
A equipe de resposta ao incidente atualizará o relatório/pós-morte em nossa página de status se mais detalhes forem descobertos no pós-morte interno.