Instabilidade nos serviços 30/11

Atualizações

Atualização
03 de dezembro de 2024 em 20:43:33
Atualização
03 de dezembro de 2024 em 20:43:33
Uma investigação mais profunda mostrou que o problema era causado por um dos serviços de edição em massa do cardápio que utilizavam um excesso de recursos.
Após a identificação, a equipe de desenvolvimento aplicou alterações para evitar que o uso de recursos excessivos acontecesse novamente.
Identificamos que este problema poderia ter sido evitado ativando alguns alertas específicos.
A fim de melhorar a estabilidade e o desempenho do sistema, e garantir que situações como as passadas não voltem a ocorrer, implementamos diversas alterações técnicas importantes, abrangendo tanto nossos serviços no nível de servidor quanto de programação e banco de dados. As seguintes melhorias foram realizadas para resolver as instabilidades recentes:
- Implementamos novos painéis de monitoramento no servidor para identificar e analisar serviços que consomem mais recursos, além de detectar áreas com maior volume de chamados.
- Adicionamos uma nova proteção aos serviços que demandam de alterações múltiplas.
- Inserimos logs mais detalhados de tempo de execução nos serviços críticos do sistema. Com isso, conseguimos monitorar melhor quais processos estão levando mais tempo para executar e priorizar melhorias.
- Melhoramos a organização dos dados, movendo algumas informações para um sistema especializado em leitura, o que garante mais agilidade, principalmente durante horários de pico.
- Fizemos ajustes no servidor, separando as tarefas mais pesadas (como integrações com plataformas de delivery) e os registros mais acessados, para garantir que o sistema funcione de maneira mais rápida e eficiente.
Essas foram as ações tomadas para garantir que o sistema continue mais eficiente e estável. Estamos investindo continuamente em melhorias para evitar que problemas semelhantes ocorram no futuro.
Atualização
02 de dezembro de 2024 em 11:26:00
Atualização
02 de dezembro de 2024 em 11:26:00
Nossa equipe de infraestrutura trabalhou durante o final de semana para investigar as causas das instabilidades ocorridas. Estamos comprometidos em resolver o problema de forma definitiva e garantir a estabilidade do sistema.
Na próxima atualização, que será publicada amanhã, compartilharemos mais detalhes sobre as ações realizadas e os próximos passos que estamos tomando.
Estamos atuando para resolver a questão em sua causa raiz.
Resolvido
01 de dezembro de 2024 em 01:20:00
Resolvido
01 de dezembro de 2024 em 01:20:00
Conforme relatos de praticamente todos os clientes e os testes efetivados pela equipe de operações, após a limpeza efetivada pela equipe de infraestrutura o sistema está com todos os serviços reestabelecidos completamente.
Monitoramento
01 de dezembro de 2024 em 01:16:00
Monitoramento
01 de dezembro de 2024 em 01:16:00
Após o procedimento da nossa equipe de infraestrutura os nossos serviços foram reestabelecidos conforme testes excecutados pela equipe de operações e relatos dos clientes.
Identificado
01 de dezembro de 2024 em 01:13:00
Identificado
01 de dezembro de 2024 em 01:13:00
Nossa equipe de infraestrutura identificou um problema em um dos nossos serviços hospedados no Google, possíveis causadores da lentidão e aplicou uma solução rápida de limpeza para reestabelecer os serviços.
Investigando
01 de dezembro de 2024 em 01:10:00
Investigando
01 de dezembro de 2024 em 01:10:00
Alguns clientes relataram que o sistema estava apresentando lentidão.
Constatamos que o problema de fato estava ocorrendo e ativamos a nossa equipe de infraestrutura para analisar o ocorrido.

Suitable Status - Instabilidade nos serviços 30/11 – Detalhes do incidente