Uma investigação mais profunda mostrou que o problema era causado por um dos serviços de edição em massa do cardápio que utilizavam um excesso de recursos.
Após a identificação, a equipe de desenvolvimento aplicou alterações para evitar que o uso de recursos excessivos acontecesse novamente.
Identificamos que este problema poderia ter sido evitado ativando alguns alertas específicos.
A fim de melhorar a estabilidade e o desempenho do sistema, e garantir que situações como as passadas não voltem a ocorrer, implementamos diversas alterações técnicas importantes, abrangendo tanto nossos serviços no nível de servidor quanto de programação e banco de dados. As seguintes melhorias foram realizadas para resolver as instabilidades recentes:
Implementamos novos painéis de monitoramento no servidor para identificar e analisar serviços que consomem mais recursos, além de detectar áreas com maior volume de chamados.
Adicionamos uma nova proteção aos serviços que demandam de alterações múltiplas.
Inserimos logs mais detalhados de tempo de execução nos serviços críticos do sistema. Com isso, conseguimos monitorar melhor quais processos estão levando mais tempo para executar e priorizar melhorias.
Melhoramos a organização dos dados, movendo algumas informações para um sistema especializado em leitura, o que garante mais agilidade, principalmente durante horários de pico.
Fizemos ajustes no servidor, separando as tarefas mais pesadas (como integrações com plataformas de delivery) e os registros mais acessados, para garantir que o sistema funcione de maneira mais rápida e eficiente.
Essas foram as ações tomadas para garantir que o sistema continue mais eficiente e estável. Estamos investindo continuamente em melhorias para evitar que problemas semelhantes ocorram no futuro.