Amazon diz que serviço da AWS volta ao normal após falha global
Por Greg Bensinger e Shubham Kalia e Deborah Mary Sophia SÃO FRANCISCO, Estados Unidos (Reuters) - O serviço de computação em nuvem da Amazon.com, AWS, voltou a operar normalmente, informou a empresa,

Por Greg Bensinger e Shubham Kalia e Deborah Mary Sophia
SÃO FRANCISCO, Estados Unidos (Reuters) - O serviço de computação em nuvem da Amazon.com, AWS, voltou a operar normalmente, informou a empresa, depois que uma falha causou problemas em milhares de sites e aplicativos ao redor do mundo, incluindo alguns dos mais populares, como Snapchat e Reddit.
Apesar disso, a Amazon disse que alguns serviços da AWS têm um acúmulo de mensagens que levará algumas horas para serem processadas.
A AWS hospeda aplicativos e processos de negócios de empresas de todo o mundo e a falha no serviço tirou do ar sites e serviços de Tóquio a São Paulo. Na tarde de segunda-feira, os usuários reclamavam de dificuldades persistentes no uso de serviços como a carteira digital Venmo e o site de chamadas de vídeo Zoom.
O problema foi considerado como a maior interrupção da internet desde o mau funcionamento da plataforma CrowdStrike no ano passado que prejudicou sistemas em hospitais, bancos e aeroportos.
Foi pelo menos a terceira vez em cinco anos que o cluster da AWS no norte da Virgínia, nos Estados Unidos, conhecido como US-EAST-1, contribuiu para um grande colapso da internet.
A Amazon não respondeu a um pedido de mais clareza sobre o motivo pelo qual esse data center específico continua sendo afetado por problemas. Os problemas decorreram do que é conhecido como Sistema de Nomes de Domínios, ou DNS, que impediu que os aplicativos encontrassem o endereço correto para a API DynamoDB da AWS, um banco de dados em nuvem utilizado para armazenar informações de usuários e outros dados críticos.
MONITOR DE INTEGRIDADE DE REDE
Anteriormente, a AWS disse que a causa raiz da interrupção foi um subsistema que monitora a saúde de seus balanceadores de carga de rede usados para distribuir o tráfego entre vários servidores.
O problema, segundo a AWS, teve origem na "rede interna EC2", o serviço "Elastic Compute Cloud" da Amazon, que fornece capacidade de nuvem sob demanda na AWS.
Pouco depois das 19h (horário de Brasília), a Amazon disse que "todos os serviços da AWS voltaram às operações normais. Alguns serviços, como o AWS Config, Redshift e Connect, continuam a ter um acúmulo de mensagens que serão processadas nas próximas horas".
Ken Birman, professor de ciência da computação da Universidade de Cornell, disse que os desenvolvedores de software precisam criar uma melhor tolerância a falhas. Ele disse que a AWS fornece ferramentas que os desenvolvedores podem usar para se protegerem no caso de um problema em um dos centros de dados de sua ampla rede, e os desenvolvedores também podem criar backups com outros provedores de serviços de computação em nuvem.
"Quando as pessoas cortam custos e economizam para tentar colocar um aplicativo no ar e depois esquecem que pularam a última etapa e não se protegem realmente contra uma interrupção, essas empresas são as que realmente serão examinadas mais tarde", disse Birman à Reuters.
A AWS disse em sua página de status que a interrupção de segunda-feira se originou no local US-EAST-1, o mais antigo e maior para serviços da web da empresa. O site sofreu interrupções em 2021 e 2020.
De acordo com a documentação no site da AWS, o site US-EAST-1 é frequentemente a região padrão para muitos serviços da AWS.
"INFRAESTRUTURAS FRÁGEIS"
O problema destaca como os serviços digitais cotidianos se tornaram interconectados e sua dependência de um pequeno número de provedores globais de computação em nuvem, disseram especialistas e acadêmicos.
"Essa interrupção mais uma vez destaca a dependência que temos de infraestruturas relativamente frágeis", disse Jake Moore, consultor global de segurança digital da empresa europeia ESET.
"A principal razão para esse problema é que todas essas grandes empresas dependem de apenas um serviço", disse Nishanth Sastry, diretor de pesquisa do Departamento de Ciência da Computação da Universidade de Surrey.
A Ookla, proprietária da Downdetector, disse que mais de 4 milhões de usuários relataram problemas devido aos problemas na AWS. Segundo a empresa, pelo menos mil companhias foram afetadas pela interrupção.
Aplicativos como Reddit, Roblox, Snapchat e Duolingo foram todos afetados.
A startup de inteligência artificial Perplexity, a bolsa de criptomoedas Coinbase e o aplicativo de negociação Robinhood sofreram interrupções na plataforma e as atribuíram à AWS.
Os próprios serviços da Amazon, incluindo seu site de compras, Prime Video e Alexa, também foram afetados.