Questão 15
Uma empresa opera um data lake no Amazon S3 que armazena grandes conjuntos de dados em vários formatos. A empresa possui um aplicativo que recupera e processa subconjuntos de dados de vários objetos no data lake com base em critérios de filtragem. Para cada consulta de dados, o aplicativo atualmente baixa todo o objeto S3 e realiza transformações. O processo atual requer uma grande quantidade de tempo de transformação. A empresa deseja uma solução que dê ao aplicativo a capacidade de consultar e filtrar diretamente objetos S3 sem fazer download dos objetos. Qual solução atenderá a esses requisitos?
- A Use o Amazon Athena para consultar e filtrar os objetos no Amazon S3.
- B Use o Amazon EMR para processar e filtrar os objetos.
- C Use o Amazon API Gateway para criar uma API para recuperar resultados filtrados do Amazon S3.
- D Use o Amazon ElastiCache (Valkey) para armazenar em cache os objetos.
Resposta correta:
A
Explicação
Explicação: A melhor solução para consultar e filtrar dados do S3 diretamente, sem fazer download do objeto completo, é usar o Amazon Athena. O Amazon Athena é um serviço de consulta interativo que permite usar SQL para analisar dados estruturados, semiestruturados e não estruturados diretamente no Amazon S3, sem a necessidade de mover ou transformar os dados. Ele oferece suporte a formatos como CSV, JSON, ORC, Parquet e Avro e integra-se ao AWS Glue Data Catalog para gerenciamento de esquemas. O Athena não tem servidor, o que significa que não há infraestrutura para gerenciar, e é cobrado por consulta, o que o mantém econômico. A opção B (EMR) é mais pesada e requer o gerenciamento de um cluster. A opção C (API Gateway) não é adequada para consultar conjuntos de dados S3. A opção D (ElastiCache) é um armazenamento de memória, não um mecanismo de consulta. Referência: O que é Amazon Athena?