A company operates a data lake in Amazon S3 that stores large datasets in multiple formats. The company has an application that retrieves and processes subsets of data from multiple objects in the data lake based on filtering criteria. For each data query, the application currently downloads the entire S3 object and performs transformations. The current process requires a large amount of transformation time. The company wants a solution that will give the application the ability to query and filter directly on S3 objects without downloading the objects. Which solution will meet these requirements?

A Explanation: The best solution to query and filter S3 data directly without downloading the full object is to use Amazon Athena. Amazon Athena is an interactive query service that lets you use SQL to analyze structured, semi- structured, and unstructured data directly in Amazon S3, without needing to move or transform the data. It supports formats like CSV, JSON, ORC, Parquet, and Avro and integrates with AWS Glue Data Catalog for schema management. Athena is serverless, meaning there's no infrastructure to manage, and it's billed per query, which keeps it cost-effective. Option B (EMR) is heavier and requires managing a cluster. Option C (API Gateway) is not suited for querying S3 datasets. Option D (ElastiCache) is a memory store, not a query engine. Reference: What is Amazon Athena?

Certificação AWS Solutions Architect Associate SAA-C03

Questão 15

Uma empresa opera um data lake no Amazon S3 que armazena grandes conjuntos de dados em vários formatos. A empresa possui um aplicativo que recupera e processa subconjuntos de dados de vários objetos no data lake com base em critérios de filtragem. Para cada consulta de dados, o aplicativo atualmente baixa todo o objeto S3 e realiza transformações. O processo atual requer uma grande quantidade de tempo de transformação. A empresa deseja uma solução que dê ao aplicativo a capacidade de consultar e filtrar diretamente objetos S3 sem fazer download dos objetos. Qual solução atenderá a esses requisitos?

A Use o Amazon Athena para consultar e filtrar os objetos no Amazon S3.
B Use o Amazon EMR para processar e filtrar os objetos.
C Use o Amazon API Gateway para criar uma API para recuperar resultados filtrados do Amazon S3.
D Use o Amazon ElastiCache (Valkey) para armazenar em cache os objetos.

Resposta correta: A

Explicação

Explicação: A melhor solução para consultar e filtrar dados do S3 diretamente, sem fazer download do objeto completo, é usar o Amazon Athena. O Amazon Athena é um serviço de consulta interativo que permite usar SQL para analisar dados estruturados, semiestruturados e não estruturados diretamente no Amazon S3, sem a necessidade de mover ou transformar os dados. Ele oferece suporte a formatos como CSV, JSON, ORC, Parquet e Avro e integra-se ao AWS Glue Data Catalog para gerenciamento de esquemas. O Athena não tem servidor, o que significa que não há infraestrutura para gerenciar, e é cobrado por consulta, o que o mantém econômico. A opção B (EMR) é mais pesada e requer o gerenciamento de um cluster. A opção C (API Gateway) não é adequada para consultar conjuntos de dados S3. A opção D (ElastiCache) é um armazenamento de memória, não um mecanismo de consulta. Referência: O que é Amazon Athena?

Questão 14

Voltar à amostra

Questão 15

Explicação

Are you sure ?