Questão 2

Um cientista de dados está trabalhando com dados não rotulados e deseja construir um modelo de clustering. Qual das seguintes técnicas um cientista de dados deve usar?
  1. A Aprendizagem supervisionada
  2. B Aprendizagem por reforço
  3. C Aprendizagem não supervisionada
  4. D Aprendizagem semissupervisionada
Resposta correta: C

Explicação

Explicação: Conceito Básico: Diferentes paradigmas de aprendizagem de ML lidam com diferentes situações de dados. A disponibilidade de dados rotulados e não rotulados determina qual abordagem de aprendizagem é apropriada. A construção de modelos de clustering requer especificamente o aprendizado com dados sem rótulos de categoria predefinidos. O Guia de estudo CompTIA SecAI + cobre paradigmas de aprendizagem de ML sob conceitos básicos de IA. Por que C está correto: o aprendizado não supervisionado funciona com dados não rotulados, descobrindo padrões, estruturas e agrupamentos inerentes aos dados sem categorias predefinidas. Clustering é a tarefa canônica de aprendizagem não supervisionada, onde algoritmos como k-means, clustering hierárquico ou DBSCAN agrupam pontos de dados semelhantes com base na similaridade de recursos. Como o cientista de dados possui dados não rotulados e deseja encontrar agrupamentos naturais, o aprendizado não supervisionado é a técnica apropriada e correta. Por que A está errado: o aprendizado supervisionado requer dados de treinamento rotulados, onde cada exemplo possui um rótulo de saída correto correspondente. O cientista de dados possui explicitamente dados não rotulados, tornando o aprendizado supervisionado inaplicável sem primeiro concluir a trabalhosa tarefa de rotular manualmente todos os exemplos. Por que B está errado: O aprendizado por reforço treina os agentes para realizar ações em um ambiente para maximizar recompensas cumulativas por meio de tentativa e erro. Ele foi projetado para problemas de tomada de decisão sequencial, não para encontrar agrupamentos em conjuntos de dados estáticos e não rotulados. Por que D está errado: o aprendizado semissupervisionado combina uma pequena quantidade de dados rotulados com uma grande quantidade de dados não rotulados. Requer pelo menos alguns rótulos para orientar o aprendizado. O cenário especifica o trabalho apenas com dados não rotulados, tornando o aprendizado não supervisionado o ajuste perfeito.