Academia IA
⚙️
Trilha de Aprendizado

Machine Learning na Prática

Entenda como os modelos de Machine Learning são construídos, avaliados e colocados em produção. Foco em conceitos, casos reais brasileiros e intuição — sem precisar escrever uma linha de código.

3h30 de conteúdo📚 10 aulas🎯 Pessoas com curiosidade técnica

O que você vai aprender

  • Entender o ciclo completo de um projeto de ML
  • Conhecer os principais algoritmos e quando usar cada um
  • Avaliar a qualidade de modelos sem entrar em matemática avançada
  • Identificar armadilhas comuns em projetos de ML
  • Ler e interpretar resultados de modelos de ML
Aula 1

O ciclo de vida de um projeto de ML

Um projeto de Machine Learning segue etapas bem definidas, cada uma com seus próprios desafios. Entender esse ciclo ajuda gestores, analistas e desenvolvedores a trabalhar juntos de forma mais eficiente.

As etapas

  • 1. Definição do problema: o que queremos prever ou classificar?
  • 2. Coleta de dados: de onde virão os dados? Que qualidade têm?
  • 3. Exploração e limpeza: entender, corrigir e preparar os dados
  • 4. Feature engineering: criar variáveis mais informativas para o modelo
  • 5. Treinamento: ajustar o modelo nos dados históricos
  • 6. Avaliação: testar em dados que o modelo nunca viu
  • 7. Deploy: colocar em produção e monitorar continuamente
💡
Onde os projetos brasileiros falham

A maioria dos projetos de ML no Brasil falha não na parte de algoritmos, mas na qualidade dos dados (passo 2) ou no deploy e monitoramento (passo 7). Dados bagunçados e modelos não monitorados são os maiores vilões.

Aula 2

Principais algoritmos: quando usar cada um

Existem dezenas de algoritmos de ML. A boa notícia: você não precisa dominar todos. Entender quando usar os principais já resolve a maioria dos problemas práticos.

Algoritmos de classificação

Para responder 'qual categoria?': fraude ou não fraude, churn ou não, diagnóstico A ou B.

  • Regressão Logística: simples, rápido, interpretável — bom ponto de partida
  • Árvores de Decisão: fácil de explicar, mas tende a overfitting
  • Random Forest: conjunto de árvores — mais robusto, difícil de interpretar
  • XGBoost/LightGBM: o mais usado em competições e produção de ML
  • Redes Neurais: exige mais dados e poder computacional, mas é muito poderoso

Algoritmos de regressão

Para responder 'qual valor?': previsão de preço, demanda, tempo de entrega.

  • Regressão Linear: base para entender regressão, boa para relações lineares
  • Ridge/Lasso: regressão linear com regularização para evitar overfitting
  • Gradient Boosting: poderoso para previsão numérica com dados tabulares
Aula 3

Preparação de dados: a etapa que consome 80% do tempo

Dados sujos são o maior problema de ML em produção. Um modelo perfeito com dados ruins dá resultados piores do que um modelo simples com dados de qualidade.

Problemas mais comuns nos dados brasileiros

  • CPF duplicado ou inválido em bases de clientes
  • CEP desatualizado ou inconsistente com cidade/estado
  • Nomes com variações ('Maria', 'maria', 'MARIA', 'Maria ')
  • Dados de renda em moedas diferentes (pré-plano real vs. atual)
  • Campos obrigatórios vazios por falha de sistema legado
  • Viés de cobertura: dados de São Paulo super-representados vs. Norte/Nordeste
Aula 4

Como avaliar um modelo sem entrar em matemática

Precisão de 95% parece ótimo — mas pode ser péssimo dependendo do problema. Um modelo que sempre diz 'não é fraude' numa base onde 95% das transações são legítimas tem 95% de acurácia, mas é inútil.

Métricas que realmente importam

  • Acurácia: % de previsões corretas — útil apenas com classes balanceadas
  • Precisão: de tudo que predisse positivo, quantos eram? (evita falsos alarmes)
  • Recall: de todos os positivos reais, quantos encontrou? (evita falsos negativos)
  • F1-Score: equilíbrio entre precisão e recall
  • AUC-ROC: capacidade geral do modelo de distinguir classes
🏥
Exemplo médico

Num teste de câncer, você prefere alta precisão ou alto recall? Recall: melhor detectar todos os casos, mesmo com alguns falsos alarmes, do que deixar casos reais passarem.

Aula 5

Overfitting: quando a IA decora em vez de aprender

Overfitting é quando o modelo aprende tão bem os dados de treinamento que perde a capacidade de generalizar para dados novos. É o equivalente a um estudante que decora as questões passadas mas não aprende o conteúdo.

Como detectar overfitting

A diferença entre o desempenho nos dados de treino e nos dados de teste revela overfitting: se no treino o modelo acerta 99% e no teste acerta 65%, há overfitting severo.

Como corrigir

  • Mais dados de treinamento
  • Regularização (penalizar modelos complexos demais)
  • Simplificar o modelo
  • Dropout em redes neurais
  • Validação cruzada para avaliação mais robusta
Aula 6

Feature Engineering: criando variáveis que fazem diferença

Feature engineering é a arte de transformar dados brutos em variáveis que o modelo consegue usar melhor. É onde o conhecimento do domínio (negócio) tem mais valor.

Exemplos práticos brasileiros

  • Datas: dia da semana, feriado nacional, dia útil vs. fim de semana
  • CEP: converter para região, IDH do bairro, distância de centros urbanos
  • CPF: calcular idade a partir dos primeiros dígitos
  • Valores: deflacionar por IPCA para comparar períodos diferentes
  • Texto: sentimento de avaliações de clientes (NPS em escala)
Aula 7

ML em produção: o que ninguém conta nos tutoriais

Treinar um modelo é 20% do trabalho. Colocar em produção, monitorar e manter é os outros 80%. A maioria dos tutoriais ensina só o começo.

Problemas em produção

  • Data drift: os dados que chegam mudam com o tempo, degradando o modelo
  • Concept drift: o que era verdade mudou (pandemia, nova lei, comportamento do consumidor)
  • Latência: o modelo precisa responder rápido o suficiente?
  • Custo: inferência em GPU é cara — vale a precisão extra?
  • Monitoramento: quem vai perceber que o modelo começou a errar?
🚨
Caso real

Um modelo de crédito treinado em 2019 não previu o comportamento dos consumidores durante a pandemia de 2020. Empresas que não monitoravam seus modelos tiveram perdas significativas por decisões baseadas em previsões obsoletas.

Aula 9

NLP em Português: processando o nosso idioma

O Processamento de Linguagem Natural (NLP) em português apresenta desafios únicos: diminutivos, gírias regionais, concordância nominal complexa, e poucos dados de alta qualidade comparados ao inglês.

Modelos focados no português

  • BERTimbau: versão do BERT treinada em corpus brasileiro, pela FAPESP/USP
  • Maritalk: LLM desenvolvido pela Maritaca AI focado no português
  • Sabiá: família de modelos da Maritaca AI com foco no Brasil
  • PTT5: modelo seq2seq pré-treinado em português
🇧🇷
Pesquisa brasileira

O BERTimbau foi treinado com 2,7 bilhões de palavras em português — jornais, Wikipédia e projetos Gutenberg. É uma das maiores contribuições do Brasil para NLP open-source.