⚙️

Trilha de Aprendizado

Machine Learning na Prática

Entenda como os modelos de Machine Learning são construídos, avaliados e colocados em produção. Foco em conceitos, casos reais brasileiros e intuição — sem precisar escrever uma linha de código.

3h30 de conteúdo📚 10 aulas🎯 Pessoas com curiosidade técnica

O que você vai aprender

Entender o ciclo completo de um projeto de ML
Conhecer os principais algoritmos e quando usar cada um
Avaliar a qualidade de modelos sem entrar em matemática avançada
Identificar armadilhas comuns em projetos de ML
Ler e interpretar resultados de modelos de ML

Conteúdo da trilha

O ciclo de vida de um projeto de ML

Aula 20 min

Principais algoritmos: quando usar cada um

Aula 25 min

Preparação de dados: a etapa que consome 80% do tempo

Aula 22 min

Como avaliar um modelo sem entrar em matemática

Aula 20 min

Overfitting: quando a IA decora em vez de aprender

Aula 18 min

Feature Engineering: criando variáveis que fazem diferença

Aula 20 min

ML em produção: o que ninguém conta nos tutoriais

Aula 25 min

Viés em ML: o que seus dados escondem

Aula 20 min

NLP em Português: processando o nosso idioma

Aula 22 min

Quiz: avaliação de conhecimentos em ML

Quiz 15 min

Aula 1

O ciclo de vida de um projeto de ML

Um projeto de Machine Learning segue etapas bem definidas, cada uma com seus próprios desafios. Entender esse ciclo ajuda gestores, analistas e desenvolvedores a trabalhar juntos de forma mais eficiente.

As etapas

1. Definição do problema: o que queremos prever ou classificar?
2. Coleta de dados: de onde virão os dados? Que qualidade têm?
3. Exploração e limpeza: entender, corrigir e preparar os dados
4. Feature engineering: criar variáveis mais informativas para o modelo
5. Treinamento: ajustar o modelo nos dados históricos
6. Avaliação: testar em dados que o modelo nunca viu
7. Deploy: colocar em produção e monitorar continuamente

💡

Onde os projetos brasileiros falham

A maioria dos projetos de ML no Brasil falha não na parte de algoritmos, mas na qualidade dos dados (passo 2) ou no deploy e monitoramento (passo 7). Dados bagunçados e modelos não monitorados são os maiores vilões.

Aula 2

Principais algoritmos: quando usar cada um

Existem dezenas de algoritmos de ML. A boa notícia: você não precisa dominar todos. Entender quando usar os principais já resolve a maioria dos problemas práticos.

Algoritmos de classificação

Para responder 'qual categoria?': fraude ou não fraude, churn ou não, diagnóstico A ou B.

Regressão Logística: simples, rápido, interpretável — bom ponto de partida
Árvores de Decisão: fácil de explicar, mas tende a overfitting
Random Forest: conjunto de árvores — mais robusto, difícil de interpretar
XGBoost/LightGBM: o mais usado em competições e produção de ML
Redes Neurais: exige mais dados e poder computacional, mas é muito poderoso

Algoritmos de regressão

Para responder 'qual valor?': previsão de preço, demanda, tempo de entrega.

Regressão Linear: base para entender regressão, boa para relações lineares
Ridge/Lasso: regressão linear com regularização para evitar overfitting
Gradient Boosting: poderoso para previsão numérica com dados tabulares

Aula 3

Preparação de dados: a etapa que consome 80% do tempo

Dados sujos são o maior problema de ML em produção. Um modelo perfeito com dados ruins dá resultados piores do que um modelo simples com dados de qualidade.

Problemas mais comuns nos dados brasileiros

CPF duplicado ou inválido em bases de clientes
CEP desatualizado ou inconsistente com cidade/estado
Nomes com variações ('Maria', 'maria', 'MARIA', 'Maria ')
Dados de renda em moedas diferentes (pré-plano real vs. atual)
Campos obrigatórios vazios por falha de sistema legado
Viés de cobertura: dados de São Paulo super-representados vs. Norte/Nordeste

Aula 4

Como avaliar um modelo sem entrar em matemática

Precisão de 95% parece ótimo — mas pode ser péssimo dependendo do problema. Um modelo que sempre diz 'não é fraude' numa base onde 95% das transações são legítimas tem 95% de acurácia, mas é inútil.

Métricas que realmente importam

Acurácia: % de previsões corretas — útil apenas com classes balanceadas
Precisão: de tudo que predisse positivo, quantos eram? (evita falsos alarmes)
Recall: de todos os positivos reais, quantos encontrou? (evita falsos negativos)
F1-Score: equilíbrio entre precisão e recall
AUC-ROC: capacidade geral do modelo de distinguir classes

🏥

Exemplo médico

Num teste de câncer, você prefere alta precisão ou alto recall? Recall: melhor detectar todos os casos, mesmo com alguns falsos alarmes, do que deixar casos reais passarem.

Aula 5

Overfitting: quando a IA decora em vez de aprender

Overfitting é quando o modelo aprende tão bem os dados de treinamento que perde a capacidade de generalizar para dados novos. É o equivalente a um estudante que decora as questões passadas mas não aprende o conteúdo.

Como detectar overfitting

A diferença entre o desempenho nos dados de treino e nos dados de teste revela overfitting: se no treino o modelo acerta 99% e no teste acerta 65%, há overfitting severo.

Como corrigir

Mais dados de treinamento
Regularização (penalizar modelos complexos demais)
Simplificar o modelo
Dropout em redes neurais
Validação cruzada para avaliação mais robusta

Aula 6

Feature Engineering: criando variáveis que fazem diferença

Feature engineering é a arte de transformar dados brutos em variáveis que o modelo consegue usar melhor. É onde o conhecimento do domínio (negócio) tem mais valor.

Exemplos práticos brasileiros

Datas: dia da semana, feriado nacional, dia útil vs. fim de semana
CEP: converter para região, IDH do bairro, distância de centros urbanos
CPF: calcular idade a partir dos primeiros dígitos
Valores: deflacionar por IPCA para comparar períodos diferentes
Texto: sentimento de avaliações de clientes (NPS em escala)

Aula 7

ML em produção: o que ninguém conta nos tutoriais

Treinar um modelo é 20% do trabalho. Colocar em produção, monitorar e manter é os outros 80%. A maioria dos tutoriais ensina só o começo.

Problemas em produção

Data drift: os dados que chegam mudam com o tempo, degradando o modelo
Concept drift: o que era verdade mudou (pandemia, nova lei, comportamento do consumidor)
Latência: o modelo precisa responder rápido o suficiente?
Custo: inferência em GPU é cara — vale a precisão extra?
Monitoramento: quem vai perceber que o modelo começou a errar?

🚨

Caso real

Um modelo de crédito treinado em 2019 não previu o comportamento dos consumidores durante a pandemia de 2020. Empresas que não monitoravam seus modelos tiveram perdas significativas por decisões baseadas em previsões obsoletas.

Aula 9

NLP em Português: processando o nosso idioma

O Processamento de Linguagem Natural (NLP) em português apresenta desafios únicos: diminutivos, gírias regionais, concordância nominal complexa, e poucos dados de alta qualidade comparados ao inglês.

Modelos focados no português

BERTimbau: versão do BERT treinada em corpus brasileiro, pela FAPESP/USP
Maritalk: LLM desenvolvido pela Maritaca AI focado no português
Sabiá: família de modelos da Maritaca AI com foco no Brasil
PTT5: modelo seq2seq pré-treinado em português

🇧🇷

Pesquisa brasileira

O BERTimbau foi treinado com 2,7 bilhões de palavras em português — jornais, Wikipédia e projetos Gutenberg. É uma das maiores contribuições do Brasil para NLP open-source.