Machine Learning na Prática
Entenda como os modelos de Machine Learning são construídos, avaliados e colocados em produção. Foco em conceitos, casos reais brasileiros e intuição — sem precisar escrever uma linha de código.
O que você vai aprender
- Entender o ciclo completo de um projeto de ML
- Conhecer os principais algoritmos e quando usar cada um
- Avaliar a qualidade de modelos sem entrar em matemática avançada
- Identificar armadilhas comuns em projetos de ML
- Ler e interpretar resultados de modelos de ML
Conteúdo da trilha
O ciclo de vida de um projeto de ML
Um projeto de Machine Learning segue etapas bem definidas, cada uma com seus próprios desafios. Entender esse ciclo ajuda gestores, analistas e desenvolvedores a trabalhar juntos de forma mais eficiente.
As etapas
- 1. Definição do problema: o que queremos prever ou classificar?
- 2. Coleta de dados: de onde virão os dados? Que qualidade têm?
- 3. Exploração e limpeza: entender, corrigir e preparar os dados
- 4. Feature engineering: criar variáveis mais informativas para o modelo
- 5. Treinamento: ajustar o modelo nos dados históricos
- 6. Avaliação: testar em dados que o modelo nunca viu
- 7. Deploy: colocar em produção e monitorar continuamente
A maioria dos projetos de ML no Brasil falha não na parte de algoritmos, mas na qualidade dos dados (passo 2) ou no deploy e monitoramento (passo 7). Dados bagunçados e modelos não monitorados são os maiores vilões.
Principais algoritmos: quando usar cada um
Existem dezenas de algoritmos de ML. A boa notícia: você não precisa dominar todos. Entender quando usar os principais já resolve a maioria dos problemas práticos.
Algoritmos de classificação
Para responder 'qual categoria?': fraude ou não fraude, churn ou não, diagnóstico A ou B.
- Regressão Logística: simples, rápido, interpretável — bom ponto de partida
- Árvores de Decisão: fácil de explicar, mas tende a overfitting
- Random Forest: conjunto de árvores — mais robusto, difícil de interpretar
- XGBoost/LightGBM: o mais usado em competições e produção de ML
- Redes Neurais: exige mais dados e poder computacional, mas é muito poderoso
Algoritmos de regressão
Para responder 'qual valor?': previsão de preço, demanda, tempo de entrega.
- Regressão Linear: base para entender regressão, boa para relações lineares
- Ridge/Lasso: regressão linear com regularização para evitar overfitting
- Gradient Boosting: poderoso para previsão numérica com dados tabulares
Preparação de dados: a etapa que consome 80% do tempo
Dados sujos são o maior problema de ML em produção. Um modelo perfeito com dados ruins dá resultados piores do que um modelo simples com dados de qualidade.
Problemas mais comuns nos dados brasileiros
- CPF duplicado ou inválido em bases de clientes
- CEP desatualizado ou inconsistente com cidade/estado
- Nomes com variações ('Maria', 'maria', 'MARIA', 'Maria ')
- Dados de renda em moedas diferentes (pré-plano real vs. atual)
- Campos obrigatórios vazios por falha de sistema legado
- Viés de cobertura: dados de São Paulo super-representados vs. Norte/Nordeste
Como avaliar um modelo sem entrar em matemática
Precisão de 95% parece ótimo — mas pode ser péssimo dependendo do problema. Um modelo que sempre diz 'não é fraude' numa base onde 95% das transações são legítimas tem 95% de acurácia, mas é inútil.
Métricas que realmente importam
- Acurácia: % de previsões corretas — útil apenas com classes balanceadas
- Precisão: de tudo que predisse positivo, quantos eram? (evita falsos alarmes)
- Recall: de todos os positivos reais, quantos encontrou? (evita falsos negativos)
- F1-Score: equilíbrio entre precisão e recall
- AUC-ROC: capacidade geral do modelo de distinguir classes
Num teste de câncer, você prefere alta precisão ou alto recall? Recall: melhor detectar todos os casos, mesmo com alguns falsos alarmes, do que deixar casos reais passarem.
Overfitting: quando a IA decora em vez de aprender
Overfitting é quando o modelo aprende tão bem os dados de treinamento que perde a capacidade de generalizar para dados novos. É o equivalente a um estudante que decora as questões passadas mas não aprende o conteúdo.
Como detectar overfitting
A diferença entre o desempenho nos dados de treino e nos dados de teste revela overfitting: se no treino o modelo acerta 99% e no teste acerta 65%, há overfitting severo.
Como corrigir
- Mais dados de treinamento
- Regularização (penalizar modelos complexos demais)
- Simplificar o modelo
- Dropout em redes neurais
- Validação cruzada para avaliação mais robusta
Feature Engineering: criando variáveis que fazem diferença
Feature engineering é a arte de transformar dados brutos em variáveis que o modelo consegue usar melhor. É onde o conhecimento do domínio (negócio) tem mais valor.
Exemplos práticos brasileiros
- Datas: dia da semana, feriado nacional, dia útil vs. fim de semana
- CEP: converter para região, IDH do bairro, distância de centros urbanos
- CPF: calcular idade a partir dos primeiros dígitos
- Valores: deflacionar por IPCA para comparar períodos diferentes
- Texto: sentimento de avaliações de clientes (NPS em escala)
ML em produção: o que ninguém conta nos tutoriais
Treinar um modelo é 20% do trabalho. Colocar em produção, monitorar e manter é os outros 80%. A maioria dos tutoriais ensina só o começo.
Problemas em produção
- Data drift: os dados que chegam mudam com o tempo, degradando o modelo
- Concept drift: o que era verdade mudou (pandemia, nova lei, comportamento do consumidor)
- Latência: o modelo precisa responder rápido o suficiente?
- Custo: inferência em GPU é cara — vale a precisão extra?
- Monitoramento: quem vai perceber que o modelo começou a errar?
Um modelo de crédito treinado em 2019 não previu o comportamento dos consumidores durante a pandemia de 2020. Empresas que não monitoravam seus modelos tiveram perdas significativas por decisões baseadas em previsões obsoletas.
NLP em Português: processando o nosso idioma
O Processamento de Linguagem Natural (NLP) em português apresenta desafios únicos: diminutivos, gírias regionais, concordância nominal complexa, e poucos dados de alta qualidade comparados ao inglês.
Modelos focados no português
- BERTimbau: versão do BERT treinada em corpus brasileiro, pela FAPESP/USP
- Maritalk: LLM desenvolvido pela Maritaca AI focado no português
- Sabiá: família de modelos da Maritaca AI com foco no Brasil
- PTT5: modelo seq2seq pré-treinado em português
O BERTimbau foi treinado com 2,7 bilhões de palavras em português — jornais, Wikipédia e projetos Gutenberg. É uma das maiores contribuições do Brasil para NLP open-source.