Este curso foi concebido para cientistas sociais que desejam incorporar, de forma imediata e aplicada, ferramentas contemporâneas de ciência de dados em suas pesquisas. Em vez de um percurso tradicional centrado em fundamentos de programação, a proposta privilegia uma abordagem hands-on orientada a problemas reais, na qual o Python aparece como meio e não como fim. Ao longo de quatro encontros intensivos, os participantes irão manipular dados, construir modelos, explorar técnicas de machine learning e interagir com modelos de linguagem de larga escala (LLMs), sempre com foco na interpretação substantiva e na utilidade analítica para questões típicas das ciências sociais.
A estrutura do curso foi desenhada para maximizar retorno prático em curto prazo, permitindo que os participantes saiam capazes de estruturar pipelines analíticos completos, desde a coleta e preparação dos dados até a modelagem e comunicação de resultados. O enfoque está em decisões metodológicas, leitura crítica de outputs e integração de novas ferramentas de IA ao repertório clássico das ciências sociais quantitativas.
Introdução prática ao ambiente em Python (com notebooks prontos), leitura e manipulação de dados com pandas, limpeza e transformação de bases reais, criação de variáveis relevantes para pesquisa social, e construção de um pipeline básico de análise exploratória orientada a hipóteses.
Integração entre regressão e machine learning: regressão linear e logística como modelos base, seguidas de modelos supervisionados com scikit-learn. Divisão treino-teste, métricas de avaliação, interpretação de coeficientes versus performance preditiva e trade-offs entre explicação e previsão.
Construção de um framework prático para decidir quando confiar (ou não) em um modelo. Diagnóstico de overfitting, validação cruzada, identificação de data leakage, escolha entre modelos explicativos e preditivos, e limites da inferência a partir de dados observacionais.
Uso de modelos de linguagem (via API) para tarefas como classificação de texto, extração de informação, sumarização e construção de pipelines de análise de documentos. Introdução a conceitos de embeddings e RAG para lidar com grandes volumes de texto em pesquisa social.
Fundação Getulio Vargas (FGV).