Introdução à Ciência de Dados para Cientistas Sociais

Este curso foi concebido para cientistas sociais que desejam incorporar, de forma imediata e aplicada, ferramentas contemporâneas de ciência de dados em suas pesquisas. Em vez de um percurso tradicional centrado em fundamentos de programação, a proposta privilegia uma abordagem hands-on orientada a problemas reais, na qual o Python aparece como meio e não como fim. Ao longo de quatro encontros intensivos, os participantes irão manipular dados, construir modelos, explorar técnicas de machine learning e interagir com modelos de linguagem de larga escala (LLMs), sempre com foco na interpretação substantiva e na utilidade analítica para questões típicas das ciências sociais.

A estrutura do curso foi desenhada para maximizar retorno prático em curto prazo, permitindo que os participantes saiam capazes de estruturar pipelines analíticos completos, desde a coleta e preparação dos dados até a modelagem e comunicação de resultados. O enfoque está em decisões metodológicas, leitura crítica de outputs e integração de novas ferramentas de IA ao repertório clássico das ciências sociais quantitativas.

Aula 1 – Estruturação de dados e primeiros pipelines analíticos

Introdução prática ao ambiente em Python (com notebooks prontos), leitura e manipulação de dados com pandas, limpeza e transformação de bases reais, criação de variáveis relevantes para pesquisa social, e construção de um pipeline básico de análise exploratória orientada a hipóteses.

Aula 2 – Modelagem e Machine Learning aplicados às ciências sociais

Integração entre regressão e machine learning: regressão linear e logística como modelos base, seguidas de modelos supervisionados com scikit-learn. Divisão treino-teste, métricas de avaliação, interpretação de coeficientes versus performance preditiva e trade-offs entre explicação e previsão.

Aula 3 – Tomada de decisão metodológica e leitura crítica de modelos

Construção de um framework prático para decidir quando confiar (ou não) em um modelo. Diagnóstico de overfitting, validação cruzada, identificação de data leakage, escolha entre modelos explicativos e preditivos, e limites da inferência a partir de dados observacionais.

Aula 4 – LLMs e automação da análise qualitativa e documental

Uso de modelos de linguagem (via API) para tarefas como classificação de texto, extração de informação, sumarização e construção de pipelines de análise de documentos. Introdução a conceitos de embeddings e RAG para lidar com grandes volumes de texto em pesquisa social.

Matheus Pestana

Fundação Getulio Vargas (FGV).

Introdução à Ciência de Dados para Cientistas Sociais

Formato: Remoto

Data e horário: 29 de junho a 2 de julho, noite

Aula 1 – Estruturação de dados e primeiros pipelines analíticos

Aula 2 – Modelagem e Machine Learning aplicados às ciências sociais

Aula 3 – Tomada de decisão metodológica e leitura crítica de modelos

Aula 4 – LLMs e automação da análise qualitativa e documental