To Explain or to Predict?

Créditos da Imagem: Galit Shmueli (2010)

Galit Shmueli Statist. Sci. 25(3): 289-310 (August 2010). DOI: 10.1214/10-STS330

https://projecteuclid.org/journals/statistical-science/volume-25/issue-3/To-Explain-or-to-Predict/10.1214/10-STS330.full

INTRODUÇÃO

O artigo aborda o uso variado de modelos estatísticos em disciplinas científicas, com ênfase na relação entre explicação causal e predição empírica. Em campos como economia e psicologia, os modelos são utilizados principalmente para explicação causal, enquanto em áreas como processamento de linguagem natural, a ênfase recai na predição empírica. Destaca-se a falta de distinção clara entre modelagem explicativa e preditiva na literatura estatística, ressaltando sua relevância para a pesquisa científica. O autor busca preencher essa lacuna, destacando como a falta de clareza afeta a modelagem estatística e, por conseguinte, a prática científica.

Definição de Explicação e Predição

O artigo ressalta que explicação e predição não são propriedades inerentes aos modelos estatísticos, mas sim metas para as quais esses modelos são utilizados.

  • Explicação: Envolve a busca por compreensão causal, identificando mecanismos geradores de fenômenos.
  • Predição: Concentra-se na busca por entendimento empírico, projetando ou estimando a probabilidade de eventos futuros com base em padrões observados.

Modelagem Explicativa

Nesta seção, o artigo explora a modelagem explicativa, especialmente nas ciências sociais, onde os métodos estatísticos são predominantemente utilizados para testar teorias causais. Destaca-se que os modelos estatísticos frequentemente adotam uma abordagem baseada em associações ao lidar com dados observacionais, exemplificado pelo uso comum de modelos de regressão.

Na modelagem explicativa, a teoria desempenha um papel significativo, fornecendo a base para a formulação de hipóteses causais testadas posteriormente por modelos estatísticos.

Destaca-se o processo de operacionalização, que estabelece uma ponte entre os construtos teóricos e as medidas observáveis. A introdução de dados e modelagem estatística ocorre apenas após essa etapa teórica, associada às hipóteses causais. A inferência estatística resulta em conclusões estatísticas, relacionando tamanhos de efeito e significância estatística às hipóteses causais. Essas conclusões são traduzidas em conclusões de pesquisa, frequentemente acompanhadas por recomendações de políticas.

Modelagem Preditiva

A seção sobre modelagem preditiva define esse processo como a aplicação de modelos estatísticos ou algoritmos de mineração de dados aos dados com o objetivo de predizer novas observações ou eventos futuros.

O foco está na predição não estocástica, antecipando o valor de saída (Y) para novas observações com base em seus valores de entrada (X). Isso abrange previsões temporais, usando observações até o tempo t para prever valores futuros no tempo t + k, k > 0.

As predições podem assumir diferentes formas, como pontuais, por intervalo, regiões preditivas, distribuições preditivas ou rankings de novas observações.

Modelagem Descritiva

Embora não seja o foco principal do artigo, uma terceira categoria de modelagem, a mais comumente utilizada e desenvolvida por estatísticos, é a modelagem descritiva. Este tipo de modelagem tem como objetivo resumir ou representar a estrutura dos dados de maneira concisa.

Ao contrário da modelagem explicativa, na modelagem descritiva a dependência de uma teoria causal subjacente está ausente ou incorporada de maneira menos formal. Além disso, o foco está no nível mensurável em vez do nível de construção teórica.

Diferentemente da modelagem preditiva, a modelagem descritiva não visa predição. Por exemplo, ajustar um modelo de regressão pode ser descritivo se for utilizado para capturar a associação entre as variáveis dependentes e independentes, em vez de inferência causal ou predição.

Diferença entre Explicar e Predizer

A disparidade entre explicação e predição surge da imprecisão na representação dos conceitos subjacentes pelos dados mensuráveis.

1. Causalidade–Associação:

  • Explicação: f representa uma função causal, onde X é assumido como causa de Y.
  • Predição: f captura a associação entre X e Y, sem pressupor uma relação causal.

2. Teoria–Dado:

  • Explicação: f é construído com base na função teórica F para apoiar a interpretação da relação entre X e Y.
  • Predição: f é frequentemente construído a partir dos dados, sem interpretação direta em termos da relação entre X e Y.

3. Retrospectivo–Prospectivo:

  • Explicação: Modelagem explicativa é retrospectiva, testando hipóteses preexistentes.
  • Predição: Modelagem preditiva é prospectiva, construída para predizer novas observações, sem depender de hipóteses preexistentes.

4. Viés–Variância:

  • Explicação: Foco em minimizar o viés para obter representação precisa da teoria.
  • Predição: Busca minimizar a combinação de viés e variância, priorizando a previsão mesmo sacrificando precisão teórica.

Esses aspectos evidenciam a diferença fundamental entre modelagem explicativa, focada em compreensão causal e teórica, e modelagem preditiva, orientada para utilidade prática e geração de predições precisas.

DOIS CAMINHOS DE MODELAGEM

O autor analisa o processo de modelagem estatística sob a perspectiva de explicação/predição, destacando diferenças cruciais em cada etapa, desde a definição do objetivo até o uso e relato do modelo. A determinação prévia do objetivo do estudo como explicativo ou preditivo é crucial para uma modelagem adequada.

  1. Definição do Objetivo:
    • Explicativo: Foco em compreender relações causais entre variáveis teóricas.
    • Preditivo: Ênfase na capacidade de predizer novas observações com base em padrões identificados nos dados.
  2. Design do Estudo:
    • Explicativo: Planejamento para testar hipóteses causais, frequentemente utilizando modelos associativos aplicados a dados observacionais.
    • Preditivo: Consideração de estratégias para otimizar a precisão das predições, muitas vezes usando técnicas de validação cruzada.
  3. Coleta de Dados:
    • Explicativo: Ênfase na obtenção de dados para testar construções teóricas e hipóteses causais.
    • Preditivo: Priorização da qualidade e representatividade dos dados para melhorar a capacidade de predição.
  4. Operacionalização de Construtos:
    • Explicativo: Transformação teórica em variáveis mensuráveis, frequentemente utilizando construções abstratas.
    • Preditivo: Criação de variáveis de entrada e saída diretamente relevantes para otimizar a precisão da predição.
  5. Modelagem Estatística:
    • Explicativo: Ênfase em modelos representando relações causais, frequentemente utilizando métodos associativos como regressão.
    • Preditivo: Exploração de modelos complexos e algoritmos que maximizem a capacidade de predição.
  6. Inferência Estatística:
    • Explicativo: Avaliação da significância estatística das relações entre variáveis, enfocando a interpretação teórica.
    • Preditivo: Avaliação do desempenho preditivo usando métricas como erro médio absoluto ou acurácia.
  7. Conclusões e Recomendações:
    • Explicativo: Ênfase na validação teórica e nas implicações causais, frequentemente orientando recomendações de políticas.
    • Preditivo: Destaque para a utilidade prática das predições, com recomendações voltadas para a aplicação efetiva.

Design do Estudo e Coleta de Dados

Nesta seção, são abordadas as diferenças no design de estudo e na coleta de dados entre os objetivos de predição e explicação. Aqui estão os principais pontos:

  1. Tamanho da amostra:
    • Explicação: Foco na precisão da estimativa baseada na teoria, exigindo poder estatístico suficiente.
    • Predição: Necessidade de uma amostra maior para determinar a função de predição a partir dos dados, buscando menor viés e variância.
  2. Esquema de amostragem:
    • Importância de considerar o tamanho e a alocação da amostra, especialmente em dados hierárquicos.
    • Alocação diferente para estimação e predição, pois um aumento no tamanho do grupo pode ser mais benéfico para a predição.
  3. Configurações experimentais vs. observacionais:
    • Explicação: Preferência por dados experimentais para causalidade.
    • Predição: Dados observacionais podem ser preferíveis se representarem melhor o contexto real da predição.
  4. Dados primários vs. secundários:
    • Explicação: Diferentes operacionalizações dos construtos X, Y podem ser aceitáveis.
    • Predição: Modelos preditivos requerem dados secundários com variáveis exatas a serem usadas na predição.
  5. Instrumento de coleta de dados:
    • Explicação: Ênfase em instrumentos confiáveis e válidos para representar adequadamente o construto subjacente.
    • Predição: Maior importância na qualidade da medição e seu significado em termos da variável a ser prevista.
  6. Design de experimentos:
    • Explicação: Designs fatoriais focados na explicação causal, identificando fatores que afetam a resposta.
    • Predição: Designs de metodologia de superfície de resposta (RSM) visam a otimização preditiva, usando técnicas menos interpretáveis, mas mais precisas.

Preparação dos Dados

Nesta seção, o autor explora duas operações comuns de preparação de dados: tratamento de valores ausentes e particionamento de dados.

Tratamento de Valores Ausentes

A maioria dos conjuntos de dados reais possui valores ausentes. Na modelagem preditiva, a solução depende se estão nos dados de treinamento ou nos dados a serem previstos. Métodos de imputação, como criar variáveis dummy para indicar ausência, são comuns. A ausência pode ser informativa para predição, como em demonstrativos financeiros para prever relatórios fraudulentos.

Uma abordagem diferente lida com observações com informações ausentes, estimando vários modelos “reduzidos”. Isso é útil para predição, mas inadequado para explicação causal.

Particionamento de Dados

Para evitar otimismo excessivo na predição, deve-se avaliar o desempenho em uma amostra de validação que o modelo não viu. Isso pode ser feito dividindo os dados em conjuntos de treinamento e validação, ou usando validação cruzada ou métodos de reamostragem como o bootstrap.

O particionamento visa equilibrar viés e variância, sendo mais útil na modelagem preditiva devido à redução de viés amostral. Com conjuntos de dados grandes, o particionamento tornou-se padrão na modelagem preditiva.

Na modelagem explicativa, é menos comum, geralmente usado retrospectivamente para avaliar a robustez do modelo. Um uso mais raro, mas importante, é fortalecer a validade do modelo, demonstrando algum poder preditivo. Apesar de não esperarmos que um modelo explicativo seja ótimo em predições, deve mostrar alguma precisão.

Análise Exploratória de Dados

A Análise Exploratória de Dados (EDA) é crucial no início tanto da modelagem explicativa quanto da preditiva, envolvendo a síntese de dados numericamente e graficamente, reduzindo complexidade para a modelagem formal.

  • Modelagem Explicativa:
    • Exploração focada em relações causais teoricamente especificadas.
    • Visualização dinâmica e interativa, menos ênfase em parâmetros predefinidos.
    • Resumo numérico concentra-se nos relacionamentos teóricos.
  • Modelagem Preditiva:
    • Exploração mais livre, buscando capturar relações talvez desconhecidas.
    • Visualização mais estável com parâmetros predefinidos.
    • Resumo numérico explora uma variedade de resumos para todas as variáveis.
  • Interatividade na EDA:
    • Útil na modelagem preditiva para explorar associações.
    • Menos relevante na explicativa, onde os dados são analisados através de uma lente teórica.
  • Uso na Avaliação de Suposições e Transformações:
    • Mais restritiva no contexto explicativo.
  • Redução de Dimensão:
    • Preditiva: Redução de preditores para diminuir a variância amostral, usando métodos como PCA.
    • Explicativa: PCA usado para validar instrumentos de pesquisa, tornando os fatores mais interpretáveis.

Essas nuances refletem a diferença entre enfatizar relações causais (explorativas) e fazer predições (preditivas).

Escolha de Variáveis

Na modelagem explicativa, onde variáveis representam construtos teóricos, a escolha é baseada no papel do construto na estrutura causal e na operacionalização. Termos como antecedentes, consequentes, mediadores e moderadores são comuns.

Em contraste, na modelagem preditiva, o foco é na associação, não na causalidade. A escolha de preditores baseia-se na qualidade da associação, na qualidade dos dados e na disponibilidade dos preditores na previsão.

Enquanto a precedência cronológica de X para Y é necessária em modelos causais, em modelos preditivos, não apenas X deve preceder Y, mas X deve estar disponível no momento da predição.

Escolha de Métodos

Ao escolher métodos para análise de dados, quatro aspetos cruciais devem ser considerados: causalidade-associação, teoria-dados, retrospectivo-prospectivo e viés-variação.

  • Explicativa:
    • Métodos Preferidos: Modelos estatísticos interpretáveis, como regressão.
    • Justificativa: Facilita a ligação com teorias subjacentes. Métodos algorítmicos complexos, como redes neurais, são considerados inadequados, pois sua ênfase está na predição preditiva em vez de interpretabilidade.
  • Modelagem Preditiva:
    • Métodos Preferidos: Incluem modelos estatísticos (interpretáveis ou não) e algoritmos de mineração de dados, como redes neurais.
    • Justificativa: A prioridade é a acurácia da predição; métodos complexos são aceitáveis. Modelos podem não esclarecer mecanismos causais, mas focam em associações complicadas para predições precisas.

Validação, Avaliação de Modelo e Seleção de Modelo

A escolha, validação e avaliação de modelos diferem entre os enfoques explicativos e preditivos.

  • Validação:
    • Explicativo: Envolvida na validação do modelo e ajuste do modelo, garantindo representação teórica e ajuste aos dados.
    • Preditivo: Foco na generalização para novos dados, com ênfase na prevenção do ajuste excessivo aos dados de treinamento (overfitting).
  • Avaliação de Modelo:
    • Explicativo: Avaliação do poder explicativo, medindo a força do relacionamento entre variáveis.
    • Preditivo: Avaliação do poder preditivo, concentrando-se na acurácia das predições para novos dados.
  • Seleção de Modelo:
    • Explicativo: Comparação de modelos baseada no poder explicativo, usando modelos aninhados.
    • Preditivo: Ênfase em métricas preditivas, como o Critério de Informação de Akaike (AIC), para escolher o melhor modelo de predição.

DOIS EXEMPLOS

Exemplo 1: Netflix Prize

Contexto Preditivo

A Netflix Prize envolveu a predição precisa das avaliações de filmes por usuários, visando superar o mecanismo de recomendação da Netflix em 10%. Destaques das operações e escolhas preditivas:

  • Amostra Grande: Uma ampla amostra permitiu estimar f dos dados, refletindo a falta de uma teoria forte.
  • Preparação de Dados: Considerou dados sobre quais filmes os usuários escolheram avaliar, mesmo sem avaliar valores específicos.
  • Exploração e Redução de Dados: O método SVD foi crucial para produzir predições precisas.
  • Variáveis: Adição de informações sobre o filme diminuiu a acurácia, indicando que nem todas as características eram úteis.
  • Métodos: Combinação de algoritmos, incluindo vizinho mais próximo e modelos de regressão, com colaboração entre equipes.

Contexto Explicativo

Considerando um objetivo hipotético de explicar preferências de filmes com os mesmos dados da Netflix Prize, destaca-se a abordagem explicativa:

  • Hipóteses Causais: Estabelecimento de hipóteses causais ligando comportamento do usuário e características do filme às preferências.
  • Construção de Variáveis: Definição de construtos ligando comportamento do usuário e características do filme à preferência.
  • Operacionalização: Relacionamento de construtos a dados mensuráveis, incluindo covariáveis suplementares.
  • Métodos e Modelos: Métodos preditivos e combinação de modelos múltiplos seriam inadequados, priorizando a interpretabilidade em relação às hipóteses causais.
  • Validação e Avaliação: Avaliação em termos do poder explicativo, analisando a relação causal entre características do usuário, filme e preferências.

Assim, o contexto explicativo resultaria em abordagem e resultados distintos do contexto preditivo.

Exemplo 2: Pesquisa em Leilões Online

Este exemplo destaca as diferenças entre pesquisas explicativas e preditivas em leilões online, usando o contexto de pesquisas em leilões da eBay. Leilões online, como os realizados na eBay, tornaram-se significativos no comércio eletrônico. A pesquisa empírica sobre esses leilões revela comportamentos de lances e resultados diferentes dos leilões offline tradicionais, desafiando a teoria clássica de leilões.

Contexto Explicativo

  • Abordagem e Modelagem: Modelos explicativos, como o modelo estrutural baseado em teorias de jogos, foram usados para entender o comportamento do licitante. Um estudo ilustrativo focou na determinação dos fatores que afetam o preço final de leilões de moedas no eBay.
  • Variáveis e Modelos: Modelos de regressão linear consideraram variáveis como preço inicial, duração do leilão, uso de preço de reserva, características do vendedor e avaliações positivas/negativas.
  • Validação e Avaliação: Diversas especificações de modelos foram testadas para verificar a robustez do efeito da “duração do leilão.” A avaliação concentrou-se no R2 amostral.
  • Seleção e Uso do Modelo: Múltiplos modelos, incluindo coeficientes significativos e insignificantes, foram relatados, visando alinhar f com F (modelo estatístico com modelo teórico).

Contexto Preditivo

  • Escolha de Variáveis: Para predição antes ou no início do leilão, o número total de lances ou licitantes não pode ser incluído como preditor. Se a predição ocorrer durante um leilão em andamento, o número de licitantes/lances até o momento é útil para predizer o preço final.
  • Métodos Preditivos: Métodos algorítmicos (CART, k-vizinhos mais próximos, redes neurais, métodos funcionais) são empregados para aprender f dos dados, proporcionando alta acurácia preditiva.
  • Avaliação do Modelo: Estudos de predição de leilões avaliam o desempenho em dados de teste, usando métricas como MAPE e RMSE, comparando com outros modelos e benchmarks.

Modelos preditivos não fornecem explicações causais diretas, mas ao produzirem predições precisas, revelam potenciais variáveis relacionadas ao preço. Por exemplo, modelos preditivos sugerem a existência de competição entre licitantes, uma variável não diretamente mensurável, mas que pode ser explorada em termos de causalidade.

IMPLICAÇÕES, CONCLUSÕES E SUGESTÕES

O Custo da Indiscriminação para a Pesquisa Científica

Atualmente, em muitos campos, a modelagem estatística é usada predominantemente para explicação causal, resultando na perda da capacidade de testar a relevância de teorias existentes e descobrir novos mecanismos causais. A indiscriminação entre explicação e predição leva a inferências errôneas de poder preditivo a partir do poder explicativo, resultando em conclusões científicas e práticas incorretas. Esta omissão também cria uma lacuna entre pesquisa e prática, especialmente em campos como finanças. O autor destaca que a falta de modelos preditivos pode levar a uma desconexão entre desenvolvimento metodológico e aplicação prática.

Sugestões para o Futuro:

  • Integração de Abordagens: Recomenda-se a integração de abordagens explicativas e preditivas em pesquisas científicas para garantir uma compreensão mais abrangente e prática.
  • Conscientização sobre Distinções: É crucial que pesquisadores compreendam as distinções entre poder explicativo e preditivo para evitar inferências inadequadas.
  • Incentivo à Pesquisa Preditiva: Campos focados na modelagem preditiva podem se beneficiar da exploração adicional de teorias causais, mesmo com uma abundância de dados.
  • Colaboração Interdisciplinar: A colaboração entre pesquisadores de diferentes disciplinas é encorajada para promover avanços significativos em ciência.

Poder Explicativo e Preditivo: Duas Dimensões

O autor propõe que explicar e predizer não são extremos em um continuum, mas duas dimensões distintas. Esta abordagem implica que, ao realizar um estudo científico, o objetivo do modelo deve ser especificado antecipadamente para otimizar o critério de interesse. Ao avaliar e relatar modelos científicos, os pesquisadores devem apresentar tanto as qualidades explicativas quanto as preditivas. Considerar poder preditivo e poder explicativo como dois eixos em um gráfico bidimensional permitiria posicionar diferentes modelos em áreas distintas do gráfico.

Abordagem Bidimensional:

  1. Especificação do Objetivo do Modelo: O objetivo do estudo científico deve ser definido antecipadamente para otimizar o modelo em termos de poder explicativo ou preditivo.
  2. Avaliação e Relato dos Modelos: Pesquisadores devem relatar ambas as qualidades explicativas e preditivas de seus modelos.

O Custo da Indiscriminação para o Campo da Estatística

A dissolução da ambiguidade entre modelagem explicativa e preditiva é crucial para o avanço do campo da estatística. Reconhecer que a metodologia estatística tem se concentrado principalmente na inferência indica uma lacuna importante a ser preenchida. Atualmente, esse vazio preditivo foi preenchido pelo campo de aprendizado de máquina e mineração de dados. O autor destaca que as diferenças entre os campos da estatística e mineração de dados podem ser atribuídas a seus objetivos diferentes de explicar versus predizer, mais do que ao tamanho dos dados.

Sugestões para o Futuro:

  • Definição de Parcimônia: A definição de parcimônia e complexidade pode depender da tarefa: preditiva ou explicativa. Por exemplo, um modelo “excessivamente complicado” em termos explicativos pode se revelar “sofisticadamente simples” para fins preditivos.

Considerações Finais e Sugestões

As consequências da distinção entre modelagem explicativa/preditiva levam a duas ações propostas:

  1. Responsabilidade na Utilização de Modelos: Devemos estar cientes de como os modelos estatísticos são usados em pesquisas fora da estatística, desenvolvendo métodos que apoiem pesquisas científicas sólidas.
  2. Reconhecimento e Integração nas Disciplinas: Como disciplina, devemos reconhecer a diferença entre modelagem explicativa, preditiva e descritiva, integrando-a ao ensino de estatística para estatísticos e não estatísticos. Isso inclui esclarecer suas diferenças, usos científicos e práticos distintos, e disseminar ferramentas e conhecimentos para implementar ambas as abordagens.
Letícia Raposo
Letícia Raposo
Professora Adjunta

Biomédica e matemática de formação, atualmente é professora de Estatística da UNIRIO. Ama programar nas horas vagas acompanhada de um bom café. ☕