Modelos Lineares Generalizados (GLM)

O valor da Y (variável dependente) vai dizer qual modelos podemos utilizar.

Modelos são correlacionais, não causais, não sei se as variáveis X causam a Y. Correlação não implica causalidade.

Os GLM (modelos lineares generalizados) ampliam a ideia dos modelos lineares tradicionais, permitindo analisar diferentes tipos de variável resposta, não apenas variáveis contínuas com distribuição Normal.

A lógica central continua sendo a mesma: construir um preditor linear a partir das variáveis explicativas. Porém, os GLMs introduzem dois elementos importantes:

Componente aleatório

Nos modelos lineares clássicos, geralmente assumimos que a variável resposta segue uma distribuição Normal. Já nos GLMs, essa exigência é flexibilizada.

A variável resposta pode seguir distribuições pertencentes à família exponencial, como:

  • Normal: para dados contínuos aproximadamente simétricos;
  • Poisson: para dados de contagem;
  • Binomial: para respostas binárias ou proporções;
  • Gama: para dados contínuos positivos e assimétricos.

Isso torna os GLMs úteis para situações em que a variável resposta não se comporta bem como uma variável Normal.

Função de ligação

A função de ligação conecta a média esperada da variável resposta ao preditor linear do modelo.

De forma geral:

g(μ)=η

Onde:

η=β0​+β1​X1​+β2​X2​+⋯+βp​Xp​

Aqui:

  • μ\muμ representa a média esperada da variável resposta;
  • g(μ)g(\mu)g(μ) é a função de ligação;
  • η\etaη é o preditor linear;
  • β0,β1,,βp\beta_0, \beta_1, \ldots, \beta_pβ0​,β1​,…,βp​ são os coeficientes do modelo;
  • X1,X2,,XpX_1, X_2, \ldots, X_pX1​,X2​,…,Xp​ são as variáveis explicativas.

A função de ligação permite modelar a relação entre a resposta e os preditores de forma adequada à distribuição escolhida. Por exemplo, em modelos de contagem, ela ajuda a garantir que os valores previstos sejam sempre positivos; em modelos binomiais, garante que as probabilidades previstas fiquem entre 0 e 1.

Uma forma simples de resumir é:

O GLM mantém a estrutura linear nos parâmetros, mas permite trabalhar com diferentes distribuições da variável resposta por meio de uma função de ligação adequada.

Exemplos de modelos GLM:

Modelo GLMTipo da variável dependenteTipo de respostaDistribuição usadaFunção de ligação comumExemplo
Regressão LinearQuantitativa contínuaValores numéricos contínuos e aproximadamente simétricosNormalIdentidadeValor de imóvel, altura, temperatura
Regressão LogísticaQualitativa nominal bináriaDuas categorias, como sim/não ou 0/1BinomialLogitAprovação/reprovação, doente/não doente
Regressão de PoissonQuantitativa discretaContagem de eventosPoissonLogNúmero de reclamações, número de atendimentos
Regressão Binomial NegativaQuantitativa discretaContagem com superdispersãoBinomial NegativaLogNúmero de internações com alta variabilidade
Regressão GamaQuantitativa contínua positivaValores positivos e assimétricos à direitaGamaLog ou inversaCusto hospitalar, tempo de internação

OBS:

observação importante:

A Regressão Logística trabalha com uma variável dependente qualitativa nominal binária, porque a resposta representa categorias, como:Y={1,sim0,na˜oY = \begin{cases} 1, & \text{sim} \\ 0, & \text{não} \end{cases}Y={1,0,​simna˜o​

Já modelos como Poisson e Binomial Negativa usam variáveis dependentes quantitativas discretas, pois a resposta é uma contagem:Y=0,1,2,3,Y = 0, 1, 2, 3, \ldotsY=0,1,2,3,…

E modelos como Linear e Gama usam variáveis dependentes quantitativas contínuas, pois a resposta representa medidas numéricas em escala contínua.

Distribuição característica:

Modelo GLMDistribuiçãoTipo da variável dependenteQuando usarForma aproximada da distribuição
Regressão LinearNormalQuantitativa contínuaQuando a resposta é contínua e aproximadamente simétrica🔔 Curva em sino
Regressão LogísticaBinomialQualitativa nominal bináriaQuando a resposta possui duas categorias, como 0/1, sim/não⚫ ⚪ Dois resultados possíveis
Regressão de PoissonPoissonQuantitativa discretaQuando a resposta representa contagem de eventos▂▅█▆▃ Barras de contagem
Regressão Binomial NegativaBinomial NegativaQuantitativa discretaQuando há contagem com variância maior que a média▂▃▆█▅▃ Cauda mais longa
Regressão GamaGamaQuantitativa contínua positivaQuando a resposta é positiva e assimétrica à direita▂█▆▃▂▁ Assimétrica à direita

Deixe um comentário