O valor da Y (variável dependente) vai dizer qual modelos podemos utilizar.
Modelos são correlacionais, não causais, não sei se as variáveis X causam a Y. Correlação não implica causalidade.
Os GLM (modelos lineares generalizados) ampliam a ideia dos modelos lineares tradicionais, permitindo analisar diferentes tipos de variável resposta, não apenas variáveis contínuas com distribuição Normal.
A lógica central continua sendo a mesma: construir um preditor linear a partir das variáveis explicativas. Porém, os GLMs introduzem dois elementos importantes:
Componente aleatório
Nos modelos lineares clássicos, geralmente assumimos que a variável resposta segue uma distribuição Normal. Já nos GLMs, essa exigência é flexibilizada.
A variável resposta pode seguir distribuições pertencentes à família exponencial, como:
- Normal: para dados contínuos aproximadamente simétricos;
- Poisson: para dados de contagem;
- Binomial: para respostas binárias ou proporções;
- Gama: para dados contínuos positivos e assimétricos.
Isso torna os GLMs úteis para situações em que a variável resposta não se comporta bem como uma variável Normal.
Função de ligação
A função de ligação conecta a média esperada da variável resposta ao preditor linear do modelo.
De forma geral:
g(μ)=η
Onde:
η=β0+β1X1+β2X2+⋯+βpXp
Aqui:
- μ representa a média esperada da variável resposta;
- g(μ) é a função de ligação;
- η é o preditor linear;
- β0,β1,…,βp são os coeficientes do modelo;
- X1,X2,…,Xp são as variáveis explicativas.
A função de ligação permite modelar a relação entre a resposta e os preditores de forma adequada à distribuição escolhida. Por exemplo, em modelos de contagem, ela ajuda a garantir que os valores previstos sejam sempre positivos; em modelos binomiais, garante que as probabilidades previstas fiquem entre 0 e 1.
Uma forma simples de resumir é:
O GLM mantém a estrutura linear nos parâmetros, mas permite trabalhar com diferentes distribuições da variável resposta por meio de uma função de ligação adequada.
Exemplos de modelos GLM:
| Modelo GLM | Tipo da variável dependente | Tipo de resposta | Distribuição usada | Função de ligação comum | Exemplo |
|---|
| Regressão Linear | Quantitativa contínua | Valores numéricos contínuos e aproximadamente simétricos | Normal | Identidade | Valor de imóvel, altura, temperatura |
| Regressão Logística | Qualitativa nominal binária | Duas categorias, como sim/não ou 0/1 | Binomial | Logit | Aprovação/reprovação, doente/não doente |
| Regressão de Poisson | Quantitativa discreta | Contagem de eventos | Poisson | Log | Número de reclamações, número de atendimentos |
| Regressão Binomial Negativa | Quantitativa discreta | Contagem com superdispersão | Binomial Negativa | Log | Número de internações com alta variabilidade |
| Regressão Gama | Quantitativa contínua positiva | Valores positivos e assimétricos à direita | Gama | Log ou inversa | Custo hospitalar, tempo de internação |
OBS:
observação importante:
A Regressão Logística trabalha com uma variável dependente qualitativa nominal binária, porque a resposta representa categorias, como:Y={1,0,simna˜o
Já modelos como Poisson e Binomial Negativa usam variáveis dependentes quantitativas discretas, pois a resposta é uma contagem:Y=0,1,2,3,…
E modelos como Linear e Gama usam variáveis dependentes quantitativas contínuas, pois a resposta representa medidas numéricas em escala contínua.
Distribuição característica:
| Modelo GLM | Distribuição | Tipo da variável dependente | Quando usar | Forma aproximada da distribuição |
|---|---|---|---|---|
| Regressão Linear | Normal | Quantitativa contínua | Quando a resposta é contínua e aproximadamente simétrica | 🔔 Curva em sino |
| Regressão Logística | Binomial | Qualitativa nominal binária | Quando a resposta possui duas categorias, como 0/1, sim/não | ⚫ ⚪ Dois resultados possíveis |
| Regressão de Poisson | Poisson | Quantitativa discreta | Quando a resposta representa contagem de eventos | ▂▅█▆▃ Barras de contagem |
| Regressão Binomial Negativa | Binomial Negativa | Quantitativa discreta | Quando há contagem com variância maior que a média | ▂▃▆█▅▃ Cauda mais longa |
| Regressão Gama | Gama | Quantitativa contínua positiva | Quando a resposta é positiva e assimétrica à direita | ▂█▆▃▂▁ Assimétrica à direita |