Regressão não linear simples

Resíduos não aderentes a normalidade, por determinado teste estatístico, provavelmente a distribuição de dados é não linear.

Exemplo de Teste estatístico para verificar se os resíduos estão aderentes a normalidade.

Shapiro-Wilk: Amostras pequenas (50 observações)

Shapiro-Francia: Amostras maiores.

O teste de Shapiro–Francia é um teste estatístico utilizado justamente para verificar essa hipótese de normalidade.

Hipóteses do teste

O teste trabalha com duas hipóteses:H0: os resıˊduos seguem distribuic¸a˜o normalH_0:\ \text{os resíduos seguem distribuição normal}H1: os resıˊduos na˜o seguem distribuic¸a˜o normalH_1:\ \text{os resíduos não seguem distribuição normal}

Ou seja:

  • H0H_0​ representa a hipótese de normalidade;
  • H1H_1​ representa a hipótese alternativa, indicando violação da normalidade.

Interpretação do p-valor

Após executar o teste, obtém-se um valor chamado p-value.

A regra geral é:

Se:

p-value>0,05p\text{-value} > 0,05

não rejeitamos H0H_0​.

Assim, há evidências de que os resíduos possuem aderência à normalidade.

Se:

p-value0,05p\text{-value} \leq 0,05

rejeitamos H0H_0​.

Nesse caso, conclui-se que os resíduos não seguem distribuição normal.

Normalização/Transformação box-cox (transformação da variável dependente)

O Box-Cox não transforma os resíduos diretamente. Primeiro transformamos YY, ajustamos o modelo com YY^*, e só depois avaliamos se os novos resíduos ficaram mais aderentes à normalidade.

Qual melhor Lambda que maximiza a aderência a normalidade.

Na transformação Box-Cox, quando ainda não existe um modelo ajustado, não avaliamos os termos de erro, pois os resíduos só existem após a estimação do modelo. Nesse caso, a transformação é aplicada diretamente sobre a variável resposta YYY, com o objetivo de aproximar sua distribuição da normalidade e estabilizar sua variância.


O parâmetro λ\lambda da transformação Box-Cox é escolhido de forma a tornar a variável resposta transformada YY^*o mais próxima possível de uma distribuição normal. Assim, antes de ajustar o modelo, buscamos uma escala mais adequada para YY, aumentando a chance de que os resíduos do modelo apresentem melhor comportamento estatístico.

A transformação é:Y=Yλ1λY^* = \frac{Y^\lambda – 1}{\lambda}

quando:λ0\lambda \neq 0

E quando:λ=0\lambda = 0

usa-se:Y=ln(Y)Y^* = \ln(Y)

A ideia é testar vários valores de λ\lambdaλ, por exemplo:[2, 1, 0,5, 0, 0,5, 1, 2][-2,\ -1,\ -0{,}5,\ 0,\ 0{,}5,\ 1,\ 2]

e escolher aquele que maximiza a aderência de YY^* à distribuição normal.

Exemplo de interpretação:

  • λ = 1 → praticamente não transforma Y
  • λ = 0,5 → raiz quadrada de Y
  • λ = 0 → log(Y)
  • λ = -1 → inverso de Y

Regressão linear simples e múltipla

É usada quando a variável resposta é contínua e aproximadamente simétrica.

Erros comuns, importante:

  • Intercepto não significativo não invalida o modelo. Não remover o intercept/alfa do modelo.
    Ele apenas indica que, com a amostra disponível, não há evidência suficiente de que o intercepto seja diferente de zero. Forçar α=0\alpha = 0 sem justificativa pode gerar viés e piorar a interpretação do modelo.
  • R2 ajustado é para comparar modelos.
  • Cuidado com ponderação arbitrária, exemplo transformar variável qualitativa em LabelEncoder int(64), o correto é dummizar, deixar como string.

Alguns exemplos utilizados corretamente.

Prever o valor de um imóvel com base em área, localização e número de quartos.

Nesse caso, a resposta pode assumir vários valores numéricos contínuos.

Funcionamento:

Em modelos OLS a somatória dos termos de erro é igual a zero.
 

Modelo GLMDistribuiçãoTipo da variável dependenteQuando usarForma aproximada da distribuição
Regressão LinearNormalQuantitativa contínuaQuando a resposta é contínua e aproximadamente simétrica🔔 Curva em sino

Olhamos o nível de significância do Beta.

A regressão linear simples busca modelar a relação entre uma variável dependente YY e uma variável independente XX.

A equação geral é:

Yi​=β0​+β1​Xi​+εi​

Onde:

TermoSignificado
(Y_i)Valor observado da variável dependente para a observação (i)
(X_i)Valor da variável independente para a observação (i)
(\beta_0)Intercepto da reta, ou seja, valor esperado de (Y) quando (X = 0)
(\beta_1)Inclinação da reta, ou seja, quanto (Y) varia quando (X) aumenta 1 unidade
(\varepsilon_i)Termo de erro, isto é, a diferença entre o valor observado e o valor estimado

Uma forma mais didática também é escrever:Yi=α+βXi+εiY_i = \alpha + \beta X_i + \varepsilon_i

Nesse caso:

  • α\alpha representa o intercepto da reta, ou seja, α é o ponto onde a reta corta o eixo YY;
  • β\beta representa a inclinação da reta;
  • εi\varepsilon_i​ representa o erro da observação iii.

Então, a nomenclatura:α=β0\alpha = \beta_0β=β1\beta = \beta_1

Valor estimado pelo modelo

O modelo não prevê exatamente YiY_i​. Ele calcula um valor estimado, chamado de Y^i\hat{Y}_i:Y^i=β0+β1Xi\hat{Y}_i = \beta_0 + \beta_1X_i

Onde:Y^i\hat{Y}_i

é o valor previsto pelo modelo.

Termo de erro

O erro é a diferença entre o valor real observado e o valor previsto pelo modelo:εi=YiY^i\varepsilon_i = Y_i – \hat{Y}_i

Substituindo:εi=Yi(β0+β1Xi)\varepsilon_i = Y_i – (\beta_0 + \beta_1X_i)

Esse erro mostra o quanto o modelo errou para cada observação.

Ideia do algoritmo

O algoritmo da regressão linear procura encontrar a melhor reta possível para os dados.

Essa melhor reta é aquela que minimiza a soma dos erros ao quadrado:mini=1n(YiY^i)2\min \sum_{i=1}^{n} (Y_i – \hat{Y}_i)^2

Como:Y^i=β0+β1Xi\hat{Y}_i = \beta_0 + \beta_1X_i

temos:mini=1n(Yiβ0β1Xi)2\min \sum_{i=1}^{n} (Y_i – \beta_0 – \beta_1X_i)^2

Esse método é chamado de Mínimos Quadrados OrdináriosOrdinary Least Squares [OLS].

Fórmula da inclinação da reta

A inclinação β1\beta_1​ pode ser calculada por:β1=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2\beta_1 = \frac{ \sum_{i=1}^{n}(X_i – \bar{X})(Y_i – \bar{Y}) }{ \sum_{i=1}^{n}(X_i – \bar{X})^2 }

Ela mede o quanto YY tende a mudar quando XX aumenta uma unidade.

Fórmula do intercepto

Depois de calcular β1\beta_1​, calculamos o intercepto β0\beta_0​:β0=Yˉβ1Xˉ\beta_0 = \bar{Y} – \beta_1\bar{X}

Onde:

  • Xˉ\bar{X} é a média dos valores de XX;
  • Yˉ\bar{Y} é a média dos valores de YY.

Interpretação prática

Imagine o modelo:Y^=10+2X\hat{Y} = 10 + 2X

Nesse caso:

  • β0=10\beta_0 = 10
  • β1=2\beta_1 = 2

A interpretação é:

Quando X=0X = 0, o valor esperado de YY é 10.

E:

Quando XX aumenta 1 unidade, espera-se que YY aumente 2 unidades.

Exemplo:X=5X = 5Y^=10+2(5)\hat{Y} = 10 + 2(5)Y^=20\hat{Y} = 20

Se o valor real observado fosse:Y=23Y = 23

então o erro seria:ε=YY^\varepsilon = Y – \hat{Y}ε=2320\varepsilon = 23 – 20ε=3\varepsilon = 3

Ou seja, o modelo subestimou o valor real em 3 unidades.

A Regressão Linear busca encontrar uma reta que melhor representa a relação entre XX e YY. Essa reta é definida por um intercepto e uma inclinação. O intercepto indica o valor esperado de YY quando X=0X = 0, enquanto a inclinação indica quanto YY muda quando XX aumenta uma unidade. O termo de erro representa a diferença entre o valor observado e o valor previsto pelo modelo. O algoritmo estima os coeficientes minimizando a soma dos erros ao quadrado.

Exemplo:

  • Y: tempo de entrega;
  • X: distância;
  • cálculo de α\alpha, β\beta, erro, erro², SQModeloSQ_{Modelo}​, ​, correlação de Pearson e R2R^2;
Tempo entrega YDistância XY estimadoErroErro²(Y^−Yˉ)2
12313,5238-1,52382,3219387,1532
18517,38190,61810,3821250,2132
21721,2400-0,24000,0576143,0428
26925,09800,90200,813565,6419
311230,88520,11480,01325,3585
351434,74320,25680,06592,3816
391638,60130,39870,159029,1742
451944,38840,61160,3740125,1810
502250,1756-0,17560,0308288,1694
552555,9627-0,96270,9267518,1393

Modelo encontrado

A reta estimada ficou:

Y^=7,7367+1,9290X

Ou seja:

α=7,7367 β=1,9290\beta = 1{,}9290

A interpretação é:

A cada aumento de 1 unidade na distância, o tempo de entrega aumenta, em média, aproximadamente 1,9290 unidades.

Tabelas de parâmetros:

ParâmetroFórmula ExcelValor
média X=MÉDIA(B2:B11)13,2000
média Y=MÉDIA(A2:A11)33,2000
beta=INCLINAÇÃO(A2:A11;B2:B11)1,9290
alfa=INTERCEPÇÃO(A2:A11;B2:B11)7,7367
Correlação Pearson=CORREL(A2:A11;B2:B11)0,9986
R² por Pearson²=J6^20,9972
R² por soma dos quadrados=F12/(F12+E12)0,9972

A regressão linear simples encontra a melhor reta para explicar a relação entre XX e YY. O cálculo pode ser visto como um problema de otimização, pois o objetivo é minimizar a soma dos erros ao quadrado:

α,βmin​i=1∑n​(Yi​−Y^i​)2

Como:

Y^i​=α+βXi​

então:

α,βmin​i=1∑n​(Yi​−α−βXi​)2

Nesse exemplo, o modelo apresentou:

R2=0,9972

Isso significa que aproximadamente 99,72% da variação do tempo de entrega foi explicada pela distância.

E como é uma regressão linear simples, com apenas uma variável XX, vale a curiosidade:

R2=r2

onde rr é a correlação de Pearson entre XX e YY.

Python

Utilizando o modelo OLS (Ordinary Least Squares, ou Mínimos Quadrados Ordinários), já tenho como premissa que a variável Y ou dependente é quantitativa, que a somatório dos erro é igual 0 e a somatória dos erros ao quadrado será a mínima possível.

Correspondência entre a saída do Python e a equação da regressão

A regressão linear simples estimada pelo Python aparece no formato:Y^=α+βX\hat{Y} = \alpha + \beta X

No nosso exemplo:tempo^=7,7367+1,9290distancia\widehat{tempo} = 7{,}7367 + 1{,}9290 \cdot distancia

Ou seja:

Saída no PythonNome estatísticoNome didáticoValor no nosso exemploInterpretação
R-squared(R^2)R-quadrado0,997Percentual da variação de (Y) explicado por (X)
Intercept(\alpha) ou (\beta_0)Intercepto / Alfa7,7367Valor estimado de tempo quando a distância é zero
distancia(\beta) ou (\beta_1)Beta / Inclinação1,9290Quanto o tempo aumenta quando a distância cresce 1 unidade

Equação do modelo

A partir da tabela de coeficientes:

VariávelCoeficiente
Intercept7,7367
distancia1,9290

A equação fica:tempo^=7,7367+1,9290distancia\widehat{tempo} = 7{,}7367 + 1{,}9290 \cdot distancia

Onde:α=7,7367\alpha = 7{,}7367 β=1,9290\beta = 1{,}9290

Portanto:tempo^=α+βdistancia\widehat{tempo} = \alpha + \beta \cdot distancia

Interpretação do intercepto

O intercepto é o valor esperado de YYY quando X=0X = 0X=0.

Neste exemplo:α=7,7367\alpha = 7{,}7367

Isso significa que, quando a distância é igual a zero, o tempo estimado pelo modelo seria aproximadamente:7,73677{,}7367

Na prática, nem sempre o intercepto tem uma interpretação realista. Ele é principalmente necessário para posicionar a reta no gráfico.

Interpretação do beta

O coeficiente da variável distancia é:β=1,9290\beta = 1{,}9290

Isso significa que, para cada aumento de 1 unidade na distância, o tempo de entrega aumenta, em média, aproximadamente:1,92901{,}9290

unidades de tempo.

Em linguagem simples:

Quanto maior a distância, maior tende a ser o tempo de entrega.

Interpretação do R-quadrado

O R-squared aparece como:R2=0,997R^2 = 0{,}997

Isso significa que aproximadamente:99,7%99{,}7\%

da variação do tempo de entrega é explicada pela distância no modelo linear simples.

Ou seja, nesse exemplo fictício, a distância explica quase totalmente a variação do tempo.

ColunaSignificadoFórmula
tempoValor real observado de (Y)(Y_i)
distanciaVariável explicativa (X)(X_i)
yhatValor estimado pelo modelo(\hat{Y}_i)
erroResíduo do modelo(Y_i – \hat{Y}_i)

A coluna yhat representa os fitted values, ou seja, os valores previstos pela reta de regressão.

Como o modelo estimado foi:tempo^=7,7367+1,9290distancia\widehat{tempo} = 7{,}7367 + 1{,}9290 \cdot distancia

para cada linha, o Python calcula:Y^i=α+βXi\hat{Y}_i = \alpha + \beta X_i

Já a coluna erro representa o resíduo:ei=YiY^ie_i = Y_i – \hat{Y}_i

Ou seja, é a diferença entre o tempo real observado e o tempo estimado pelo modelo.

Exemplo prático

Para a primeira linha, supondo:Y=12Y = 12X=3X = 3

o valor estimado é:Y^=7,7367+1,92903\hat{Y} = 7{,}7367 + 1{,}9290 \cdot 3Y^=13,5237\hat{Y} = 13{,}5237

Então o erro é:e=1213,5237e = 12 – 13{,}5237e=1,5237e = -1{,}5237

Como o erro ficou negativo, significa que o modelo estimou um valor maior do que o valor observado.

Resumo e entendimento para o exemplo:

Pontos importantes sobre significância, intervalos de confiança e intercepto na Regressão OLS

Ao interpretar um modelo de regressão linear estimado por OLS, é comum olhar para os coeficientes, os p-valores e os intervalos de confiança. Porém, alguns cuidados são importantes para evitar interpretações erradas.

Resumo dos pontos principais

PontoInterpretação
Intervalos de confiança aumentam quando elevamos o nível de confiançaUm IC de 99% tende a ser mais largo que um IC de 95%
A significância depende do nível de significância adotadoUm coeficiente pode ser significativo a 5%, mas não a 1%
Em modelos preditivos, p-valor não é tudoMétricas de erro e validação também são essenciais
Amostras pequenas aumentam a incertezaO erro padrão pode crescer e reduzir a significância dos coeficientes
Intercepto não significativo não deve ser removido automaticamenteForçar a reta pela origem pode gerar viés

1. Quanto maior o nível de confiança, maior será o intervalo do coeficiente

O intervalo de confiança de um coeficiente β\beta representa uma faixa provável de valores para o verdadeiro parâmetro populacional.

De forma simplificada:IC=β^±tα/2SE(β^)IC = \hat{\beta} \pm t_{\alpha/2} \cdot SE(\hat{\beta})

Onde:

  • β^\hat{\beta} é o coeficiente estimado pelo modelo;
  • SE(β^)SE(\hat{\beta}) é o erro padrão do coeficiente;
  • tα/2t_{\alpha/2}​ é o valor crítico da distribuição t.

Quando aumentamos o nível de confiança, por exemplo de 95% para 99%, o modelo precisa construir uma faixa mais ampla para aumentar a chance de conter o verdadeiro valor do parâmetro.

2. Um coeficiente pode ser significativo em um nível e deixar de ser em outro

A significância estatística depende diretamente do nível de significância adotado, geralmente representado por α\alphaα.

Por exemplo:IC=95%α=5%IC = 95\% \Rightarrow \alpha = 5\%IC=99%α=1%IC = 99\% \Rightarrow \alpha = 1\%

Isso significa que, ao aumentar o nível de confiança, o teste fica mais rigoroso.

Imagine um coeficiente com:p-valor=0,03p\text{-valor} = 0{,}03

Se adotarmos α=0,05\alpha = 0{,}05α=0,05, esse coeficiente será considerado estatisticamente significativo, pois:0,03<0,050{,}03 < 0{,}05

Mas, se adotarmos α=0,01\alpha = 0{,}01α=0,01, ele deixará de ser significativo, pois:0,03>0,010{,}03 > 0{,}01

Resumo:

Situaçãop-valorNível de significânciaInterpretação
Confiança de 95%0,035%Significativo
Confiança de 99%0,031%Não significativo

Então, um mesmo coeficiente pode ser significativo a 95%, mas não significativo a 99%.

Esse ponto é importante porque mostra que a significância estatística não é uma característica absoluta do coeficiente. Ela depende do critério adotado na análise.

3. Em modelos preditivos, significância estatística não deve ser analisada isoladamente

Em problemas de predição, o objetivo principal não é apenas saber se um coeficiente é estatisticamente diferente de zero, mas avaliar se o modelo consegue prever bem novos dados.

Por isso, além dos p-valores, é importante observar métricas como:

  • erro médio absoluto, MAE;
  • raiz do erro quadrático médio, RMSE;
  • R2R^2;
  • análise dos resíduos;
  • desempenho em dados de teste;
  • validação cruzada, quando aplicável.

Um coeficiente individual pode não ser estatisticamente significativo e, ainda assim, o modelo pode apresentar bom desempenho preditivo.

Por outro lado, um modelo pode ter coeficientes estatisticamente significativos e ainda assim não ser bom para previsão, principalmente se não generalizar bem para novos dados.

Portanto, para fins preditivos, significância estatística é útil, mas não deve ser o único critério de decisão.

4. Amostras pequenas podem dificultar a significância dos parâmetros

O tamanho da amostra tem grande impacto na inferência estatística.

A estatística t de um coeficiente é calculada por:t=β^SE(β^)t = \frac{\hat{\beta}}{SE(\hat{\beta})}

No caso do intercepto, também chamado de α\alpha, temos:tα=α^SE(α^)t_{\alpha} = \frac{\hat{\alpha}}{SE(\hat{\alpha})}

Quando a amostra é pequena, o erro padrão tende a ser maior. Isso reduz o valor da estatística t e pode aumentar o p-valor.

A lógica é:nSEtp-valorn \downarrow \Rightarrow SE \uparrow \Rightarrow t \downarrow \Rightarrow p\text{-valor} \uparrow

Ou seja, com poucas observações, o modelo pode não ter evidência estatística suficiente para indicar que determinado parâmetro é diferente de zero.

5. Intercepto não significativo não significa que ele deve ser removido automaticamente

Um erro comum em modelos regressivos é remover o intercepto apenas porque ele não apresentou significância estatística.

Isso pode ser perigoso.

O intercepto representa o valor esperado de YY quando as variáveis explicativas são iguais a zero. Dependendo do problema, esse ponto pode nem ter interpretação prática, mas ainda assim o intercepto ajuda a ajustar corretamente a reta de regressão.

Remover o intercepto força a reta a passar pela origem:Y=βXY = \beta X

Em vez de permitir:Y=α+βXY = \alpha + \beta X

Essa imposição pode gerar viés no modelo, principalmente quando não existe justificativa teórica para assumir que Y=0Y = 0quando X=0X = 0.

Portanto, intercepto não significativo deve ser analisado com cuidado, e não removido automaticamente.

Em regressão OLS, a interpretação dos coeficientes não deve se limitar ao p-valor. O nível de confiança, o tamanho da amostra, o erro padrão e o objetivo do modelo — explicação ou predição — influenciam diretamente a análise. Além disso, a ausência de significância estatística do intercepto não é, por si só, justificativa para removê-lo do modelo.

Pontos Importantes sobre variáveis categóricas Dummy

Em modelos regressivos, uma variável dummy indica o efeito médio de pertencer a uma determinada categoria em comparação com uma categoria de referência. Quando a dummy assume valor 0, a observação pertence ao grupo base. Quando assume valor 1, pertence ao grupo alternativo. Assim, o coeficiente da dummy representa o incremento ou redução média esperada em YYY ao mudar da categoria de referência para a categoria alternativa, mantendo as demais variáveis constantes.

Uma variável dummy representa uma mudança média em YY quando saímos da categoria de referência e vamos para a categoria alternativa, mantendo as demais variáveis constantes.

Ou seja:

Dummy em regressão: mede quanto YY muda, em média, quando passamos da categoria de referência (0)(0) para a categoria alternativa (1)(1).

  • O alfa nas variáveis Dummys é o valor medio de Y de quem está na categoria de referência.
  • O Beta é o quanto se altera de Y quando se passa da categoria de referencia para categorias alternativa. (0 categoria referencia e 1 categoria alternativa). Não importa qual vai ser 0 ou qual categoria será 1, sempre retorna o mesmo valor.

Por exemplo:Y=α+β1X+β2D+εY = \alpha + \beta_1 X + \beta_2 D + \varepsilon

Onde:D={0,categoria de refereˆncia1,categoria alternativaD = \begin{cases} 0, & \text{categoria de referência} \\ 1, & \text{categoria alternativa} \end{cases}

A interpretação de β2\beta_2​ é:

Quando a observação pertence à categoria alternativa (D=1)(D=1), o valor esperado de YY muda em média β2\beta_2​ unidades em relação à categoria de referência (D=0)(D=0), mantendo XX constante.

Exemplo simples

Imagine um modelo para explicar o tempo de entrega:Tempo=α+β1Dista^ncia+β2Motoboy+εTempo = \alpha + \beta_1 Distância + \beta_2 Motoboy + \varepsilon

Onde:Motoboy={0,carro1,motoboyMotoboy = \begin{cases} 0, & \text{carro} \\ 1, & \text{motoboy} \end{cases}

Se o modelo estimou:β2=8\beta_2 = -8

A interpretação seria:

Entregas feitas por motoboy têm, em média, 8 minutos a menos no tempo de entrega em relação às entregas feitas por carro, considerando a mesma distância.

Se fosse:β2=5\beta_2 = 5

A interpretação seria:

Entregas feitas por motoboy têm, em média, 5 minutos a mais no tempo de entrega em relação às entregas feitas por carro, considerando a mesma distância.

Com 3 categorias se cria 2 Dummies , utilizando One-Hot-encoding.

Modelos Lineares Generalizados (GLM)

O valor da Y (variável dependente) vai dizer qual modelos podemos utilizar.

Modelos são correlacionais, não causais, não sei se as variáveis X causam a Y. Correlação não implica causalidade.

Os GLM (modelos lineares generalizados) ampliam a ideia dos modelos lineares tradicionais, permitindo analisar diferentes tipos de variável resposta, não apenas variáveis contínuas com distribuição Normal.

A lógica central continua sendo a mesma: construir um preditor linear a partir das variáveis explicativas. Porém, os GLMs introduzem dois elementos importantes:

Componente aleatório

Nos modelos lineares clássicos, geralmente assumimos que a variável resposta segue uma distribuição Normal. Já nos GLMs, essa exigência é flexibilizada.

A variável resposta pode seguir distribuições pertencentes à família exponencial, como:

  • Normal: para dados contínuos aproximadamente simétricos;
  • Poisson: para dados de contagem;
  • Binomial: para respostas binárias ou proporções;
  • Gama: para dados contínuos positivos e assimétricos.

Isso torna os GLMs úteis para situações em que a variável resposta não se comporta bem como uma variável Normal.

Função de ligação

A função de ligação conecta a média esperada da variável resposta ao preditor linear do modelo.

De forma geral:

g(μ)=η

Onde:

η=β0​+β1​X1​+β2​X2​+⋯+βp​Xp​

Aqui:

  • μ\muμ representa a média esperada da variável resposta;
  • g(μ)g(\mu)g(μ) é a função de ligação;
  • η\etaη é o preditor linear;
  • β0,β1,,βp\beta_0, \beta_1, \ldots, \beta_pβ0​,β1​,…,βp​ são os coeficientes do modelo;
  • X1,X2,,XpX_1, X_2, \ldots, X_pX1​,X2​,…,Xp​ são as variáveis explicativas.

A função de ligação permite modelar a relação entre a resposta e os preditores de forma adequada à distribuição escolhida. Por exemplo, em modelos de contagem, ela ajuda a garantir que os valores previstos sejam sempre positivos; em modelos binomiais, garante que as probabilidades previstas fiquem entre 0 e 1.

Uma forma simples de resumir é:

O GLM mantém a estrutura linear nos parâmetros, mas permite trabalhar com diferentes distribuições da variável resposta por meio de uma função de ligação adequada.

Exemplos de modelos GLM:

Modelo GLMTipo da variável dependenteTipo de respostaDistribuição usadaFunção de ligação comumExemplo
Regressão LinearQuantitativa contínuaValores numéricos contínuos e aproximadamente simétricosNormalIdentidadeValor de imóvel, altura, temperatura
Regressão LogísticaQualitativa nominal bináriaDuas categorias, como sim/não ou 0/1BinomialLogitAprovação/reprovação, doente/não doente
Regressão de PoissonQuantitativa discretaContagem de eventosPoissonLogNúmero de reclamações, número de atendimentos
Regressão Binomial NegativaQuantitativa discretaContagem com superdispersãoBinomial NegativaLogNúmero de internações com alta variabilidade
Regressão GamaQuantitativa contínua positivaValores positivos e assimétricos à direitaGamaLog ou inversaCusto hospitalar, tempo de internação

OBS:

observação importante:

A Regressão Logística trabalha com uma variável dependente qualitativa nominal binária, porque a resposta representa categorias, como:Y={1,sim0,na˜oY = \begin{cases} 1, & \text{sim} \\ 0, & \text{não} \end{cases}Y={1,0,​simna˜o​

Já modelos como Poisson e Binomial Negativa usam variáveis dependentes quantitativas discretas, pois a resposta é uma contagem:Y=0,1,2,3,Y = 0, 1, 2, 3, \ldotsY=0,1,2,3,…

E modelos como Linear e Gama usam variáveis dependentes quantitativas contínuas, pois a resposta representa medidas numéricas em escala contínua.

Distribuição característica:

Modelo GLMDistribuiçãoTipo da variável dependenteQuando usarForma aproximada da distribuição
Regressão LinearNormalQuantitativa contínuaQuando a resposta é contínua e aproximadamente simétrica🔔 Curva em sino
Regressão LogísticaBinomialQualitativa nominal bináriaQuando a resposta possui duas categorias, como 0/1, sim/não⚫ ⚪ Dois resultados possíveis
Regressão de PoissonPoissonQuantitativa discretaQuando a resposta representa contagem de eventos▂▅█▆▃ Barras de contagem
Regressão Binomial NegativaBinomial NegativaQuantitativa discretaQuando há contagem com variância maior que a média▂▃▆█▅▃ Cauda mais longa
Regressão GamaGamaQuantitativa contínua positivaQuando a resposta é positiva e assimétrica à direita▂█▆▃▂▁ Assimétrica à direita