Regressão não linear Múltipla

3 de junho de 20269 de junho de 2026 dbasamantalekecinskas Supervisionado

Uma variável pode ser estatisticamente significativa quando analisada isoladamente, mas perder significância quando inserida em um modelo com outras variáveis altamente correlacionadas.

Em regressões múltiplas, a significância estatística de uma variável depende não apenas de sua relação com a variável resposta, mas também da informação compartilhada com as demais variáveis explicativas. Quando existe forte multicolinearidade, o modelo encontra dificuldades para separar os efeitos individuais dos preditores, aumentando os erros-padrão dos coeficientes e reduzindo sua significância estatística.

Revisão do passo a passo para a Regressão:

			
1. Entender os dados
   X, Y, correlação, scatterplot
   Correlação ≠ causalidade
2. Definir o modelo
   Y = α + β₁X₁ + β₂X₂ + ... + βₖXₖ + u
3. Interpretar α
   α = intercepto
   Valor esperado de Y quando X = 0
4. Interpretar β
   β = efeito marginal de X sobre Y
   Mantidas as demais variáveis constantes
5. Estimar fitted values
   Ŷ = valores previstos pelo modelo
6. Calcular resíduos
   uᵢ = Yᵢ - Ŷᵢ
7. Aplicar OLS / MQO
   Minimiza Σuᵢ²
   Com intercepto: Σuᵢ = 0
8. Avaliar R²
   Quanto da variação de Y foi explicada
   R² alto ≠ modelo válido
9. Teste F
   H₀: todos os β = 0
   H₁: pelo menos 1 β ≠ 0
10. Teste t
    H₀: βⱼ = 0
    H₁: βⱼ ≠ 0
    Avalia cada variável preditora
11. Intervalos de confiança
    IC do α e dos β
    Se contém zero, atenção à significância
12. Verificar interpolação/extrapolação
    Previsão dentro da faixa dos dados = interpolação
    Fora da faixa dos dados = extrapolação
13. Diagnóstico dos resíduos
    Resíduos aleatórios?
    Sem padrão?
    Sem curvatura?
    Sem funil?
14. Normalidade dos resíduos
    Shapiro-Francia
    H₀: resíduos seguem normalidade
15. Se houver problema
    Verificar:
    - não linearidade
    - multicolinearidade
    - heterocedasticidade
    - outliers
    - variável omitida
16. Corrigir e reestimar
    Stepwise
    Box-Cox
    transformação de variáveis
    modelo não linear
17. Validar novamente
    Teste F, teste t, R², resíduos e normalidade

		

statsmodels.summary()

			
================================================================================
                            OLS Regression Results
================================================================================
Dep. Variable:                    Y
Model:                          OLS
Method:               Least Squares
R-squared:                 0.842    ← ❶ R²
Adj. R-squared:            0.831
F-statistic:               52.31    ← ❷ TESTE F
Prob (F-statistic):     0.000001    ← p-value do Teste F
================================================================================
                 coef    std err      t      P>|t|     [0.025    0.975]
--------------------------------------------------------------------------------
Intercept      10.52      2.11    4.98    0.000      6.22      14.82
   ▲             ▲         ▲       ▲         ▲          ▲          ▲
   │             │         │       │         │          │          │
   │             │         │       │         │          └──────────┘
   │             │         │       │         │
   │             │         │       │         └──────── IC95%
   │             │         │       │
   │             │         │       └──────── p-value
   │             │         │
   │             │         └──────── Estatística t
   │             │
   │             └──────── Erro-padrão
   │
   └────────────────────── α (Intercepto)
--------------------------------------------------------------------------------
X1              2.31      0.42    5.50    0.000
                                  ▲
                                  │
                                  └── Teste t do β₁
X2             -0.75      0.31   -2.42    0.018
                                  ▲
                                  │
                                  └── Teste t do β₂
X3              0.12      0.09    1.20    0.235
                                  ▲
                                  │
                                  └── β₃ não significativo
================================================================================

		

❶ R²

Pergunta:

Quanto da variabilidade de Y foi explicada pelo modelo?

$R^2 = 84,2\%$

❷ Teste F

Pergunta:

O modelo como um todo possui capacidade explicativa?

Hipóteses: $H_0: \beta_1=\beta_2=\beta_3=0$ $H_1: \text{Pelo menos um } \beta \neq 0$

Nesse exemplo:

Prob(F-statistic) = 0.000001

Logo:

✅ Rejeita H₀

✅ Pelo menos um β é significativo

α (Intercepto)

Linha:

Intercept

Coeficiente:

10.52

Interpretação: $\alpha = 10.52$

Quando: $X_1=X_2=X_3=0$

esperamos: $Y=10.52$

Teste t

Cada linha de variável possui um teste t próprio.

Exemplo:

X1coef = 2.31t = 5.50p-value = 0.000

Hipóteses: $H_0:\beta_1=0$ $H_1:\beta_1\neq0$

Como:

p-value < 0,05

✅ X1 é significativa.

Resumo visual

			
SUMMARY
│
├── R²
│     Quanto Y foi explicado?
│
├── Teste F
│     Modelo funciona?
│
├── α (Intercept)
│     Valor esperado de Y quando X=0
│
├── β
│     Efeito de cada variável
│
├── Teste t
│     β é significativo?
│
├── p-value
│     Evidência estatística
│
└── IC95%
      Faixa plausível para o coeficiente

		

Teste F → avalia o modelo inteiro

Teste t → avalia cada β individualmente

α → é apenas mais um coeficiente, mas representa o intercepto da reta/plano de regressão.

Multicolinearidade

Um dos sintomas clássicos da multicolinearidade ocorre quando o teste F indica que o modelo é globalmente significativo, mas os testes t individuais não identificam coeficientes significativos. Nessa situação, as variáveis explicativas possuem forte correlação entre si, dificultando a separação de seus efeitos individuais sobre a variável resposta. Como consequência, os erros-padrão aumentam, as estatísticas t diminuem e os p-values tornam-se elevados, mesmo quando o conjunto de variáveis explica adequadamente Y.

Regressão não linear simples

28 de maio de 20263 de junho de 2026 dbasamantalekecinskas Supervisionado

Resíduos não aderentes a normalidade, por determinado teste estatístico, provavelmente a distribuição de dados é não linear.

Exemplo de Teste estatístico para verificar se os resíduos estão aderentes a normalidade.

Shapiro-Wilk: Amostras pequenas (50 observações)

Shapiro-Francia: Amostras maiores.

O teste de Shapiro–Francia é um teste estatístico utilizado justamente para verificar essa hipótese de normalidade.

Hipóteses do teste

O teste trabalha com duas hipóteses: $H_0:\ \text{os resíduos seguem distribuição normal}$ $H_1:\ \text{os resíduos não seguem distribuição normal}$

Ou seja:

$H_0$ representa a hipótese de normalidade;
$H_1$ representa a hipótese alternativa, indicando violação da normalidade.

Interpretação do p-valor

Após executar o teste, obtém-se um valor chamado p-value.

A regra geral é:

Se:

$p\text{-value} > 0,05$

não rejeitamos $H_0$ .

Assim, há evidências de que os resíduos possuem aderência à normalidade.

Se:

$p\text{-value} \leq 0,05$

rejeitamos $H_0$ .

Nesse caso, conclui-se que os resíduos não seguem distribuição normal.

Normalização/Transformação box-cox (transformação da variável dependente)

O Box-Cox não transforma os resíduos diretamente. Primeiro transformamos $Y$ , ajustamos o modelo com $Y^*$ , e só depois avaliamos se os novos resíduos ficaram mais aderentes à normalidade.

Qual melhor Lambda que maximiza a aderência a normalidade.

Na transformação Box-Cox, quando ainda não existe um modelo ajustado, não avaliamos os termos de erro, pois os resíduos só existem após a estimação do modelo. Nesse caso, a transformação é aplicada diretamente sobre a variável resposta $Y$ Y, com o objetivo de aproximar sua distribuição da normalidade e estabilizar sua variância.

O parâmetro $\lambda$ da transformação Box-Cox é escolhido de forma a tornar a variável resposta transformada $Y^*$ o mais próxima possível de uma distribuição normal. Assim, antes de ajustar o modelo, buscamos uma escala mais adequada para $Y$ , aumentando a chance de que os resíduos do modelo apresentem melhor comportamento estatístico.

A transformação é: $Y^* = \frac{Y^\lambda – 1}{\lambda}$

quando: $\lambda \neq 0$

E quando: $\lambda = 0$

usa-se: $Y^* = \ln(Y)$

A ideia é testar vários valores de $\lambda$ λ, por exemplo: $[-2,\ -1,\ -0{,}5,\ 0,\ 0{,}5,\ 1,\ 2]$

e escolher aquele que maximiza a aderência de $Y^*$ à distribuição normal.

Exemplo de interpretação:

λ = 1 → praticamente não transforma Y
λ = 0,5 → raiz quadrada de Y
λ = 0 → log(Y)
λ = -1 → inverso de Y

Regressão linear simples e múltipla

19 de maio de 202628 de maio de 2026 dbasamantalekecinskas Supervisionado

É usada quando a variável resposta é contínua e aproximadamente simétrica.

Erros comuns, importante:

Intercepto não significativo não invalida o modelo. Não remover o intercept/alfa do modelo.
Ele apenas indica que, com a amostra disponível, não há evidência suficiente de que o intercepto seja diferente de zero. Forçar $\alpha = 0$ sem justificativa pode gerar viés e piorar a interpretação do modelo.
R2 ajustado é para comparar modelos.
Cuidado com ponderação arbitrária, exemplo transformar variável qualitativa em LabelEncoder int(64), o correto é dummizar, deixar como string.

Alguns exemplos utilizados corretamente.

Prever o valor de um imóvel com base em área, localização e número de quartos.

Nesse caso, a resposta pode assumir vários valores numéricos contínuos.

Funcionamento:

Em modelos OLS a somatória dos termos de erro é igual a zero.

Modelo GLM	Distribuição	Tipo da variável dependente	Quando usar	Forma aproximada da distribuição
Regressão Linear	Normal	Quantitativa contínua	Quando a resposta é contínua e aproximadamente simétrica	🔔 Curva em sino

Olhamos o nível de significância do Beta.

A regressão linear simples busca modelar a relação entre uma variável dependente $Y$ e uma variável independente $X$ .

A equação geral é:

Yi=β0+β1Xi+εi

Onde:

Termo	Significado
(Y_i)	Valor observado da variável dependente para a observação (i)
(X_i)	Valor da variável independente para a observação (i)
(\beta_0)	Intercepto da reta, ou seja, valor esperado de (Y) quando (X = 0)
(\beta_1)	Inclinação da reta, ou seja, quanto (Y) varia quando (X) aumenta 1 unidade
(\varepsilon_i)	Termo de erro, isto é, a diferença entre o valor observado e o valor estimado

Uma forma mais didática também é escrever: $Y_i = \alpha + \beta X_i + \varepsilon_i$

Nesse caso:

$\alpha$ representa o intercepto da reta, ou seja, α é o ponto onde a reta corta o eixo $Y$ ;
$\beta$ representa a inclinação da reta;
$\varepsilon_i$ representa o erro da observação iii.

Então, a nomenclatura: $\alpha = \beta_0$ $\beta = \beta_1$

Valor estimado pelo modelo

O modelo não prevê exatamente $Y_i$ . Ele calcula um valor estimado, chamado de $\hat{Y}_i$ : $\hat{Y}_i = \beta_0 + \beta_1X_i$

Onde: $\hat{Y}_i$

é o valor previsto pelo modelo.

Termo de erro

O erro é a diferença entre o valor real observado e o valor previsto pelo modelo: $\varepsilon_i = Y_i – \hat{Y}_i$

Substituindo: $\varepsilon_i = Y_i – (\beta_0 + \beta_1X_i)$

Esse erro mostra o quanto o modelo errou para cada observação.

Ideia do algoritmo

O algoritmo da regressão linear procura encontrar a melhor reta possível para os dados.

Essa melhor reta é aquela que minimiza a soma dos erros ao quadrado: $\min \sum_{i=1}^{n} (Y_i – \hat{Y}_i)^2$

Como: $\hat{Y}_i = \beta_0 + \beta_1X_i$

temos: $\min \sum_{i=1}^{n} (Y_i – \beta_0 – \beta_1X_i)^2$

Esse método é chamado de Mínimos Quadrados Ordinários — Ordinary Least Squares [OLS].

Fórmula da inclinação da reta

A inclinação $\beta_1$ pode ser calculada por: $\beta_1 = \frac{ \sum_{i=1}^{n}(X_i – \bar{X})(Y_i – \bar{Y}) }{ \sum_{i=1}^{n}(X_i – \bar{X})^2 }$

Ela mede o quanto $Y$ tende a mudar quando $X$ aumenta uma unidade.

Fórmula do intercepto

Depois de calcular $\beta_1$ , calculamos o intercepto $\beta_0$ : $\beta_0 = \bar{Y} – \beta_1\bar{X}$

Onde:

$\bar{X}$ é a média dos valores de $X$ ;
$\bar{Y}$ é a média dos valores de $Y$ .

Interpretação prática

Imagine o modelo: $\hat{Y} = 10 + 2X$

Nesse caso:

$\beta_0 = 10$
$\beta_1 = 2$

A interpretação é:

Quando $X = 0$ , o valor esperado de $Y$ é 10.

Quando $X$ aumenta 1 unidade, espera-se que $Y$ aumente 2 unidades.

Exemplo: $X = 5$ $\hat{Y} = 10 + 2(5)$ $\hat{Y} = 20$

Se o valor real observado fosse: $Y = 23$

então o erro seria: $\varepsilon = Y – \hat{Y}$ $\varepsilon = 23 – 20$ $\varepsilon = 3$

Ou seja, o modelo subestimou o valor real em 3 unidades.

A Regressão Linear busca encontrar uma reta que melhor representa a relação entre $X$ e $Y$ . Essa reta é definida por um intercepto e uma inclinação. O intercepto indica o valor esperado de $Y$ quando $X = 0$ , enquanto a inclinação indica quanto $Y$ muda quando $X$ aumenta uma unidade. O termo de erro representa a diferença entre o valor observado e o valor previsto pelo modelo. O algoritmo estima os coeficientes minimizando a soma dos erros ao quadrado.

Exemplo:

Y: tempo de entrega;
X: distância;
cálculo de $\alpha$ , $\beta$ , erro, erro², $SQ_{Modelo}$ , , correlação de Pearson e $R^2$ ;

Tempo entrega Y	Distância X	Y estimado	Erro	Erro²	(Y^−Yˉ)2
12	3	13,5238	-1,5238	2,3219	387,1532
18	5	17,3819	0,6181	0,3821	250,2132
21	7	21,2400	-0,2400	0,0576	143,0428
26	9	25,0980	0,9020	0,8135	65,6419
31	12	30,8852	0,1148	0,0132	5,3585
35	14	34,7432	0,2568	0,0659	2,3816
39	16	38,6013	0,3987	0,1590	29,1742
45	19	44,3884	0,6116	0,3740	125,1810
50	22	50,1756	-0,1756	0,0308	288,1694
55	25	55,9627	-0,9627	0,9267	518,1393

Modelo encontrado

A reta estimada ficou:

Y^=7,7367+1,9290X

Ou seja:

α=7,7367 $\beta = 1{,}9290$

A interpretação é:

A cada aumento de 1 unidade na distância, o tempo de entrega aumenta, em média, aproximadamente 1,9290 unidades.

Tabelas de parâmetros:

Parâmetro	Fórmula Excel	Valor
média X	`=MÉDIA(B2:B11)`	13,2000
média Y	`=MÉDIA(A2:A11)`	33,2000
beta	`=INCLINAÇÃO(A2:A11;B2:B11)`	1,9290
alfa	`=INTERCEPÇÃO(A2:A11;B2:B11)`	7,7367
Correlação Pearson	`=CORREL(A2:A11;B2:B11)`	0,9986
R² por Pearson²	`=J6^2`	0,9972
R² por soma dos quadrados	`=F12/(F12+E12)`	0,9972

A regressão linear simples encontra a melhor reta para explicar a relação entre $X$ e $Y$ . O cálculo pode ser visto como um problema de otimização, pois o objetivo é minimizar a soma dos erros ao quadrado:

α,βmini=1∑n(Yi−Y^i)2

Como:

Y^i=α+βXi

então:

α,βmini=1∑n(Yi−α−βXi)2

Nesse exemplo, o modelo apresentou:

R2=0,9972

Isso significa que aproximadamente 99,72% da variação do tempo de entrega foi explicada pela distância.

E como é uma regressão linear simples, com apenas uma variável $X$ , vale a curiosidade:

R2=r2

onde $r$ é a correlação de Pearson entre $X$ e $Y$ .

Python

Utilizando o modelo OLS (Ordinary Least Squares, ou Mínimos Quadrados Ordinários), já tenho como premissa que a variável Y ou dependente é quantitativa, que a somatório dos erro é igual 0 e a somatória dos erros ao quadrado será a mínima possível.

Correspondência entre a saída do Python e a equação da regressão

A regressão linear simples estimada pelo Python aparece no formato: $\hat{Y} = \alpha + \beta X$

No nosso exemplo: $\widehat{tempo} = 7{,}7367 + 1{,}9290 \cdot distancia$

Ou seja:

Saída no Python	Nome estatístico	Nome didático	Valor no nosso exemplo	Interpretação
`R-squared`	(R^2)	R-quadrado	0,997	Percentual da variação de (Y) explicado por (X)
`Intercept`	(\alpha) ou (\beta_0)	Intercepto / Alfa	7,7367	Valor estimado de tempo quando a distância é zero
`distancia`	(\beta) ou (\beta_1)	Beta / Inclinação	1,9290	Quanto o tempo aumenta quando a distância cresce 1 unidade

Equação do modelo

A partir da tabela de coeficientes:

Variável	Coeficiente
Intercept	7,7367
distancia	1,9290

A equação fica: $\widehat{tempo} = 7{,}7367 + 1{,}9290 \cdot distancia$

Onde: $\alpha = 7{,}7367$ $\beta = 1{,}9290$

Portanto: $\widehat{tempo} = \alpha + \beta \cdot distancia$

Interpretação do intercepto

O intercepto é o valor esperado de $Y$ Y quando $X = 0$ X=0.

Neste exemplo: $\alpha = 7{,}7367$

Isso significa que, quando a distância é igual a zero, o tempo estimado pelo modelo seria aproximadamente: $7{,}7367$

Na prática, nem sempre o intercepto tem uma interpretação realista. Ele é principalmente necessário para posicionar a reta no gráfico.

Interpretação do beta

O coeficiente da variável distancia é: $\beta = 1{,}9290$

Isso significa que, para cada aumento de 1 unidade na distância, o tempo de entrega aumenta, em média, aproximadamente: $1{,}9290$

unidades de tempo.

Em linguagem simples:

Quanto maior a distância, maior tende a ser o tempo de entrega.

Interpretação do R-quadrado

O R-squared aparece como: $R^2 = 0{,}997$

Isso significa que aproximadamente: $99{,}7\%$

da variação do tempo de entrega é explicada pela distância no modelo linear simples.

Ou seja, nesse exemplo fictício, a distância explica quase totalmente a variação do tempo.

Coluna	Significado	Fórmula
`tempo`	Valor real observado de (Y)	(Y_i)
`distancia`	Variável explicativa (X)	(X_i)
`yhat`	Valor estimado pelo modelo	(\hat{Y}_i)
`erro`	Resíduo do modelo	(Y_i – \hat{Y}_i)

A coluna yhat representa os fitted values, ou seja, os valores previstos pela reta de regressão.

Como o modelo estimado foi: $\widehat{tempo} = 7{,}7367 + 1{,}9290 \cdot distancia$

para cada linha, o Python calcula: $\hat{Y}_i = \alpha + \beta X_i$

Já a coluna erro representa o resíduo: $e_i = Y_i – \hat{Y}_i$

Ou seja, é a diferença entre o tempo real observado e o tempo estimado pelo modelo.

Exemplo prático

Para a primeira linha, supondo: $Y = 12$ $X = 3$

o valor estimado é: $\hat{Y} = 7{,}7367 + 1{,}9290 \cdot 3$ $\hat{Y} = 13{,}5237$

Então o erro é: $e = 12 – 13{,}5237$ $e = -1{,}5237$

Como o erro ficou negativo, significa que o modelo estimou um valor maior do que o valor observado.

Resumo e entendimento para o exemplo:

Pontos importantes sobre significância, intervalos de confiança e intercepto na Regressão OLS

Ao interpretar um modelo de regressão linear estimado por OLS, é comum olhar para os coeficientes, os p-valores e os intervalos de confiança. Porém, alguns cuidados são importantes para evitar interpretações erradas.

Resumo dos pontos principais

Ponto	Interpretação
Intervalos de confiança aumentam quando elevamos o nível de confiança	Um IC de 99% tende a ser mais largo que um IC de 95%
A significância depende do nível de significância adotado	Um coeficiente pode ser significativo a 5%, mas não a 1%
Em modelos preditivos, p-valor não é tudo	Métricas de erro e validação também são essenciais
Amostras pequenas aumentam a incerteza	O erro padrão pode crescer e reduzir a significância dos coeficientes
Intercepto não significativo não deve ser removido automaticamente	Forçar a reta pela origem pode gerar viés

1. Quanto maior o nível de confiança, maior será o intervalo do coeficiente

O intervalo de confiança de um coeficiente $\beta$ representa uma faixa provável de valores para o verdadeiro parâmetro populacional.

De forma simplificada: $IC = \hat{\beta} \pm t_{\alpha/2} \cdot SE(\hat{\beta})$

Onde:

$\hat{\beta}$ é o coeficiente estimado pelo modelo;
$SE(\hat{\beta})$ é o erro padrão do coeficiente;
$t_{\alpha/2}$ é o valor crítico da distribuição t.

Quando aumentamos o nível de confiança, por exemplo de 95% para 99%, o modelo precisa construir uma faixa mais ampla para aumentar a chance de conter o verdadeiro valor do parâmetro.

2. Um coeficiente pode ser significativo em um nível e deixar de ser em outro

A significância estatística depende diretamente do nível de significância adotado, geralmente representado por $\alpha$ α.

Por exemplo: $IC = 95\% \Rightarrow \alpha = 5\%$ $IC = 99\% \Rightarrow \alpha = 1\%$

Isso significa que, ao aumentar o nível de confiança, o teste fica mais rigoroso.

Imagine um coeficiente com: $p\text{-valor} = 0{,}03$

Se adotarmos $\alpha = 0{,}05$ α=0,05, esse coeficiente será considerado estatisticamente significativo, pois: $0{,}03 < 0{,}05$

Mas, se adotarmos $\alpha = 0{,}01$ α=0,01, ele deixará de ser significativo, pois: $0{,}03 > 0{,}01$

Resumo:

Situação	p-valor	Nível de significância	Interpretação
Confiança de 95%	0,03	5%	Significativo
Confiança de 99%	0,03	1%	Não significativo

Então, um mesmo coeficiente pode ser significativo a 95%, mas não significativo a 99%.

Esse ponto é importante porque mostra que a significância estatística não é uma característica absoluta do coeficiente. Ela depende do critério adotado na análise.

3. Em modelos preditivos, significância estatística não deve ser analisada isoladamente

Em problemas de predição, o objetivo principal não é apenas saber se um coeficiente é estatisticamente diferente de zero, mas avaliar se o modelo consegue prever bem novos dados.

Por isso, além dos p-valores, é importante observar métricas como:

erro médio absoluto, MAE;
raiz do erro quadrático médio, RMSE;
$R^2$ ;
análise dos resíduos;
desempenho em dados de teste;
validação cruzada, quando aplicável.

Um coeficiente individual pode não ser estatisticamente significativo e, ainda assim, o modelo pode apresentar bom desempenho preditivo.

Por outro lado, um modelo pode ter coeficientes estatisticamente significativos e ainda assim não ser bom para previsão, principalmente se não generalizar bem para novos dados.

Portanto, para fins preditivos, significância estatística é útil, mas não deve ser o único critério de decisão.

4. Amostras pequenas podem dificultar a significância dos parâmetros

O tamanho da amostra tem grande impacto na inferência estatística.

A estatística t de um coeficiente é calculada por: $t = \frac{\hat{\beta}}{SE(\hat{\beta})}$

No caso do intercepto, também chamado de $\alpha$ , temos: $t_{\alpha} = \frac{\hat{\alpha}}{SE(\hat{\alpha})}$

Quando a amostra é pequena, o erro padrão tende a ser maior. Isso reduz o valor da estatística t e pode aumentar o p-valor.

A lógica é: $n \downarrow \Rightarrow SE \uparrow \Rightarrow t \downarrow \Rightarrow p\text{-valor} \uparrow$

Ou seja, com poucas observações, o modelo pode não ter evidência estatística suficiente para indicar que determinado parâmetro é diferente de zero.

5. Intercepto não significativo não significa que ele deve ser removido automaticamente

Um erro comum em modelos regressivos é remover o intercepto apenas porque ele não apresentou significância estatística.

Isso pode ser perigoso.

O intercepto representa o valor esperado de $Y$ quando as variáveis explicativas são iguais a zero. Dependendo do problema, esse ponto pode nem ter interpretação prática, mas ainda assim o intercepto ajuda a ajustar corretamente a reta de regressão.

Remover o intercepto força a reta a passar pela origem: $Y = \beta X$

Em vez de permitir: $Y = \alpha + \beta X$

Essa imposição pode gerar viés no modelo, principalmente quando não existe justificativa teórica para assumir que $Y = 0$ quando $X = 0$ .

Portanto, intercepto não significativo deve ser analisado com cuidado, e não removido automaticamente.

Em regressão OLS, a interpretação dos coeficientes não deve se limitar ao p-valor. O nível de confiança, o tamanho da amostra, o erro padrão e o objetivo do modelo — explicação ou predição — influenciam diretamente a análise. Além disso, a ausência de significância estatística do intercepto não é, por si só, justificativa para removê-lo do modelo.

Pontos Importantes sobre variáveis categóricas Dummy

Em modelos regressivos, uma variável dummy indica o efeito médio de pertencer a uma determinada categoria em comparação com uma categoria de referência. Quando a dummy assume valor 0, a observação pertence ao grupo base. Quando assume valor 1, pertence ao grupo alternativo. Assim, o coeficiente da dummy representa o incremento ou redução média esperada em $Y$ Y ao mudar da categoria de referência para a categoria alternativa, mantendo as demais variáveis constantes.

Uma variável dummy representa uma mudança média em $Y$ quando saímos da categoria de referência e vamos para a categoria alternativa, mantendo as demais variáveis constantes.

Ou seja:

Dummy em regressão: mede quanto $Y$ muda, em média, quando passamos da categoria de referência $(0)$ para a categoria alternativa $(1)$ .

O alfa nas variáveis Dummys é o valor medio de Y de quem está na categoria de referência.
O Beta é o quanto se altera de Y quando se passa da categoria de referencia para categorias alternativa. (0 categoria referencia e 1 categoria alternativa). Não importa qual vai ser 0 ou qual categoria será 1, sempre retorna o mesmo valor.

Por exemplo: $Y = \alpha + \beta_1 X + \beta_2 D + \varepsilon$

Onde: $D = \begin{cases} 0, & \text{categoria de referência} \\ 1, & \text{categoria alternativa} \end{cases}$

A interpretação de $\beta_2$ é:

Quando a observação pertence à categoria alternativa $(D=1)$ , o valor esperado de $Y$ muda em média $\beta_2$ unidades em relação à categoria de referência $(D=0)$ , mantendo $X$ constante.

Exemplo simples

Imagine um modelo para explicar o tempo de entrega: $Tempo = \alpha + \beta_1 Distância + \beta_2 Motoboy + \varepsilon$

Onde: $Motoboy = \begin{cases} 0, & \text{carro} \\ 1, & \text{motoboy} \end{cases}$

Se o modelo estimou: $\beta_2 = -8$

A interpretação seria:

Entregas feitas por motoboy têm, em média, 8 minutos a menos no tempo de entrega em relação às entregas feitas por carro, considerando a mesma distância.

Se fosse: $\beta_2 = 5$

A interpretação seria:

Entregas feitas por motoboy têm, em média, 5 minutos a mais no tempo de entrega em relação às entregas feitas por carro, considerando a mesma distância.

Com 3 categorias se cria 2 Dummies , utilizando One-Hot-encoding.

Modelos Lineares Generalizados (GLM)

18 de maio de 2026 dbasamantalekecinskas Supervisionado

O valor da Y (variável dependente) vai dizer qual modelos podemos utilizar.

Modelos são correlacionais, não causais, não sei se as variáveis X causam a Y. Correlação não implica causalidade.

Os GLM (modelos lineares generalizados) ampliam a ideia dos modelos lineares tradicionais, permitindo analisar diferentes tipos de variável resposta, não apenas variáveis contínuas com distribuição Normal.

A lógica central continua sendo a mesma: construir um preditor linear a partir das variáveis explicativas. Porém, os GLMs introduzem dois elementos importantes:

Componente aleatório

Nos modelos lineares clássicos, geralmente assumimos que a variável resposta segue uma distribuição Normal. Já nos GLMs, essa exigência é flexibilizada.

A variável resposta pode seguir distribuições pertencentes à família exponencial, como:

Normal: para dados contínuos aproximadamente simétricos;
Poisson: para dados de contagem;
Binomial: para respostas binárias ou proporções;
Gama: para dados contínuos positivos e assimétricos.

Isso torna os GLMs úteis para situações em que a variável resposta não se comporta bem como uma variável Normal.

Função de ligação

A função de ligação conecta a média esperada da variável resposta ao preditor linear do modelo.

De forma geral:

g(μ)=η

Onde:

η=β0+β1X1+β2X2+⋯+βpXp

Aqui:

$\mu$ μ representa a média esperada da variável resposta;
$g(\mu)$ g(μ) é a função de ligação;
$\eta$ η é o preditor linear;
$\beta_0, \beta_1, \ldots, \beta_p$ β0,β1,…,βp são os coeficientes do modelo;
$X_1, X_2, \ldots, X_p$ X1,X2,…,Xp são as variáveis explicativas.

A função de ligação permite modelar a relação entre a resposta e os preditores de forma adequada à distribuição escolhida. Por exemplo, em modelos de contagem, ela ajuda a garantir que os valores previstos sejam sempre positivos; em modelos binomiais, garante que as probabilidades previstas fiquem entre 0 e 1.

Uma forma simples de resumir é:

O GLM mantém a estrutura linear nos parâmetros, mas permite trabalhar com diferentes distribuições da variável resposta por meio de uma função de ligação adequada.

Exemplos de modelos GLM:

Modelo GLM	Tipo da variável dependente	Tipo de resposta	Distribuição usada	Função de ligação comum	Exemplo

Regressão Linear

Quantitativa contínua

Valores numéricos contínuos e aproximadamente simétricos

Normal

Identidade

Valor de imóvel, altura, temperatura

Regressão Logística

Qualitativa nominal binária

Duas categorias, como sim/não ou 0/1

Binomial

Logit

Aprovação/reprovação, doente/não doente

Regressão de Poisson

Quantitativa discreta

Contagem de eventos

Poisson

Log

Número de reclamações, número de atendimentos

Regressão Binomial Negativa

Quantitativa discreta

Contagem com superdispersão

Binomial Negativa

Log

Número de internações com alta variabilidade

Regressão Gama

Quantitativa contínua positiva

Valores positivos e assimétricos à direita

Gama

Log ou inversa

Custo hospitalar, tempo de internação

OBS:

observação importante:

A Regressão Logística trabalha com uma variável dependente qualitativa nominal binária, porque a resposta representa categorias, como: $Y = \begin{cases} 1, & \text{sim} \\ 0, & \text{não} \end{cases}$ Y={1,0,simna˜o

Já modelos como Poisson e Binomial Negativa usam variáveis dependentes quantitativas discretas, pois a resposta é uma contagem: $Y = 0, 1, 2, 3, \ldots$ Y=0,1,2,3,…

E modelos como Linear e Gama usam variáveis dependentes quantitativas contínuas, pois a resposta representa medidas numéricas em escala contínua.

Distribuição característica:

Modelo GLM	Distribuição	Tipo da variável dependente	Quando usar	Forma aproximada da distribuição
Regressão Linear	Normal	Quantitativa contínua	Quando a resposta é contínua e aproximadamente simétrica	🔔 Curva em sino
Regressão Logística	Binomial	Qualitativa nominal binária	Quando a resposta possui duas categorias, como 0/1, sim/não	⚫ ⚪ Dois resultados possíveis
Regressão de Poisson	Poisson	Quantitativa discreta	Quando a resposta representa contagem de eventos	▂▅█▆▃ Barras de contagem
Regressão Binomial Negativa	Binomial Negativa	Quantitativa discreta	Quando há contagem com variância maior que a média	▂▃▆█▅▃ Cauda mais longa
Regressão Gama	Gama	Quantitativa contínua positiva	Quando a resposta é positiva e assimétrica à direita	▂█▆▃▂▁ Assimétrica à direita