Tipos de variáveis, são importantes para evitar ponderações arbitrarias e para escolher o modelos correto, pois a escolha do modelos de machine learning dependem do tipo de variável resposta ser qualitativa/categórica ou quantitativa.
Tipo de variável quantitativa são números e são para medir quantidade, podem ser continuas ou discretas, onde discretas são valores inteiros (1,2,3..100), exemplos quantidade de filhos. Continuas são categóricas, exemplos classes, faixas.
Frequência – Estatística Descritiva
Tabela de frequência exemplo:

Medidas de posição para variáveis métricas:
- Média
- Mediana (ponto central da variável, bom para verificar se a média esta equilibrada)
- Moda (analisar elementos centrais, qual valor que mais de repete, o valor com mais frequência)
- Percentis (divide em 100 partes iguais, em ordem crescente)
- Quartis (divide em 4 partes iguais, 1 quartil=25%, 2 quartil=50%…, em ordem crescente)
- Decis (divide em 10 partes iguais, 1 decil=10%, ….8 decil=80%, em ordem crescente)
Medidas de dispersão:
- Amplitude (diferença entre valor máximo e valor minimo)
- Variância (mostra a dispersão dos valores em relação a média)(o quanto esta distante da media, valores muito alto, variância muito alta,valores muitos dispersos , maior a variância) (se eu tiver valores muito próximo da media a variância será pequena)
- Desvio padrão (calculado em cima do valor da variância)(maior o desvio padrão, mais dispersos estão os valores)
- Erro padrão: é o desvio padrão da média da variável (quanto maior a minha amostra (n) menor o erro padrão, mais precisa é a media estimada)(utiliza o valor do erro padrão para os cálculos da inferência)
- Coeficiente de variação: é uma medida de dispersão relativa, pois relaciona o desvio padrão e a média da variável. Pode ser utilizada para comparação de amostras. Quanto menor o CV mais homogêneo os valores da variável.
Medidas de formas
- Curtose
- Assimetria: local de concentração da distribuição
- curva simétrica: média = mediana = moda
- curva assimétrica direita: média > mediana
- curva assimétrica esquerda: média < mediana
- coeficiente de assimetria de fisher
- coeficiente de curtose de fisher
medidas com visões na parte gráfica
Relação entre variáveis
Covariância:
- medida de variabilidade conjunta entre duas variáveis aleatórias.
é uma medida de variabilidade conjunta entre duas variáveis aleatórias.
Correlação é essa medida de associação linear padronizada, de forma que assuma valores entre -1 e 1.
O sinal da covariância e da correlação indica se as variáveis se associam de forma positiva ou negativa.
Relação entre 2 variáveis.
- Qualitativas: relação entre elas por meio de associação pelo teste qui-quadrado(χ²) e
- Quantitativas: analise de correlação por meio da covariância e coeficiente de correlação de Pearson.
Teste qui-quadrado(χ²):
Relação entre 2 variáveis Qualitativas – é um teste de hipótese, baseado no qui-quadrado. Sempre o teste qui-quadrado em pares (2 variáveis descritivas)
Quando falamos de teste de hipótese, no caso qui-quadrado, falamos de 2 hipótese:
- Hipótese Nula
Inicia pela tabela tabela de contingencia (tabela classificação cruzada), por frequência:

*Fonte: https://www.researchgate.net/figure/Figura-12-Quadro-de-tabelas-de-contingencia-2×2-sumarizadas-valores-em_fig6_283800011 – acessado 25 outubro 2024.
Agora o teste qui-quadrado de variável qualitativa, vamos avaliar a associação entre as 2 variáveis.(Teste qui-quadrado ou χ²: serve para avaliar quantitativamente a relação entre o resultado de um experimento e a distribuição esperada para o fenômeno) – Fonte: https://pt.wikipedia.org/wiki/Qui-quadrado
a soma de todos os qui-quadrado individuais é a estatística de teste que irá dizer se à ou não associação. Ex:

Veja que existem 2 Hipoteses, a Hipotese Nula H0 e a Hipotese H1.
Onde o H0 fica na Região Critica (RC) e H1 fica na Região de Não Rejeição (RN):
O qui-quadrado final, associação entre duas variáveis, vou verificar em qual região está, na RC ou na RN, na RN existe associação. Porem para essa decisão tenho que ter o valor critico e o valor critico muda em relação ao grau de liberdade, o valor do grau da liberdade depende do teste estatístico, no teste qui-quadrado o calculo é:

Valor critico, depende do nível de significância, normalmente utiliza-se 5%:

Ou seja, Quando o valor da estatística Qui-quadrado é maior > que o valor crítico, a hipótese nula é rejeitada, indicando uma associação significativa entre as variáveis (com 4 graus de liberdade).
p-valor: é a Área (0,003) a direita do teste estatístico qui-quadrado (15.86). Como o p-valor é menor que o nível de significância 0,05, então rejeito H0, ou seja existe associação entre as 2 variáveis.
Coeficiente de Correlação de Pearson
Sempre entre 2 variáveis, utilizado para avalizar a correlação de 2 variáveis quantitativa.
Inicia-se o calculo pela covariância entre as 2 variáveis, depois obtêm-se o coeficiente de pearson.
“A covariância é uma medida estatística que permite comparar duas variáveis, entendendo como elas se relacionam entre si” (Fonte: https://www.suno.com.br/artigos/covariancia/, acessado em 28 outbro 2024).
Exemplo, covariância positiva elas “caminham” pelo mesmo lado, ou seja, quando uma esta positiva a outra também está, quando uma está acima da média, a outra também esta acima da média.
Ou se a covariância for negativa quer dizer que as 2 variáveis andam em sentido opostos, ou seja, em quanto uma está acima da media a outra esta abaixo da media e vice-versa.
Coeficiente de Correlação de Pearson igual a Zero, sem correlação entre as 2 variáveis. Proximo do zero, também quer dizer que não é uma correlação tão intensa.
Podemos ver também em uma matriz de correlação de pearson:

Fonte:https://medium.com/@joaopedro.thereziano/an%C3%A1lise-de-correla%C3%A7%C3%A3o-utilizando-python-30bcf29423c3 – acessado em 28 outubro 2024
Estatísticas Descritivas – Python
#Verificar os tipos de variaveis
pisa.info()
#estatisticas descritivas para variaveis quantitativas
pisa[['nota_matematica_2022', 'nota_redação_2022', 'nota_ciencias_2022']].describe()
#output
nota_matematica_2022 nota_redação_2022 nota_ciencias_2022
count 81.000000 81.000000 81.000000
mean 437.628559 435.037917 446.893945
std 58.219370 56.104751 55.724807
min 336.396041 328.842780 347.104162
25% 388.781607 386.284748 403.130242
50% 440.845309 438.440625 446.967114
75% 483.159455 480.405847 493.549319
max 574.663820 542.553322 561.433275
#onde:
# count - quantidade de linhas (sem valores nulos)
# mean - média
# std - desvio padrão
# min - valor minimo
# max - valor maximo
# 25% - quartis 25% - primeiro quartil
# 50% - quartil 50% - elemento central - mediana
# 75% - terceiro quartil - 75% da amostra
# Tabela de frequencias para variaveis qualitativa
pisa['groupo'].value_counts()