Estatísticas Fundamentais

Tipos de variáveis, são importantes para evitar ponderações arbitrarias e para escolher o modelos correto, pois a escolha do modelos de machine learning dependem do tipo de variável resposta ser qualitativa/categórica ou quantitativa.

Tipo de variável quantitativa são números e são para medir quantidade, podem ser continuas ou discretas, onde discretas são valores inteiros (1,2,3..100), exemplos quantidade de filhos. Continuas são categóricas, exemplos classes, faixas.

Frequência – Estatística Descritiva

Tabela de frequência exemplo:

Medidas de posição para variáveis métricas:

  • Média
  • Mediana (ponto central da variável, bom para verificar se a média esta equilibrada)
  • Moda (analisar elementos centrais, qual valor que mais de repete, o valor com mais frequência)
  • Percentis (divide em 100 partes iguais, em ordem crescente)
  • Quartis (divide em 4 partes iguais, 1 quartil=25%, 2 quartil=50%…, em ordem crescente)
  • Decis (divide em 10 partes iguais, 1 decil=10%, ….8 decil=80%, em ordem crescente)

Medidas de dispersão:

  • Amplitude (diferença entre valor máximo e valor minimo)
  • Variância (mostra a dispersão dos valores em relação a média)(o quanto esta distante da media, valores muito alto, variância muito alta,valores muitos dispersos , maior a variância) (se eu tiver valores muito próximo da media a variância será pequena)
  • Desvio padrão (calculado em cima do valor da variância)(maior o desvio padrão, mais dispersos estão os valores)
  • Erro padrão: é o desvio padrão da média da variável (quanto maior a minha amostra (n) menor o erro padrão, mais precisa é a media estimada)(utiliza o valor do erro padrão para os cálculos da inferência)
  • Coeficiente de variação: é uma medida de dispersão relativa, pois relaciona o desvio padrão e a média da variável. Pode ser utilizada para comparação de amostras. Quanto menor o CV mais homogêneo os valores da variável.

Medidas de formas

  • Curtose
  • Assimetria: local de concentração da distribuição
    • curva simétrica: média = mediana = moda
    • curva assimétrica direita: média > mediana
    • curva assimétrica esquerda: média < mediana
  • coeficiente de assimetria de fisher
  • coeficiente de curtose de fisher

medidas com visões na parte gráfica

Relação entre variáveis

Covariância:

  • medida de variabilidade conjunta entre duas variáveis aleatórias.

é uma medida de variabilidade conjunta entre duas variáveis aleatórias.

Correlação é essa medida de associação linear padronizada, de forma que assuma valores entre -1 e 1.

O sinal da covariância e da correlação indica se as variáveis se associam de forma positiva ou negativa.

Relação entre 2 variáveis.

  • Qualitativas: relação entre elas por meio de associação pelo teste qui-quadrado(χ²) e
  • Quantitativas: analise de correlação por meio da covariância e coeficiente de correlação de Pearson.

Teste qui-quadrado(χ²):

Relação entre 2 variáveis Qualitativas – é um teste de hipótese, baseado no qui-quadrado. Sempre o teste qui-quadrado em pares (2 variáveis descritivas)

Quando falamos de teste de hipótese, no caso qui-quadrado, falamos de 2 hipótese:

  • Hipótese Nula

Inicia pela tabela tabela de contingencia (tabela classificação cruzada), por frequência:

*Fonte: https://www.researchgate.net/figure/Figura-12-Quadro-de-tabelas-de-contingencia-2×2-sumarizadas-valores-em_fig6_283800011 – acessado 25 outubro 2024.

Agora o teste qui-quadrado de variável qualitativa, vamos avaliar a associação entre as 2 variáveis.(Teste qui-quadrado ou χ²: serve para avaliar quantitativamente a relação entre o resultado de um experimento e a distribuição esperada para o fenômeno) – Fonte: https://pt.wikipedia.org/wiki/Qui-quadrado

a soma de todos os qui-quadrado individuais é a estatística de teste que irá dizer se à ou não associação. Ex:

Veja que existem 2 Hipoteses, a Hipotese Nula H0 e a Hipotese H1.

Onde o H0 fica na Região Critica (RC) e H1 fica na Região de Não Rejeição (RN):

O qui-quadrado final, associação entre duas variáveis, vou verificar em qual região está, na RC ou na RN, na RN existe associação. Porem para essa decisão tenho que ter o valor critico e o valor critico muda em relação ao grau de liberdade, o valor do grau da liberdade depende do teste estatístico, no teste qui-quadrado o calculo é:

Valor critico, depende do nível de significância, normalmente utiliza-se 5%:

Ou seja, Quando o valor da estatística Qui-quadrado é maior > que o valor crítico, a hipótese nula é rejeitada, indicando uma associação significativa entre as variáveis (com 4 graus de liberdade).

p-valor: é a Área (0,003) a direita do teste estatístico qui-quadrado (15.86). Como o p-valor é menor que o nível de significância 0,05, então rejeito H0, ou seja existe associação entre as 2 variáveis.

Coeficiente de Correlação de Pearson

Sempre entre 2 variáveis, utilizado para avalizar a correlação de 2 variáveis quantitativa.

Inicia-se o calculo pela covariância entre as 2 variáveis, depois obtêm-se o coeficiente de pearson.

“A covariância é uma medida estatística que permite comparar duas variáveis, entendendo como elas se relacionam entre si” (Fonte: https://www.suno.com.br/artigos/covariancia/, acessado em 28 outbro 2024).

Exemplo, covariância positiva elas “caminham” pelo mesmo lado, ou seja, quando uma esta positiva a outra também está, quando uma está acima da média, a outra também esta acima da média.

Ou se a covariância for negativa quer dizer que as 2 variáveis andam em sentido opostos, ou seja, em quanto uma está acima da media a outra esta abaixo da media e vice-versa.

Coeficiente de Correlação de Pearson igual a Zero, sem correlação entre as 2 variáveis. Proximo do zero, também quer dizer que não é uma correlação tão intensa.

Podemos ver também em uma matriz de correlação de pearson:

Fonte:https://medium.com/@joaopedro.thereziano/an%C3%A1lise-de-correla%C3%A7%C3%A3o-utilizando-python-30bcf29423c3 – acessado em 28 outubro 2024

Estatísticas Descritivas – Python

#Verificar os tipos de variaveis
pisa.info()

#estatisticas descritivas para variaveis quantitativas
pisa[['nota_matematica_2022', 'nota_redação_2022', 'nota_ciencias_2022']].describe()

#output
       nota_matematica_2022  nota_redação_2022  nota_ciencias_2022
count         81.000000     81.000000     81.000000
mean         437.628559    435.037917    446.893945
std           58.219370     56.104751     55.724807
min          336.396041    328.842780    347.104162
25%          388.781607    386.284748    403.130242
50%          440.845309    438.440625    446.967114
75%          483.159455    480.405847    493.549319
max          574.663820    542.553322    561.433275

#onde: 
# count - quantidade de linhas (sem valores nulos)
# mean  -  média
# std - desvio padrão
# min - valor minimo
# max - valor maximo
# 25% - quartis 25% - primeiro quartil
# 50% - quartil 50% - elemento central - mediana
# 75% - terceiro quartil - 75% da amostra

# Tabela de frequencias para variaveis qualitativa
pisa['groupo'].value_counts()

Deixe um comentário