Data Wrangling

Preparação dos dados para análise e modelos.

Fonte: https://online.hbs.edu/blog/post/data-wrangling

Descoberta:

Visualização principalmente com biblioteca python pandas, numpy, seaborn, matplotlib.pyplot.

Abaixo alguns exemplos muito utilizados.

dados_tempo.info()

# object = variável de texto
# int ou float = variável numérica (métrica)
# category = variável categórica (qualitativa)
# Selecionando com base nas posições (1º arg.: linhas, 2º arg.: colunas)
# ATENÇÃO: Linhas iniciam-se em zero! no Python

dados_tempo.iloc[3,] #Somante 3 linha
dados_tempo.iloc[:,4] # Todas as linhas e somente 4 coluna
dados_tempo.iloc[2:5,] # somente a partir da 2 linha até a 5 e todas colunas
dados_tempo.iloc[:,3:5] # todas as linhas, 3 e 5 coluna


Para não ter ponderação arbitraria, exemplo categorizar uma variavel metrica:

## Em certas circunstancias sera necessario trocar o tipo da variável
# Para evitar a ponderação arbitrária, vamos alterar o tipo

df_numeros['novo_perfil'] = df_numeros['novo_perfil'].astype('category')
df_numeros.info()

## categorizar aplicando critérios detalhados por meio de condições

dados_tempo['faixa'] = np.where(dados_tempo['tempo']<=20, 'rápido',
                       np.where((dados_tempo['tempo']>20) & (dados_tempo['tempo']<=40), 'médio',
                       np.where(dados_tempo['tempo']>40, 'demorado',
                                'demais')))

## Ou tambem categorizar eh por meio dos quartis de variaveis (q=4)

dados_tempo['quartis'] = pd.qcut(dados_tempo['tempo'], q=4, labels=['1','2','3','4'])


Matriz de correlações de Pearson

Lembrando que correlação de pearson varia de 1 a -1, onde 0 é sem correlação, 1 grande correlação e -1 grande correlação negativa, negativa é se 1 variável sobe a outra desce.

dados_tempo[[‘tempo’, ‘distancia’, ‘semaforos’]].corr()

Tabela de frequências para variáveis qualitativas

dados_tempo[‘periodo’].value_counts() # frequências absolutas
dados_tempo[‘perfil’].value_counts(normalize=True) # frequências relativas

Tabela de frequências cruzadas para pares de variáveis qualitativas

pd.crosstab(dados_tempo[‘periodo’], dados_tempo[‘perfil’])
pd.crosstab(dados_tempo[‘periodo’], dados_tempo[‘perfil’], normalize=True)

Teste de hipótese

Em testes de hipóteses estatísticas, diz-se que há significância estatística ou que o resultado é estatisticamente significante quando o p-valor observado é menor que o nível de significância α. α definido para o estudo“. Fonte: https://pt.wikipedia.org/wiki/Signific%C3%A2ncia_estat%C3%ADstica

Por exemplo, a hipótese nula é rejeitada a 5% quando o p-valor é menor que 5%“. Fonte: https://pt.wikipedia.org/wiki/Signific%C3%A2ncia_estat%C3%ADstica

Correlação mosta Direção e Força e Teste de Hipótese mostra a Confiança.

Finalidade:

  • Verificar a variância, o quanto varia em relação a média e o desvio padrão
  • Dependendo do tamanho da base de dados/população, utilizamos a amostra para analise.
  • Para testar o parâmetro de interesse da amostra, utilizamos os teste de hipótese estatísticas.

Resumo:

  1. Hipótese Nula (H₀): Afirma que não há efeito ou diferença.
  2. Hipótese Alternativa (H₁): Afirma que há um efeito ou diferença significativa.
  3. Nível de Significância (α): Limite para rejeitar H₀, geralmente 0,05 (5%).
  4. Valor-p (p-value): Probabilidade de obter os resultados observados (ou mais extremos), assumindo que H₀ seja verdadeira.
  • Se p ≤ α: Rejeita-se a hipótese nula; os resultados são considerados estatisticamente significantes.
  • Se p > α: Não há evidências suficientes para rejeitar H₀.

Testes de hipóteses tradicionais:

  • Teste t de Student: Compara as médias de dois grupos.(amostra menores)
  • ANOVA (Análise de Variância): Verifica diferenças entre três ou mais grupos.
  • Qui-quadrado (χ²): Avalia associações entre variáveis categóricas.
  • Teste de Wilcoxon e Mann-Whitney: Testes não paramétricos para comparar medianas entre grupos.

Alguns Exemplo de Uso:

  1. Modelos de regressão:
    • Nos modelos de regressão (linear, logística, etc.), a significância é usada para avaliar se os coeficientes das variáveis independentes são estatisticamente diferentes de zero. Isso ajuda a determinar se essas variáveis têm uma relação significativa com a variável dependente.
  2. Modelos de correlação:
    • Em análises de correlação (como o coeficiente de Pearson ou Spearman), a significância indica se a associação entre duas variáveis é relevante ou pode ser fruto do acaso.
  3. Testes em machine learning:
    • Em técnicas como testes de permutação ou validações cruzadas, a significância estatística é usada para avaliar a performance de modelos em comparação a uma distribuição aleatória.

Explicação mais detalhada:

Teste bilateral (bicaudal): teste bilateral, o interesse é testar.

  • Hipótese Nula (H0):  declara que não há relação entre dois fenômenos de interesse. Não ao efeito.
  • Hipótese alternativa (H1): é estatisticamente diferente de certo valor de interesse. Afirmação e evidencia, podemos tratá-la como uma “novidade” ou “nova”. Ou seja, é a situação em que há algo de diferente.
  • Sendo necessário ter definido o nível de significância (α) desejado para a análise.
  • Estatisticamente diferente. (Hipótese alternativa. H1)

Os testes unilaterais você especifica a direção do teste, ou a esquerda ou a direita:

Teste unilateral (unicaudal), à esquerda:

  • H0 – Hipoteste Nula
  • H1 – Hipotese alternativa
  • O objetivo é analisar se o parâmetro é estatisticamente menor do que certo valor de interesse. (Hipótese alternativa. H1)

Teste unilateral (unicaudal), à direita:

  • Nesse teste unilateral à direita, para um parametro, o interesse é testar:
    • H0 – Hipoteste Nula
    • H1 – Hipotese alternativa
  • Objetivo é verificar se o parâmetro é estatisticamente maior do que certo valor de interesse.(Hipótese alternativa. H1)

Fonte: https://pt.slideshare.net/JoaoAlessandro/aula-30-testes-de-hipteses-17921069#7 , acesso 05 novembro de 2024.

Fonte: https://www.learningaboutelectronics.com/Artigos/Calculadora-teste-de-hipotese-estatistica.php#google_vignette, acesso em 05 novembro de 2024.

Significância do teste

Indica a probabilidade de rejeitar H0 quando ela é verdadeira, ou seja, a probabilidade de cometer o erro tipo I:

Fonte: https://rpubs.com/mcouto/557755, acesso 05 novembro de 2024.

  • Alguns níveis de significância utilizados:
    • α = 1% (ou seja, o nível de confiança do seu teste é de 99% = 1- α)
    • α = 5% (ou seja, o nível de confiança do seu teste é de 95% = 1- α)
    • α = 10% (ou seja, o nível de confiança do seu teste é de 90% = 1- α)
  • Ou seja, o nível de confiança do teste é definido como 1 – α

P-valor e teste de hipótese

p-valor e nível de significância:

t critico, verificar qual o valor, que a direita é região critica, ou seja, região com 5%. RC região critica é a região de rejeição H0.

Quando o p-valor < α: Rejeita H0.

Quando o p-valor > α: Não Rejeita H0.

Teste Z para médias de uma amostra:

Quando utilizar teste Z:

  • Quando eu conheço o desvio padrão populacional (banco de dados) .
  • Quando a variável tem a aderência a normal.
  • Ou quando estou utilizando para grandes amostras.
  • Distribuição relevante para os valores críticos é a normal padrão.

Teste t para médias de uma amostra:

  • Para amostras, bem parecido com teste Z, porem normalmente aplico o teste t quando não conhece o desvio padrão populacional , então utilizo o desvio padrão amostral.
  • Distribuição t é usado com n-1 grau de liberdade.

Teste t para correlações:

  • Após estimado o coeficiente de correlação (r) entre variáveis quantitativas, é possível testar a significância do parâmetro estimado.
  • Distribuição relevante é a t de student com n-2 graus de liberdade.

Exemplo, imagina que encontrei a correlação, o coeficiente de correlação entre 2 variáveis quantitativas e agora quero ver se esse coeficiente de correlação é estatisticamente significante. Exemplo abaixo utilizado correlação de pearson, veja:

Com nível de significância de 5%, o exemplo acima é bicaudal será 2,5% para a esquerda do gráfico e 2,5% a direita do gráfico, o calculo do valor crítico revelou ser 2,048 (com n-2 grau de liberdade):

conclusão, o coeficiente de correlação “matemática-física” é estatisticamente diferente de 0 e é estatisticamente significante.

Teste qui-quadrado para uma amostra:

Aplicado quando tenho 1 variável categóricas onde ela pode assumir 2 ou mais categorias (k), objetivo é verificar se há diferenças entre as frequências observadas e esperada.

Exemplo de aplicação: Uma loja verificar se vende mais dependendo do dia da semana. Se acaso forem estatisticamente significante 5%, ou seja, no lado Não Critico do gráfico, não há evidencias que dependendo do dia da semana influencie na quantidade das vendas.

Teste F para comparação de variâncias:

  • Para comparar as variâncias de duas amostras independentes.
  • Distribuição relevante é a F de Snedecor, com n-1 graus de liberdade no numerados e n-1 graus de liberdade no denominador.

Intervalo de confiança

Intervalo de confiança para a média:

  • Quando obtemos a estimativa para a média populacional a partir de uma amostra, tambèm podemos construir seu intervalo de confiança, isto é, um intervalo de valores possíveis para o parâmetro populacional.
  • É necessario estabelecer o nível de confiança da análise (exemplo 95%)
  • Z e t são valores bicaudais, na distribuição t utiliza-se n-1 graus de liberdade.

Exemplo: Imagine tendo a média amostral, mas você queira ter uma faixa de valores para conter os valores populacionais, a partir da sua média amostral. Pode usar a Z ou a T, a Z para grandes amostras conhecendo a média populacional, e a t para pequenas amostras e não conhecendo a média e desvio padrão.

Resumos Geral: (mais utilizados)

🔹 Testes Paramétricos (quantitativos e devem ter normalidade)

Teste t de Student (uma média, duas médias independentes ou emparelhadas)

ANOVA (Análise de Variância) e suas extensões (para comparar três ou mais médias)

Testes de normalidade: Kolmogorov-Smirnov, Shapiro-Wilk (amostra pequena), Shapiro-Francia

Testes de homogeneidade de variâncias: Bartlett, Cochran, Hartley, Levene


🔹 Testes Não Paramétricos (qualitativos ou ocorre violação de suposições paramétricas)

Qui-quadrado (χ²): para variáveis nominais ou ordinais, em uma ou mais amostras

Teste Binomial: para variáveis binárias (sucesso/fracasso)

Teste dos Sinais: para dados ordinais, em uma ou duas amostras emparelhadas

Teste de Wilcoxon: comparação de duas amostras emparelhadas

Mann-Whitney U: comparação de duas amostras independentes ordinais

Teste de McNemar: variáveis binárias emparelhadas

Friedman: k amostras emparelhadas (ordinais)

Kruskal-Wallis: k amostras independentes (ordinais)

Q de Cochran: k amostras emparelhadas binárias

Estatísticas Fundamentais – Probabilísticas

Estatísticas Probabilísticas

Variáveis aleatórias discretas: sem valores decimais, são valores inteiros. Exemplo: quantidade de filhos.

Variáveis aleatórias continua: qualquer valor contidos nos números reais. Exemplo: salário, distância entre cidades.

Variáveis discretas

Distribuição de probabilidade:

  • Uniforme
  • Bernoulli
  • Binomial
  • Binomial negativa
  • Poisson

Distribuição uniforme discreta: Todos os valores possíveis têm a mesma probabilidade de ocorrência. Exemplo: As probabilidades dos resultados possíveis ao lançar 1 DADO são: 1,2,3,4,5 ou 6. A probabilidade de tirar 1 desses números pode ser modelada pela distribuição uniforme discreta, pela formula ficaria: p(Xi) = 1/n ==> p(x=1)=1/6 , p(x=2)=1/6,… sempre 1/6 é a probabilidade de tirar 1 desses números no DADO.

Distribuição de Bernoulli (Logística binária): os valores da variáveis podem assumir apenas 2 resultados, sendo sucesso (x=1) ou fracasso (x=0), ou Sim (x=1) e Não (x=0). Formula: ( P(X = x) = p^x (1 – p)^{1 – x} ), onde ( x ) pode ser 0 ou 1.

Distribuição binomial (Logística multinomial): A variável do modelo binominal indica a quantidade de sucesso (k) nas (n) repetições. Onde você tem 3 ou mais resultados. Formula: P(X = x) = (n x) p^x (1 – p)^(n-x).

Distribuição binomial negativa: A probabilidade de sucesso(p) é constante em todos os ensaios realizados. A variável no modelo binomial negativa indica a quantidade de ensaios (x). A diferença entre a binomial, é que na binomial você tem a quantidade de repetições e você analisa quantos sucessos ocorrem nessas n repetições, já na binomial negativa você analise quantos ensaios são necessários para atingir aquele sucesso estabelecidos.

Fonte: https://www.ime.usp.br/~kevinx/SAEB/help/PBinomialNegativa.html. Acesso: 30 outubro 2024.

Distribuição poisson: A probabilidade de ter (k) sucessos, mas agora você deve definir a exposição contínua.

Exemplo exposição contínua: tempo e área.

Variáveis contínuas

Distribuição de probabilidade:

  • Normal
  • Qui-quadrado
  • t de Student
  • F de Snedecor

Distribuição normal: Gaussiana, com curva em formato de sino. Baseada na média e do desvio padrão da variável. É simétrica em torno da média. Quanto menor o desvio padrão, mais concentrados estão os valores em torno da média.

Fonte: https://www.blog.psicometriaonline.com.br/distribuicao-normal/, acessado 31 outubro 2024.

No centro temos a média. Ou seja, são simétricas em torno da média, ou seja, metade das probabilidades estão acima da média e a outra metade abaixo da média.

z-score, para transformar em uma distribuição normal padrão. indica a distância de um valor em relação à média de um conjunto de dados, calculando os dados em uma distribuição com média 0 e desvio padrão 1.

São utilizados em diversas áreas, ele descreve a relação entre um valor e a média de um grupo de valores. Podem ser tanto negativos, quanto positivos os Z-Scores. O valor positivo mostra que a pontuação está acima da média e a pontuação negativa mostra que está abaixo dessa média. Em finanças, por exemplo podem ser utilizados como medidas de variabilidade de uma observação e ajudar traders a determinar a volatilidade do mercado.

Com o z-score conseguimos achar as area do grafico, que são as Zs:

Fonte: https://professorguru.com.br/estatistica/distribuicao-normal.html, acesso 04 novembro 2024.

Exemplo de exercícios que conseguimos achar nas áreas Z:

“O salário semanal dos operários de construção civil de certo país é distribuído normalmente em torno da média de $ 80, com desvio padrão de $5.

a) Qual é o valor do salário para escolhermos 10% dos operários com maiores remunerações?

b) Qual é o maior salário correspondente aos 20% dos trabalhadores que ganham menos?”

Distribuição qui-quadrado: Diferente da distribuição normal, a qui-quadrado depende de 1 parâmetro chamado de grau de liberdade.

A distribuição tem curva assimétrica e positiva para valores mais baixos nos graus de liberdade. Utilizado em testes de associação entre variáveis categóricas. Exemplo: Achar valores críticos e probabilidades associadas á distribuição qui-quadrado.

Gráfico assimétrica positiva é com cauda alongada para direita:

Fonte: https://www.youtube.com/watch?v=th1bdIuExkg, acesso: 04 novembro 2024

Distribuição t-studente: Parece muito com a normal padrão, forma de sino e é simétrica em torno da média.Porem a t-student tem a cauda mais alongada, ou seja, permite visualizar valores mais nos extremos e dependem do grau de liberdade.

Fonte: https://pt.wikipedia.org/wiki/Teste_t_de_Student, acesso 4 novembro 2024.

Distribuição F de Snedecor (distribuição de Fischer): Muito utilizado para analise de variância. Forma assimétrica e positiva quando os graus de liberdades são pequenos. São 2 parâmetros graus de liberdade no numerador e grau de liberdade no denominador, a forma da curva depende do grau de liberdade.

Estatísticas Fundamentais

Tipos de variáveis, são importantes para evitar ponderações arbitrarias e para escolher o modelos correto, pois a escolha do modelos de machine learning dependem do tipo de variável resposta ser qualitativa/categórica ou quantitativa.

Tipo de variável quantitativa são números e são para medir quantidade, podem ser continuas ou discretas, onde discretas são valores inteiros (1,2,3..100), exemplos quantidade de filhos. Continuas são categóricas, exemplos classes, faixas.

Frequência – Estatística Descritiva

Tabela de frequência exemplo:

Medidas de posição para variáveis métricas:

  • Média
  • Mediana (ponto central da variável, bom para verificar se a média esta equilibrada)
  • Moda (analisar elementos centrais, qual valor que mais de repete, o valor com mais frequência)
  • Percentis (divide em 100 partes iguais, em ordem crescente)
  • Quartis (divide em 4 partes iguais, 1 quartil=25%, 2 quartil=50%…, em ordem crescente)
  • Decis (divide em 10 partes iguais, 1 decil=10%, ….8 decil=80%, em ordem crescente)

Medidas de dispersão:

  • Amplitude (diferença entre valor máximo e valor minimo)
  • Variância (mostra a dispersão dos valores em relação a média)(o quanto esta distante da media, valores muito alto, variância muito alta,valores muitos dispersos , maior a variância) (se eu tiver valores muito próximo da media a variância será pequena)
  • Desvio padrão (calculado em cima do valor da variância)(maior o desvio padrão, mais dispersos estão os valores)
  • Erro padrão: é o desvio padrão da média da variável (quanto maior a minha amostra (n) menor o erro padrão, mais precisa é a media estimada)(utiliza o valor do erro padrão para os cálculos da inferência)
  • Coeficiente de variação: é uma medida de dispersão relativa, pois relaciona o desvio padrão e a média da variável. Pode ser utilizada para comparação de amostras. Quanto menor o CV mais homogêneo os valores da variável.

Medidas de formas

  • Curtose
  • Assimetria: local de concentração da distribuição
    • curva simétrica: média = mediana = moda
    • curva assimétrica direita: média > mediana
    • curva assimétrica esquerda: média < mediana
  • coeficiente de assimetria de fisher
  • coeficiente de curtose de fisher

medidas com visões na parte gráfica

Relação entre variáveis

Covariância:

  • medida de variabilidade conjunta entre duas variáveis aleatórias.

é uma medida de variabilidade conjunta entre duas variáveis aleatórias.

Correlação é essa medida de associação linear padronizada, de forma que assuma valores entre -1 e 1.

O sinal da covariância e da correlação indica se as variáveis se associam de forma positiva ou negativa.

Relação entre 2 variáveis.

  • Qualitativas: relação entre elas por meio de associação pelo teste qui-quadrado(χ²) e
  • Quantitativas: analise de correlação por meio da covariância e coeficiente de correlação de Pearson.

Teste qui-quadrado(χ²):

Relação entre 2 variáveis Qualitativas – é um teste de hipótese, baseado no qui-quadrado. Sempre o teste qui-quadrado em pares (2 variáveis descritivas)

Quando falamos de teste de hipótese, no caso qui-quadrado, falamos de 2 hipótese:

  • Hipótese Nula

Inicia pela tabela tabela de contingencia (tabela classificação cruzada), por frequência:

*Fonte: https://www.researchgate.net/figure/Figura-12-Quadro-de-tabelas-de-contingencia-2×2-sumarizadas-valores-em_fig6_283800011 – acessado 25 outubro 2024.

Agora o teste qui-quadrado de variável qualitativa, vamos avaliar a associação entre as 2 variáveis.(Teste qui-quadrado ou χ²: serve para avaliar quantitativamente a relação entre o resultado de um experimento e a distribuição esperada para o fenômeno) – Fonte: https://pt.wikipedia.org/wiki/Qui-quadrado

a soma de todos os qui-quadrado individuais é a estatística de teste que irá dizer se à ou não associação. Ex:

Veja que existem 2 Hipoteses, a Hipotese Nula H0 e a Hipotese H1.

Onde o H0 fica na Região Critica (RC) e H1 fica na Região de Não Rejeição (RN):

O qui-quadrado final, associação entre duas variáveis, vou verificar em qual região está, na RC ou na RN, na RN existe associação. Porem para essa decisão tenho que ter o valor critico e o valor critico muda em relação ao grau de liberdade, o valor do grau da liberdade depende do teste estatístico, no teste qui-quadrado o calculo é:

Valor critico, depende do nível de significância, normalmente utiliza-se 5%:

Ou seja, Quando o valor da estatística Qui-quadrado é maior > que o valor crítico, a hipótese nula é rejeitada, indicando uma associação significativa entre as variáveis (com 4 graus de liberdade).

p-valor: é a Área (0,003) a direita do teste estatístico qui-quadrado (15.86). Como o p-valor é menor que o nível de significância 0,05, então rejeito H0, ou seja existe associação entre as 2 variáveis.

Coeficiente de Correlação de Pearson

Sempre entre 2 variáveis, utilizado para avalizar a correlação de 2 variáveis quantitativa.

Inicia-se o calculo pela covariância entre as 2 variáveis, depois obtêm-se o coeficiente de pearson.

“A covariância é uma medida estatística que permite comparar duas variáveis, entendendo como elas se relacionam entre si” (Fonte: https://www.suno.com.br/artigos/covariancia/, acessado em 28 outbro 2024).

Exemplo, covariância positiva elas “caminham” pelo mesmo lado, ou seja, quando uma esta positiva a outra também está, quando uma está acima da média, a outra também esta acima da média.

Ou se a covariância for negativa quer dizer que as 2 variáveis andam em sentido opostos, ou seja, em quanto uma está acima da media a outra esta abaixo da media e vice-versa.

Coeficiente de Correlação de Pearson igual a Zero, sem correlação entre as 2 variáveis. Proximo do zero, também quer dizer que não é uma correlação tão intensa.

Podemos ver também em uma matriz de correlação de pearson:

Fonte:https://medium.com/@joaopedro.thereziano/an%C3%A1lise-de-correla%C3%A7%C3%A3o-utilizando-python-30bcf29423c3 – acessado em 28 outubro 2024

Estatísticas Descritivas – Python

#Verificar os tipos de variaveis
pisa.info()

#estatisticas descritivas para variaveis quantitativas
pisa[['nota_matematica_2022', 'nota_redação_2022', 'nota_ciencias_2022']].describe()

#output
       nota_matematica_2022  nota_redação_2022  nota_ciencias_2022
count         81.000000     81.000000     81.000000
mean         437.628559    435.037917    446.893945
std           58.219370     56.104751     55.724807
min          336.396041    328.842780    347.104162
25%          388.781607    386.284748    403.130242
50%          440.845309    438.440625    446.967114
75%          483.159455    480.405847    493.549319
max          574.663820    542.553322    561.433275

#onde: 
# count - quantidade de linhas (sem valores nulos)
# mean  -  média
# std - desvio padrão
# min - valor minimo
# max - valor maximo
# 25% - quartis 25% - primeiro quartil
# 50% - quartil 50% - elemento central - mediana
# 75% - terceiro quartil - 75% da amostra

# Tabela de frequencias para variaveis qualitativa
pisa['groupo'].value_counts()