Testes de Hipótese – 2

Será que nos dados da população as variáveis são relevantes para o modelo ou são mero fruto do acaso?

Parâmetros da população e Estatisticas da amostra.

site: https://www.questionpro.com/blog/pt-br/populacao-e-amostra/, acesso 26 setembro de 2025.

A variância influencia fortemente a significância.

1. Conceito de significância estatística

  • A significância vem de testes de hipótese.
  • Ela mede se um efeito observado (ex.: diferença entre médias, coeficiente de regressão, correlação) é provável de ter ocorrido por acaso ou se é um efeito consistente.
  • É expressa por meio do valor-p: quanto menor o valor-p, maior a evidência contra a hipótese nula (de “não efeito”).

2. Papel da variância

  • A variância dos dados afeta o erro padrão (desvio padrão da média ou do estimador).
  • Quanto maior a variância, maior a dispersão dos dados → maior o erro padrão → o teste estatístico perde poder → é mais difícil encontrar significância.
  • Quanto menor a variância, os dados ficam mais concentrados → menor o erro padrão → aumenta a chance de detectar um efeito como significativo (se ele existir).

Em fórmulas simplificadas, um teste t é:

E o erro padrão depende da variância:

Ou seja: se a variância (σ²) é alta, o erro é grande → t cai → p-valor aumenta → menor chance de significância.

O que são dados paramétricos?

São dados que seguem uma distribuição conhecida, geralmente a distribuição Normal (Gaussiana), ou que podem ser transformados para se aproximar dela (por exemplo, usando Box-Cox).

Quando dizemos que uma análise é paramétrica, significa que:

  • Faz suposições sobre os parâmetros da população (média, variância, etc.);
  • Assume que os dados vêm de uma distribuição específica (na maioria das vezes, normal);
  • Usa fórmulas matemáticas que dependem dessas premissas.

🔹 Exemplos de testes paramétricos

  • Teste t de Student (médias)
  • ANOVA (comparação de médias entre grupos)
  • Correlação de Pearson
  • Regressão linear

🔹 Características dos dados paramétricos

  1. Normalidade – os dados seguem (ou aproximadamente seguem) distribuição normal.
  2. Homocedasticidade – variâncias dos grupos comparados são iguais ou semelhantes.
  3. Independência – as observações não podem estar correlacionadas indevidamente.
  4. Escala intervalar ou de razão – precisam ser dados numéricos contínuos (ex.: altura, tempo, tamanho de banco de dados em GB).

🔹 Comparação com dados não paramétricos

  • Paramétricos: mais poderosos, mas exigem que os pressupostos sejam atendidos.
  • Não paramétricos: usados quando os dados não seguem normalidade ou não têm variâncias iguais (ex.: teste de Mann-Whitney, teste de Kruskal-Wallis).

Testes de Hipótese para dados Paramétricos (pressupõem normalidade dos dados):

OBS: para utilizar testes paramétricos , antes deve realizar teste de normalidade !!! (Ex. Shapiro-wilk-amostras pequenas < 30)

  • Teste para a média (com variância conhecida)
  • Teste para a média (com variância desconhecida)
  • Teste para a variância
  • Teste t pareado (comparação de médias em duas amostras dependentes)
  • Teste t independente (comparação de médias em duas amostras independentes)
  • ANOVA (comparação de médias em três ou mais grupos independentes)
  • Teste para comparação de variâncias

No quadro de decisão em testes de hipótese em formato de imagem, com destaque visual:

  • Erro Tipo I (α) em vermelho claro → rejeitar H₀ quando ela é verdadeira.
  • Erro Tipo II (β) em amarelo claro → não rejeitar H₀ quando ela é falsa.
  • As demais situações mostram as decisões corretas.

🚀 Passos para Realizar um Teste de Hipóteses

  1. Definir a variável em estudo
    • Identificar qual parâmetro será avaliado (média, variância, proporção etc.).
  2. Definir as hipóteses
    • Hipótese nula (H₀): não há efeito/diferença (hipótese padrão).
    • Hipótese alternativa (H₁): existe efeito/diferença.
  3. Escolher o nível de significância (α)
    • Probabilidade de cometer Erro Tipo I.
    • Valor comum: α = 0,05 (5%).
  4. Selecionar o teste estatístico
    • Depende do tipo de dado e do problema:
      • Teste z → variância conhecida e amostra grande.
      • Teste t → variância desconhecida ou amostra pequena.
      • ANOVA, Qui-quadrado, F de Snedecor, etc.
  5. Calcular a estatística de teste
    • Usar a fórmula do teste escolhido.
    • Comparar com valores críticos ou p-valor.

🧪 Testes de Hipótese para a Média Populacional:

Distribuição usada:

  • Se σ (variância populacional) é desconhecidateste t de Student (mais comum).
  • Se σ é conhecida → pode-se usar o teste Z.

Para verificar se a média populacional μ é igual a um valor específico μ0​:


🔹 Teste bicaudal (duas caudas)

  • H₀: μ=μ0
  • H₁: μ≠μ0
    👉 Usado quando queremos detectar qualquer diferença (maior ou menor).

🔹 Teste unicaudal superior (uma cauda à direita)

  • H₀: μ=μ0
  • H₁: μ>μ0
    👉 Usado quando queremos verificar se a média é maior que μ0​.

🔹 Teste unicaudal inferior (uma cauda à esquerda)

  • H₀: μ=μ0
  • H₁: μ<μ0
    👉 Usado quando queremos verificar se a média é menor que μ0.

🧪 Teste para a Variância Populacional (qui-quadrado):

Ele é a versão análoga ao que vimos para a média, mas aqui usamos como estatística de teste a qui-quadrado .

Distribuição usada:

  • Porem assumimos que a média é conhecida e a variância que é desconhecida.

Seguem os gráficos das regiões críticas para o teste de variância usando a distribuição qui-quadrado:

Teste unicaudal inferior → rejeita H0 se χ2 cair na cauda esquerda.

Teste bicaudal → rejeita H0 se χ2 cair nas extremidades (caudas vermelhas).

Teste unicaudal superior → rejeita H0 se χ2 cair na cauda direita.

Resumo:

Inferência estatistíca

Parâmetros, estimadores e distribuição.

  • Parâmetro são desconhecidos e queremos estimar.
  • Estimador é uma função da amostra, ele é uma variável aleatória que varia com a amostra.
  • Distribuição amostrais dos estimadores.

Exemplo:

Suponha que temos uma população com distribuição normal cuja média μ e desvio-padrão σ .

Abaixo vamos ver:

  • Viés;
  • Consistência;
  • Eficiência.

Distribuição amostral média:

É a distribuição de probabilidades de todas as médias amostrais possíveis de um certo tamanho (n) retiradas de uma população .

Exemplo: Se você tirar várias amostras de tamanho 10 de uma população, você obterá várias médias. A distribuição dessas médias é a distribuição amostral da média.

Exercicio:

Definição da População: Considera-se uma urna contendo três bolinhas numeradas de 1, 2 e 3. Esta é a população.

Definição da Amostra: . É retirada uma amostra aleatória com reposição de duas bolinhas da urna.O tamanho da amostra é n=2.

Possíveis Amostras e Suas Médias:

Listagem das Amostras: . Todas as combinações possíveis de duas bolinhas com reposição são listadas.

O espaço amostral 𝑆 é dado por:

S={(1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)}
O número total de amostras possíveis é :

Estimador não viesado:

Um estimador é não enviesado , se em média, não está tedendo a superestimar ou subestimar o verdadeiro valor do parâmetro.

A distribuição amostral da média, ou média amostral (X̄), é a distribuição de todas as médias possíveis de amostras aleatórias de um determinado tamanho (n) extraídas de uma população. Este estimador é não viesado porque o seu valor esperado é igual à média populacional (µ). A distribuição amostral da média, graças ao Teorema do Limite Central, tende a ser aproximadamente normal, mesmo que a população original não seja normal, especialmente para amostras grandes. 

Por que a média amostral (X̄) é um estimador não viesado? 

  • Um estimador é não viesado (ou não viciado) se o seu valor esperado é igual ao parâmetro populacional que ele está a tentar estimar. 
  • No caso da média, o valor esperado da média amostral é igual à média populacional (E(X̄) = µ). 
  • Isso significa que, em média, a média amostral não tende a superestimar ou subestimar a verdadeira média da população. 

Consistência do Estimador:

  • Definição: Um estimador é consistente se, ao aumentar o tamanho da amostra (n), o seu valor se aproxima cada vez mais do valor real do parâmetro populacional que ele tenta estimar. 
  • Como funciona: Para um estimador da média ser consistente:
    • A esperança (valor esperado) deve tender ao parâmetro: Ou seja, em média, o estimador deve se aproximar do valor real da média populacional, mesmo com a variabilidade natural das amostras. 
    • A variância deve tender a zero: À medida que n aumenta, a dispersão dos valores do estimador deve diminuir, indicando que os valores obtidos com amostras maiores estão mais concentrados em torno do parâmetro populacional.

Em resumo:

Estimador Não Viesado, mas Não Consistente

  • Definição: Um estimador não viesado tem o seu valor esperado igual ao verdadeiro parâmetro populacional (E(T) = θ). Um estimador não consistente tem a sua variância que não tende a zero à medida que o tamanho da amostra cresce. 
  • Exemplo: Considere a variância de uma população, σ². Um estimador para ela pode ser obtido usando a média de frequência amostral, que é o estimador de variância tendencioso do livro e sua amostra. 

Estimador Viesado, mas Consistente

  • Definição: Um estimador viesado tem um viés não nulo, ou seja, o seu valor esperado não é igual ao parâmetro real. Um estimador consistente tem a sua variância que tende a zero à medida que o tamanho da amostra se aproxima do infinito. 
  • Exemplo: Um estimador da variância populacional, σ², usando o denominador de n, pode ser usado para a variância da amostra. Este estimador tem um viés, mas é consistente. 

Como Identificar Estimadores Não Viesados e Consistentes

  • Um estimador é não viesado se E(T) = θ, e é consistente se a variância de T tende a zero quando o tamanho da amostra n tende ao infinito. 
  • Em geral, os estimadores não viesados e consistentes são preferíveis, pois fornecem estimativas mais precisas e não tendem a subestimar ou superestimar o parâmetro ao longo do tempo. 
  • Variância Pequena (Eficiência): 
    Um bom estimador deve ser consistente e ter uma variância pequena, significando que a variância do estimador tende a zero quando o tamanho da amostra é grande. 

Eficiência do Estimador:

Variância Pequena (Eficiência): 
Um bom estimador deve ser consistente e ter uma variância pequena, significando que a variância do estimador tende a zero quando o tamanho da amostra é grande. 

Erro quadratico médio (MSE):

Soma da variância do estimador + o viés ao quadrado do estimador, fornecendo uma maneira útil de calcular o MSE e implicando que, no caso de estimadores não tendenciosos, o MSE e a variância são equivalentes. MSE ⁡ ( θ ^ ) = Var θ ⁡ ( θ ^ ) + Bias ⁡ ( θ ^ , θ ) 2.

  • O quadrado do vies: o quanto o estimador está longe do valor verdadeiro.
  • A variância: o quanto o estimador pode variar em diferentes amostras da população.

Máxima Verossimilhança (MLE):

A “máxima verossimilhança” (ou Estimativa de Máxima Verossimilhança – MLE) é um método estatístico para estimar os parâmetros de um modelo probabilístico, procurando os valores que tornam os dados observados o mais prováveis possível.

o principio da verossimilhança afirma que devemos escolher aquele valor do parâmetro desconhecido que maximiza a probabilidade de obter a amostra particular observada, ou seja, o valor que torna aquela amostra a “mais provável”. Exemplo de Verossimilhança: A função de verossimilhança para estimar a probabilidade de um pouso de uma moeda sem conhecimento prévio de seu lançamento.

Verossimilhança vs. Probabilidade

“Não confunda verossimilhança com probabilidade. Enquanto a probabilidade mede a chance de observar dados específicos dado um conjunto de parâmetros, a verossimilhança mede a plausibilidade de um conjunto de parâmetros dado os dados observados. Em outras palavras, a verossimilhança é uma função dos parâmetros, enquanto a probabilidade é uma função dos dados. Essa distinção é crucial para a correta aplicação de métodos estatísticos.”

site: https://estatisticafacil.org/glossario/o-que-e-verossimilhanca-entenda-o-conceito/, acesso 25 setembro de 2025.

site: https://pt.scribd.com/document/838190048/Estimadores-de-Ma-xima-Verossimilhanc-a, acesso 25 setembro 2025.

Intervalo de confiança:

“O intervalo de confiança é um intervalo numérico construído ao redor da estimativa de um parâmetro. Ele utiliza um procedimento que, ao ser repetido em várias amostras hipotéticas, gera intervalos contendo o valor verdadeiro do parâmetro em X% dos casos.

Vamos dividir essa definição em partes. Primeiramente, o intervalo de confiança possui limites inferior e superior, calculados ao redor da estimativa de um parâmetro, θ-chapéu.”

Lima, M. (2024, 18 de dezembro). O que é intervalo de confiança? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-intervalo-de-confianca.

Intervalo de confiança para média com variância conhecida:

Para um intervalo de confiança da média populacional (μ) com variância (σ²) conhecida, utiliza-se a distribuição normal e a fórmula: x̄ ± Z * (σ/√n), onde x̄ é a média amostral, Z é o valor crítico da distribuição normal para o nível de confiança desejado (ex: 1,96 para 95% de confiança), σ é o desvio padrão populacional e n é o tamanho da amostra.

Intervalo de confiança para média com variância desconhecida:

Para construir um intervalo de confiança para a média populacional com variância desconhecida, usa-se a distribuição t de Student em vez da distribuição normal padrão, pois a variância populacional é desconhecida e, geralmente, trabalha-se com amostras pequenas. A fórmula do intervalo é a média amostral mais ou menos o produto do valor t de Student (determinado pelo nível de confiança e graus de liberdade) pela margem de erro, que é o desvio padrão amostral dividido pela raiz quadrada do tamanho da amostra. 

Passos para calcular o intervalo de confiança:

  1. Determinar o nível de confiança: Geralmente são 90%, 95% ou 99%.
  2. Calcular os graus de liberdade (gl): Em geral, gl = n – 1, onde n é o tamanho da amostra.
  3. Encontrar o valor t de Student: Utilize uma tabela t de Student ou software estatístico com base no nível de confiança e nos graus de liberdade.
  4. Calcular o desvio padrão amostral (s): Esta é a medida da variabilidade da amostra.
  5. Calcular o erro padrão da média: Divida o desvio padrão amostral pela raiz quadrada do tamanho da amostra (n).
  6. Calcular a margem de erro: Multiplique o valor t de Student pelo erro padrão da média.
  7. Construir o intervalo: Some e subtraia a margem de erro da média amostral (x̄) para obter os limites inferior e superior do intervalo. 

Exemplo prático:
Assumindo que você tem uma amostra de tamanho n, com média  e desvio padrão s, e deseja um intervalo de confiança de 95%: 

  • Cálculo:
  • x̄ ± t * (s / √n). 

site: https://est.ufmg.br/~marcosop/est031/aulas/Capitulo_8_1.pdf, acesso 25 de setembro de 2025.

Modelos probabilidade

Discretos

Bernoulli – 1 ou 0 (Ex. sim ou não ou sucesso ou não sucesso):

A probabilidade de X assumir um determinado valor x (0 ou 1) é dada por P(X = x) = px(1-p)1-x

Exemplo:

Um inspetor de qualidade extrai uma amostra aleatória de 10
tubos armazenados num depósito onde, de acordo com os padrões
de produção, se espera um total de 20% de tubos defeituosos.
Qual é a probabilidade de que não mais do que 2 tubos extraídos
sejam defeituosos?
Se X denotar a variável “número de tubos defeituosos em 10
extrações independentes e aleatórias”, qual o seu valor esperado?
Qual a variância?

Note que a variável aleatória X = número de tubos defeituosos em
10 extrações tem distribuição binomial, com parâmetros n = 10 e
p = 0,2. Portanto, “não mais do que dois tubos defeituosos” é o
evento {X ≤ 2}. Sabemos que, para X ∼ b(10 , 0,2)

Se X ∼ b(n, p), então
E(X) = np Var(X) = np(1 − p)
Basta então aplicar os valores fornecidos para vermos que o
n´umero esperado de tubos defeituosos num experimento com 10
extrações é de 2, e que a variância é de 1,6.

Binomial:

A distribuição binomial é usada para calcular a probabilidade de obter um certo número de “sucessos” em um número fixo de “tentativas” (ensaios de Bernoulli), onde cada tentativa tem apenas dois resultados possíveis e os resultados são independentes.

Fórmula:

  • n: O número total de tentativas.
  • k: O número de sucessos desejados.
  • p: A probabilidade de sucesso em uma única tentativa.
  • q (ou 1-p): A probabilidade de fracasso em uma única tentativa.

Como usar a fórmula:

A fórmula geral da distribuição binomial é: P(X=k) = C(n, k) * p^k * q^(n-k) 

Onde: 

  • P(X=k): A probabilidade de obter exatamente k sucessos.
  • C(n, k): O coeficiente binomial, que representa o número de combinações de escolher k sucessos em n tentativas.
  • p^k: A probabilidade de k sucessos.
  • q^(n-k): A probabilidade de (n-k) fracassos.

Poisson:

média e variância valores iguais.

Resumo:

A Distribuição de Bernoulli descreve o resultado de um único ensaio com dois resultados possíveis (sucesso ou fracasso); 

A Distribuição Binomial modela a soma de vários ensaios de Bernoulli independentes, contando o número de sucessos; 

A Distribuição de Poisson lida com a probabilidade de um certo número de eventos ocorrerem num intervalo fixo de tempo ou espaço, sendo útil para eventos raros.

Continuos

Uniforme: é um modelo de probabilidade onde cada resultado possível dentro de um determinado intervalo tem a mesma probabilidade de ocorrer.

Distribuição normal: uma distribuição contínua e simétrica ao redor da média, a maioria dos valores tende a se agrupar ao redor da média e valores que se afastam da média (para mais ou para menos) tendem a ser menos frequentes.

site: https://www.blog.psicometriaonline.com.br/distribuicao-normal/, acesso 16 setembro 2025.

Normal padrão:uma distribuição normal teórica especial, cuja média é 0 e o desvio-padrão é 1.

Exponencial:

É uma distribuição de probabilidade contínua que modela o tempo até a ocorrência de um evento em um processo de Poisson, ou seja, eventos que acontecem de forma independente e a uma taxa constante. Ela descreve a probabilidade de um evento ter uma duração ou ocorrer dentro de um certo tempo, sendo muito usada em áreas como análise de confiabilidade (tempo de vida de componentes) e tempos de espera. 

Exemplo: você quer saber a probabilidade de um aparelho eletrônico continuar funcionando após 3 anos, sabendo que, em média, ele dura 2 anos. A probabilidade de ele continuar funcionando diminui com o passar do tempo, o que é uma característica da distribuição exponencial. 

site: https://www.youtube.com/watch?v=87dvB9v1pRI, acesso 16 de setembro de 2025.

t-student

Parecida com a normal , mas com a cauda mais “pesada”, indicando uma maior probabilidade de ocorrerem valores extremos, mas aproxima-se da distribuição normal à medida que o número de graus de liberdade aumenta.

É uma distribuição de probabilidade em forma de sino, semelhante à distribuição normal, mas utilizada quando se trabalha com amostras pequenas ou com a variância populacional desconhecida.

  • Amostras pequenas: É a escolha ideal quando o tamanho da amostra é pequeno (geralmente inferior a 30 observações). 
  • Variância populacional desconhecida: Utiliza-se quando não se sabe o desvio padrão ou a variância da população. 

Qui-quadrado

é uma distribuição de probabilidade contínua usada em inferência estatística para testes de hipóteses, especialmente para avaliar se os dados observados se ajustam a uma distribuição esperada (teste de aderência) ou para testar a independência entre variáveis categóricas. Caracteriza-se por ser assimétrica à direita e definida por um parâmetro chamado graus de liberdade (k). 

F de Fisher-Snedecor

é uma distribuição de probabilidade de variáveis contínuas, definida como a razão de duas variáveis aleatórias independentes com distribuição qui-quadrado, divididas pelos seus respetivos graus de liberdade. É usada principalmente para inferência sobre a razão entre duas variâncias e em técnicas estatísticas como a Análise de Variância (ANOVA), onde compara a variabilidade entre grupos com a variabilidade dentro dos grupos. 

  • Assimetria: É uma distribuição assimétrica à direita, com valores que assumem apenas valores positivos. 
  • Graus de Liberdade: É caracterizada por dois parâmetros: os graus de liberdade do numerador e do denominador, que influenciam a forma da distribuição. 

Otimização matemática

Objetivo é encontrar a melhor solução possível, onde quantifica a qualidade da solução:

Onde transforma um vetor em um numero real.

Função objetivo:

Direção de otimização, maximizar (solução fornece o maior valore possível) ou minimizar (minimiza o custo), exemplo minimizar o tempo de viagem, ou maximizar o lucro.

Otimizador Global: busca a melhor entre todas as soluções viáveis, onde busca o minimo ou maximo global.

site: https://en.wikipedia.org/wiki/Global_optimization, acesso 03 de setembro 2025.

Otimizador Local: não tão complexo comparado a achar o otimizador global (minimo ou maximo), em muitos casos buscamos o minimo ou maximo local.

Restrições:Condições que limitam as variáveis de decisão, expressas como igualdades ou desigualdades lineares (ex: disponibilidade de ingredientes, demanda máxima ou mínima de um produto). 

Álgebra linear:

Vetores:

site:https://pt.khanacademy.org/math/multivariable-calculus/thinking-about-multivariable-function/x786f2022:vectors-and-matrices/a/vectors-and-notation-mvc, acesso 2 outubro de 2025.

Matriz: linhas x colunas

site:https://pt.khanacademy.org/math/multivariable-calculus/thinking-about-multivariable-function/x786f2022:vectors-and-matrices/a/matrices–intro-mvc, acesso 2 outubro de 2025.

Produto Vetor x Matrix:

Produto Matriz x Matriz:

Transposta: inverte coluna e linhas.

Otimização Linear:

Otimização Linear, ou Programação Linear (PL), é um método matemático para tomar a melhor decisão em um problema, maximizando ou minimizando um objetivo (como lucro ou custo) sujeito a um conjunto de restrições representadas por equações lineares. Ela é aplicada na pesquisa operacional para resolver situações complexas do mundo real, como planejamento de produção, definindo as quantidades ideais de produtos a fabricar para otimizar o lucro, ou criando misturas com o menor custo possível, respeitando a disponibilidade de componentes. 

Elementos Principais:

  • Função Objetivo:Uma função matemática (linear) que expressa o objetivo do problema, como maximizar o lucro ou minimizar o custo. 
  • Variáveis de Decisão:As variáveis que precisam ser determinadas para atingir o objetivo (ex: quantidade de cada produto a ser produzida). 
  • Restrições:Condições que limitam as variáveis de decisão, expressas como igualdades ou desigualdades lineares (ex: disponibilidade de ingredientes, demanda máxima ou mínima de um produto). 

Alguns Exemplo de otimizador em python:

com a biblioteca do scipy.optimize.minimize_scalar extraimos o minimo e no código abaixo adicionamos um intervalo de limite para ele achar o minímo.

Restrições:

Exemplos de Otimização Linear:

Estatística probabilística

Probabilidade é um modo de calcular ou quantificar as chances de que um evento ocorra, isso dada todas as possíveis ocorrências.

Probabilidade sempre esta no intervalo entre 0 e 1.

Espaço amostral:

São todos os possíveis resultados de um evento aleatório. Permitindo calcular o número total de resultados possíveis.

representado pelo ômega (Ω)

site: https://app.planejativo.com/estudar/360/resumo/matematica-probabilidade-visao-geral – acesso 21/8/2025

Evento:

Subconjunto dentro do espaço amostral. Representado por conjunto. Subconjunto do espaço amostral normalmente contem os elementos que estamos tentando calcular a probabilidade dos mesmos.

Evento certo (1%) e evento impossível (0%), exemplo de evento impossível seja dado honesto a probabilidade de cair numero maior que 6 = 0%.

Referência: https://pt.khanacademy.org/math/em-mat-probabilidade/x37cb49a28da24b56:probabilidade/x37cb49a28da24b56:tipos-de-eventos/a/tipos-de-eventos

União e interseção de eventos:

A união de dois eventos A e B, denotada por A ∪ B, representa a ocorrência de pelo menos um dos eventos A ou B.

A interseção do evento A com B, denotada por A ∩ B, é a ocorrência simultânea de A e B.

Dois eventos A e B são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A ∩ B = Ø.

site: https://www.infoescola.com/matematica/probabilidade/ – acesso: 21/08/2025

Árvore de probabilidade:

Árvore de probabilidade tambem pode ser representada e calculada a probabilidade

site:https://pt.wikipedia.org/wiki/Diagrama_de_%C3%A1rvore

Exemplo:

site: https://brainly.com.br/tarefa/27704281

Probabilidade total:

É a probabilidade total para um resultado que pode ser através de vários eventos distintos.

Exemplo sendo, B um evento, teremos o teorema da probabilidade total.

Assim, a probabilidade total de B pode ser obtida pelo axioma III da probabilidade, como segue.

P(B)=P(B∩A1)+P(B∩A2)+…+P(B∩An)=n∑i=1P(B∩Ai)=n∑i=1P(B|Ai)P(Ai).

site: https://bookdown.org/rfdapaz/probabilidade/probabilidade-condicional.html – acesso: 22/08/2025

Exemplo:

site: https://www.bertolo.pro.br/AdminFin/AnalInvest/Aula040912Revisao.pdf – acesso: 22/08/2025

Teorema de Bayes

Utilizada para calcular a probabilidade do evento ocorrer dado que outro evento já aconteceu.

P(A|B) = (P(B|A) * P(A)) / P(B) 

Sendo:

  • P(A|B): é a probabilidade do evento A ocorrer dado que o evento B já ocorreu. 
  • P(B|A): é a probabilidade do evento B ocorrer dado que o evento A já ocorreu. 
  • P(A): é a probabilidade inicial do evento A acontecer (probabilidade a priori). 
  • P(B): é a probabilidade do evento B ocorrer. 

Exemplo:

Em uma cidade em que os carros são testados para emissão de poluentes, 25% deles emitem quantidade considerada excessiva. O teste falha para 99% dos carros que emitem excesso de poluentes, mas resulta positivo para 17% dos carros que não emitem quantidade excessiva. Qual é a probabilidade de um carro que falha no teste realmente emitir quantidade excessiva de poluentes?

Função massa de probabilidade (FMP) ou (PMF):

Função de massa de probabilidade de uma variável aleatória discreta X é definida como:

Para variaveis aleatórias discretas, que assumem uma contagem.

  • X é uma variável aleatória discreta,
  • x é um valor que X pode assumir,
  • p(x) é a probabilidade de que X seja igual a x.

Com as condições:

  • Valores não negativos: 0 ≤ P(X=x) ≤ 1 para qualquer valor x possível da variável.
  • Soma igual a 1: A soma das probabilidades de todos os valores possíveis de X é igual a 1 (∑P(X=x) = 1).

Exemplo:

É lançado duas moedas. Seja 𝑋 = número de caras. Qual a função massa de probabilidade (ou fmp) de X?

Espaço Amostral (Ω)

Todas as combinações possíveis ao lançar duas moedas (cada uma pode dar cara (C) ou coroa (K)): Ω={(C,C), (C,K), (K,C), (K,K)}

Vamos contar quantas caras aparecem em cada resultado:

ResultadoNúmero de Caras (X)
(C, C)2
(C, K)1
(K, C)1
(K, K)0

Então, os valores possíveis para X são:

X∈{0,1,2}

Função Massa de Probabilidade (fmp) de X

A função massa de probabilidade P(X=x)P(X = x)P(X=x) nos dá a probabilidade de cada valor de XXX:

xP(X = x)Justificativa
01/4só (K, K) tem 0 caras
12/4​=1​/2(C, K) e (K, C) têm 1 cara
21/4só (C, C) tem 2 caras

Função de Densidade de Probabilidade (fdp) ou (pdf):

f(x) ≥ 0
∫f(x)dx = 1

Variáveis aleatórias contínuas usamos a função de densidade de probabilidade (PDF).

“Densidade de uma variável aleatória contínua, é uma função que descreve a verossimilhança de uma variável aleatória tomar um valor dado. A probabilidade da variável aleatória cair em uma faixa particular é dada pela integral da densidade dessa variável sobre tal faixa – isto é, é dada pela área abaixo da função densidade mas acima do eixo horizontal e entre o menor e o maior valor dessa faixa. A função densidade de probabilidade é não negativa sempre, e sua integral sobre todo o espaço é igual a um. A função densidade pode ser obtida a partir da função distribuição acumulada a partir da operação de derivação (quando esta é derivável).”

site: https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_de_densidade_de_probabilidade, acesso 25 setembro de 2015.

Exemplo de pdf:

A variável aleatória contínua X representa a altura (em metros) de uma planta em crescimento, e segue a distribuição normal

, ou seja:

  • Média μ=1.5\mu = 1.5μ=1.5 m
  • Desvio padrão σ=0.1\sigma = 0.1σ=0.1 m

Pergunta:

Qual a probabilidade de que uma planta tenha entre 1.4 m e 1.6 m de altura?

A probabilidade de que uma planta escolhida ao acaso tenha entre 1.4 m e 1.6 m de altura é aproximadamente 68,27%, o que faz sentido — corresponde a uma faixa de ±1 desvio padrão da média numa distribuição normal.

Diferenças entre PMF e PDF:

TipoValores possíveisExemplos de variáveis
DiscretaValores inteiros contáveisnº de filhos, nº de erros, nº de caras
ContínuaValores decimais (reais) infinitos em um intervaloaltura, tempo, temperatura, peso

Valor Esperado (Esperança matemática):

“representa o valor médio “esperado” de uma experiência se ela for repetida muitas vezes”.

site: https://pt.wikipedia.org/wiki/Valor_esperado, acesso 27 agosto 2025.

Variavél discreta:

{\displaystyle E[X]=\sum _{i=1}^{\infty }x_{i}p(x_{i})}

Variável contínua:

{\displaystyle E[X]=\int _{-\infty }^{\infty }xf(x)dx}

Exemplo:

Para ilustrar o conceito de Valor Esperado, considere um jogo de dados em que um jogador ganha R$10 se tirar um número par e perde R$5 se tirar um número ímpar. As probabilidades de tirar um número par ou ímpar em um dado de seis lados são ambas de 1/2. O cálculo do Valor Esperado seria: (E(X) = (10 cdot frac{1}{2}) + (-5 cdot frac{1}{2}) = 5 – 2.5 = 2.5). Isso significa que, em média, o jogador pode esperar ganhar R$2,50 por rodada, o que ajuda a avaliar se o jogo é vantajoso ou não.

site: https://estatisticafacil.org/glossario/o-que-e-valor-esperado/, acesso 27 agosto 2025.

Teste de hipótese

Em testes de hipóteses estatísticas, diz-se que há significância estatística ou que o resultado é estatisticamente significante quando o p-valor observado é menor que o nível de significância α. α definido para o estudo“. Fonte: https://pt.wikipedia.org/wiki/Signific%C3%A2ncia_estat%C3%ADstica

Por exemplo, a hipótese nula é rejeitada a 5% quando o p-valor é menor que 5%“. Fonte: https://pt.wikipedia.org/wiki/Signific%C3%A2ncia_estat%C3%ADstica

Correlação mosta Direção e Força e Teste de Hipótese mostra a Confiança.

Finalidade:

  • Verificar a variância, o quanto varia em relação a média e o desvio padrão
  • Dependendo do tamanho da base de dados/população, utilizamos a amostra para analise.
  • Para testar o parâmetro de interesse da amostra, utilizamos os teste de hipótese estatísticas.

Resumo:

  1. Hipótese Nula (H₀): Afirma que não há efeito ou diferença.
  2. Hipótese Alternativa (H₁): Afirma que há um efeito ou diferença significativa.
  3. Nível de Significância (α): Limite para rejeitar H₀, geralmente 0,05 (5%).
  4. Valor-p (p-value): Probabilidade de obter os resultados observados (ou mais extremos), assumindo que H₀ seja verdadeira.
  • Se p ≤ α: Rejeita-se a hipótese nula; os resultados são considerados estatisticamente significantes.
  • Se p > α: Não há evidências suficientes para rejeitar H₀.

Testes de hipóteses tradicionais:

  • Teste t de Student: Compara as médias de dois grupos.(amostra menores)
  • ANOVA (Análise de Variância): Verifica diferenças entre três ou mais grupos.
  • Qui-quadrado (χ²): Avalia associações entre variáveis categóricas.
  • Teste de Wilcoxon e Mann-Whitney: Testes não paramétricos para comparar medianas entre grupos.

Alguns Exemplo de Uso:

  1. Modelos de regressão:
    • Nos modelos de regressão (linear, logística, etc.), a significância é usada para avaliar se os coeficientes das variáveis independentes são estatisticamente diferentes de zero. Isso ajuda a determinar se essas variáveis têm uma relação significativa com a variável dependente.
  2. Modelos de correlação:
    • Em análises de correlação (como o coeficiente de Pearson ou Spearman), a significância indica se a associação entre duas variáveis é relevante ou pode ser fruto do acaso.
  3. Testes em machine learning:
    • Em técnicas como testes de permutação ou validações cruzadas, a significância estatística é usada para avaliar a performance de modelos em comparação a uma distribuição aleatória.

Explicação mais detalhada:

Teste bilateral (bicaudal): teste bilateral, o interesse é testar.

  • Hipótese Nula (H0):  declara que não há relação entre dois fenômenos de interesse. Não ao efeito.
  • Hipótese alternativa (H1): é estatisticamente diferente de certo valor de interesse. Afirmação e evidencia, podemos tratá-la como uma “novidade” ou “nova”. Ou seja, é a situação em que há algo de diferente.
  • Sendo necessário ter definido o nível de significância (α) desejado para a análise.
  • Estatisticamente diferente. (Hipótese alternativa. H1)

Os testes unilaterais você especifica a direção do teste, ou a esquerda ou a direita:

Teste unilateral (unicaudal), à esquerda:

  • H0 – Hipoteste Nula
  • H1 – Hipotese alternativa
  • O objetivo é analisar se o parâmetro é estatisticamente menor do que certo valor de interesse. (Hipótese alternativa. H1)

Teste unilateral (unicaudal), à direita:

  • Nesse teste unilateral à direita, para um parametro, o interesse é testar:
    • H0 – Hipoteste Nula
    • H1 – Hipotese alternativa
  • Objetivo é verificar se o parâmetro é estatisticamente maior do que certo valor de interesse.(Hipótese alternativa. H1)

Fonte: https://pt.slideshare.net/JoaoAlessandro/aula-30-testes-de-hipteses-17921069#7 , acesso 05 novembro de 2024.

Fonte: https://www.learningaboutelectronics.com/Artigos/Calculadora-teste-de-hipotese-estatistica.php#google_vignette, acesso em 05 novembro de 2024.

Significância do teste

Indica a probabilidade de rejeitar H0 quando ela é verdadeira, ou seja, a probabilidade de cometer o erro tipo I:

Fonte: https://rpubs.com/mcouto/557755, acesso 05 novembro de 2024.

  • Alguns níveis de significância utilizados:
    • α = 1% (ou seja, o nível de confiança do seu teste é de 99% = 1- α)
    • α = 5% (ou seja, o nível de confiança do seu teste é de 95% = 1- α)
    • α = 10% (ou seja, o nível de confiança do seu teste é de 90% = 1- α)
  • Ou seja, o nível de confiança do teste é definido como 1 – α

P-valor e teste de hipótese

p-valor e nível de significância:

t critico, verificar qual o valor, que a direita é região critica, ou seja, região com 5%. RC região critica é a região de rejeição H0.

Quando o p-valor < α: Rejeita H0.

Quando o p-valor > α: Não Rejeita H0.

Teste Z para médias de uma amostra:

Quando utilizar teste Z:

  • Quando eu conheço o desvio padrão populacional (banco de dados) .
  • Quando a variável tem a aderência a normal.
  • Ou quando estou utilizando para grandes amostras.
  • Distribuição relevante para os valores críticos é a normal padrão.

Teste t para médias de uma amostra:

  • Para amostras, bem parecido com teste Z, porem normalmente aplico o teste t quando não conhece o desvio padrão populacional , então utilizo o desvio padrão amostral.
  • Distribuição t é usado com n-1 grau de liberdade.

Teste t para correlações:

  • Após estimado o coeficiente de correlação (r) entre variáveis quantitativas, é possível testar a significância do parâmetro estimado.
  • Distribuição relevante é a t de student com n-2 graus de liberdade.

Exemplo, imagina que encontrei a correlação, o coeficiente de correlação entre 2 variáveis quantitativas e agora quero ver se esse coeficiente de correlação é estatisticamente significante. Exemplo abaixo utilizado correlação de pearson, veja:

Com nível de significância de 5%, o exemplo acima é bicaudal será 2,5% para a esquerda do gráfico e 2,5% a direita do gráfico, o calculo do valor crítico revelou ser 2,048 (com n-2 grau de liberdade):

conclusão, o coeficiente de correlação “matemática-física” é estatisticamente diferente de 0 e é estatisticamente significante.

Teste qui-quadrado para uma amostra:

Aplicado quando tenho 1 variável categóricas onde ela pode assumir 2 ou mais categorias (k), objetivo é verificar se há diferenças entre as frequências observadas e esperada.

Exemplo de aplicação: Uma loja verificar se vende mais dependendo do dia da semana. Se acaso forem estatisticamente significante 5%, ou seja, no lado Não Critico do gráfico, não há evidencias que dependendo do dia da semana influencie na quantidade das vendas.

Teste F para comparação de variâncias:

  • Para comparar as variâncias de duas amostras independentes.
  • Distribuição relevante é a F de Snedecor, com n-1 graus de liberdade no numerados e n-1 graus de liberdade no denominador.

Intervalo de confiança

Intervalo de confiança para a média:

  • Quando obtemos a estimativa para a média populacional a partir de uma amostra, tambèm podemos construir seu intervalo de confiança, isto é, um intervalo de valores possíveis para o parâmetro populacional.
  • É necessario estabelecer o nível de confiança da análise (exemplo 95%)
  • Z e t são valores bicaudais, na distribuição t utiliza-se n-1 graus de liberdade.

Exemplo: Imagine tendo a média amostral, mas você queira ter uma faixa de valores para conter os valores populacionais, a partir da sua média amostral. Pode usar a Z ou a T, a Z para grandes amostras conhecendo a média populacional, e a t para pequenas amostras e não conhecendo a média e desvio padrão.

Resumos Geral: (mais utilizados)

🔹 Testes Paramétricos (quantitativos e devem ter normalidade)

Teste t de Student (uma média, duas médias independentes ou emparelhadas)

ANOVA (Análise de Variância) e suas extensões (para comparar três ou mais médias)

Testes de normalidade: Kolmogorov-Smirnov, Shapiro-Wilk (amostra pequena), Shapiro-Francia

Testes de homogeneidade de variâncias: Bartlett, Cochran, Hartley, Levene


🔹 Testes Não Paramétricos (qualitativos ou ocorre violação de suposições paramétricas)

Qui-quadrado (χ²): para variáveis nominais ou ordinais, em uma ou mais amostras

Teste Binomial: para variáveis binárias (sucesso/fracasso)

Teste dos Sinais: para dados ordinais, em uma ou duas amostras emparelhadas

Teste de Wilcoxon: comparação de duas amostras emparelhadas

Mann-Whitney U: comparação de duas amostras independentes ordinais

Teste de McNemar: variáveis binárias emparelhadas

Friedman: k amostras emparelhadas (ordinais)

Kruskal-Wallis: k amostras independentes (ordinais)

Q de Cochran: k amostras emparelhadas binárias

Estatísticas Fundamentais – Probabilísticas

Estatísticas Probabilísticas

Variáveis aleatórias discretas: sem valores decimais, são valores inteiros. Exemplo: quantidade de filhos.

Variáveis aleatórias continua: qualquer valor contidos nos números reais. Exemplo: salário, distância entre cidades.

Variáveis discretas

Distribuição de probabilidade:

  • Uniforme
  • Bernoulli
  • Binomial
  • Binomial negativa
  • Poisson

Distribuição uniforme discreta: Todos os valores possíveis têm a mesma probabilidade de ocorrência. Exemplo: As probabilidades dos resultados possíveis ao lançar 1 DADO são: 1,2,3,4,5 ou 6. A probabilidade de tirar 1 desses números pode ser modelada pela distribuição uniforme discreta, pela formula ficaria: p(Xi) = 1/n ==> p(x=1)=1/6 , p(x=2)=1/6,… sempre 1/6 é a probabilidade de tirar 1 desses números no DADO.

Distribuição de Bernoulli (Logística binária): os valores da variáveis podem assumir apenas 2 resultados, sendo sucesso (x=1) ou fracasso (x=0), ou Sim (x=1) e Não (x=0). Formula: ( P(X = x) = p^x (1 – p)^{1 – x} ), onde ( x ) pode ser 0 ou 1.

Distribuição binomial (Logística multinomial): A variável do modelo binominal indica a quantidade de sucesso (k) nas (n) repetições. Onde você tem 3 ou mais resultados. Formula: P(X = x) = (n x) p^x (1 – p)^(n-x).

Distribuição binomial negativa: A probabilidade de sucesso(p) é constante em todos os ensaios realizados. A variável no modelo binomial negativa indica a quantidade de ensaios (x). A diferença entre a binomial, é que na binomial você tem a quantidade de repetições e você analisa quantos sucessos ocorrem nessas n repetições, já na binomial negativa você analise quantos ensaios são necessários para atingir aquele sucesso estabelecidos.

Fonte: https://www.ime.usp.br/~kevinx/SAEB/help/PBinomialNegativa.html. Acesso: 30 outubro 2024.

Distribuição poisson: A probabilidade de ter (k) sucessos, mas agora você deve definir a exposição contínua.

Exemplo exposição contínua: tempo e área.

Variáveis contínuas

Distribuição de probabilidade:

  • Normal
  • Qui-quadrado
  • t de Student
  • F de Snedecor

Distribuição normal: Gaussiana, com curva em formato de sino. Baseada na média e do desvio padrão da variável. É simétrica em torno da média. Quanto menor o desvio padrão, mais concentrados estão os valores em torno da média.

Fonte: https://www.blog.psicometriaonline.com.br/distribuicao-normal/, acessado 31 outubro 2024.

No centro temos a média. Ou seja, são simétricas em torno da média, ou seja, metade das probabilidades estão acima da média e a outra metade abaixo da média.

z-score, para transformar em uma distribuição normal padrão. indica a distância de um valor em relação à média de um conjunto de dados, calculando os dados em uma distribuição com média 0 e desvio padrão 1.

São utilizados em diversas áreas, ele descreve a relação entre um valor e a média de um grupo de valores. Podem ser tanto negativos, quanto positivos os Z-Scores. O valor positivo mostra que a pontuação está acima da média e a pontuação negativa mostra que está abaixo dessa média. Em finanças, por exemplo podem ser utilizados como medidas de variabilidade de uma observação e ajudar traders a determinar a volatilidade do mercado.

Com o z-score conseguimos achar as area do grafico, que são as Zs:

Fonte: https://professorguru.com.br/estatistica/distribuicao-normal.html, acesso 04 novembro 2024.

Exemplo de exercícios que conseguimos achar nas áreas Z:

“O salário semanal dos operários de construção civil de certo país é distribuído normalmente em torno da média de $ 80, com desvio padrão de $5.

a) Qual é o valor do salário para escolhermos 10% dos operários com maiores remunerações?

b) Qual é o maior salário correspondente aos 20% dos trabalhadores que ganham menos?”

Distribuição qui-quadrado: Diferente da distribuição normal, a qui-quadrado depende de 1 parâmetro chamado de grau de liberdade.

A distribuição tem curva assimétrica e positiva para valores mais baixos nos graus de liberdade. Utilizado em testes de associação entre variáveis categóricas. Exemplo: Achar valores críticos e probabilidades associadas á distribuição qui-quadrado.

Gráfico assimétrica positiva é com cauda alongada para direita:

Fonte: https://www.youtube.com/watch?v=th1bdIuExkg, acesso: 04 novembro 2024

Distribuição t-studente: Parece muito com a normal padrão, forma de sino e é simétrica em torno da média.Porem a t-student tem a cauda mais alongada, ou seja, permite visualizar valores mais nos extremos e dependem do grau de liberdade.

Fonte: https://pt.wikipedia.org/wiki/Teste_t_de_Student, acesso 4 novembro 2024.

Distribuição F de Snedecor (distribuição de Fischer): Muito utilizado para analise de variância. Forma assimétrica e positiva quando os graus de liberdades são pequenos. São 2 parâmetros graus de liberdade no numerador e grau de liberdade no denominador, a forma da curva depende do grau de liberdade.

Estatísticas Fundamentais

Tipos de variáveis, são importantes para evitar ponderações arbitrarias e para escolher o modelos correto, pois a escolha do modelos de machine learning dependem do tipo de variável resposta ser qualitativa/categórica ou quantitativa.

Tipo de variável quantitativa são números e são para medir quantidade, podem ser continuas ou discretas, onde discretas são valores inteiros (1,2,3..100), exemplos quantidade de filhos. Continuas são categóricas, exemplos classes, faixas.

Frequência – Estatística Descritiva

Tabela de frequência exemplo:

Medidas de posição para variáveis métricas:

  • Média
  • Mediana (ponto central da variável, bom para verificar se a média esta equilibrada)
  • Moda (analisar elementos centrais, qual valor que mais de repete, o valor com mais frequência)
  • Percentis (divide em 100 partes iguais, em ordem crescente)
  • Quartis (divide em 4 partes iguais, 1 quartil=25%, 2 quartil=50%…, em ordem crescente)
  • Decis (divide em 10 partes iguais, 1 decil=10%, ….8 decil=80%, em ordem crescente)

Medidas de dispersão:

  • Amplitude (diferença entre valor máximo e valor minimo)
  • Variância (mostra a dispersão dos valores em relação a média)(o quanto esta distante da media, valores muito alto, variância muito alta,valores muitos dispersos , maior a variância) (se eu tiver valores muito próximo da media a variância será pequena)
  • Desvio padrão (calculado em cima do valor da variância)(maior o desvio padrão, mais dispersos estão os valores)
  • Erro padrão: é o desvio padrão da média da variável (quanto maior a minha amostra (n) menor o erro padrão, mais precisa é a media estimada)(utiliza o valor do erro padrão para os cálculos da inferência)
  • Coeficiente de variação: é uma medida de dispersão relativa, pois relaciona o desvio padrão e a média da variável. Pode ser utilizada para comparação de amostras. Quanto menor o CV mais homogêneo os valores da variável.

Medidas de formas

  • Curtose
  • Assimetria: local de concentração da distribuição
    • curva simétrica: média = mediana = moda
    • curva assimétrica direita: média > mediana
    • curva assimétrica esquerda: média < mediana
  • coeficiente de assimetria de fisher
  • coeficiente de curtose de fisher

medidas com visões na parte gráfica

Relação entre variáveis

Covariância:

  • medida de variabilidade conjunta entre duas variáveis aleatórias.

é uma medida de variabilidade conjunta entre duas variáveis aleatórias.

Correlação é essa medida de associação linear padronizada, de forma que assuma valores entre -1 e 1.

O sinal da covariância e da correlação indica se as variáveis se associam de forma positiva ou negativa.

Relação entre 2 variáveis.

  • Qualitativas: relação entre elas por meio de associação pelo teste qui-quadrado(χ²) e
  • Quantitativas: analise de correlação por meio da covariância e coeficiente de correlação de Pearson.

Teste qui-quadrado(χ²):

Relação entre 2 variáveis Qualitativas – é um teste de hipótese, baseado no qui-quadrado. Sempre o teste qui-quadrado em pares (2 variáveis descritivas)

Quando falamos de teste de hipótese, no caso qui-quadrado, falamos de 2 hipótese:

  • Hipótese Nula

Inicia pela tabela tabela de contingencia (tabela classificação cruzada), por frequência:

*Fonte: https://www.researchgate.net/figure/Figura-12-Quadro-de-tabelas-de-contingencia-2×2-sumarizadas-valores-em_fig6_283800011 – acessado 25 outubro 2024.

Agora o teste qui-quadrado de variável qualitativa, vamos avaliar a associação entre as 2 variáveis.(Teste qui-quadrado ou χ²: serve para avaliar quantitativamente a relação entre o resultado de um experimento e a distribuição esperada para o fenômeno) – Fonte: https://pt.wikipedia.org/wiki/Qui-quadrado

a soma de todos os qui-quadrado individuais é a estatística de teste que irá dizer se à ou não associação. Ex:

Veja que existem 2 Hipoteses, a Hipotese Nula H0 e a Hipotese H1.

Onde o H0 fica na Região Critica (RC) e H1 fica na Região de Não Rejeição (RN):

O qui-quadrado final, associação entre duas variáveis, vou verificar em qual região está, na RC ou na RN, na RN existe associação. Porem para essa decisão tenho que ter o valor critico e o valor critico muda em relação ao grau de liberdade, o valor do grau da liberdade depende do teste estatístico, no teste qui-quadrado o calculo é:

Valor critico, depende do nível de significância, normalmente utiliza-se 5%:

Ou seja, Quando o valor da estatística Qui-quadrado é maior > que o valor crítico, a hipótese nula é rejeitada, indicando uma associação significativa entre as variáveis (com 4 graus de liberdade).

p-valor: é a Área (0,003) a direita do teste estatístico qui-quadrado (15.86). Como o p-valor é menor que o nível de significância 0,05, então rejeito H0, ou seja existe associação entre as 2 variáveis.

Coeficiente de Correlação de Pearson

Sempre entre 2 variáveis, utilizado para avalizar a correlação de 2 variáveis quantitativa.

Inicia-se o calculo pela covariância entre as 2 variáveis, depois obtêm-se o coeficiente de pearson.

“A covariância é uma medida estatística que permite comparar duas variáveis, entendendo como elas se relacionam entre si” (Fonte: https://www.suno.com.br/artigos/covariancia/, acessado em 28 outbro 2024).

Exemplo, covariância positiva elas “caminham” pelo mesmo lado, ou seja, quando uma esta positiva a outra também está, quando uma está acima da média, a outra também esta acima da média.

Ou se a covariância for negativa quer dizer que as 2 variáveis andam em sentido opostos, ou seja, em quanto uma está acima da media a outra esta abaixo da media e vice-versa.

Coeficiente de Correlação de Pearson igual a Zero, sem correlação entre as 2 variáveis. Proximo do zero, também quer dizer que não é uma correlação tão intensa.

Podemos ver também em uma matriz de correlação de pearson:

Fonte:https://medium.com/@joaopedro.thereziano/an%C3%A1lise-de-correla%C3%A7%C3%A3o-utilizando-python-30bcf29423c3 – acessado em 28 outubro 2024

Estatísticas Descritivas – Python

#Verificar os tipos de variaveis
pisa.info()

#estatisticas descritivas para variaveis quantitativas
pisa[['nota_matematica_2022', 'nota_redação_2022', 'nota_ciencias_2022']].describe()

#output
       nota_matematica_2022  nota_redação_2022  nota_ciencias_2022
count         81.000000     81.000000     81.000000
mean         437.628559    435.037917    446.893945
std           58.219370     56.104751     55.724807
min          336.396041    328.842780    347.104162
25%          388.781607    386.284748    403.130242
50%          440.845309    438.440625    446.967114
75%          483.159455    480.405847    493.549319
max          574.663820    542.553322    561.433275

#onde: 
# count - quantidade de linhas (sem valores nulos)
# mean  -  média
# std - desvio padrão
# min - valor minimo
# max - valor maximo
# 25% - quartis 25% - primeiro quartil
# 50% - quartil 50% - elemento central - mediana
# 75% - terceiro quartil - 75% da amostra

# Tabela de frequencias para variaveis qualitativa
pisa['groupo'].value_counts()