Testes de Hipótese – 2

Será que nos dados da população as variáveis são relevantes para o modelo ou são mero fruto do acaso?

Parâmetros da população e Estatisticas da amostra.

site: https://www.questionpro.com/blog/pt-br/populacao-e-amostra/, acesso 26 setembro de 2025.

A variância influencia fortemente a significância.

1. Conceito de significância estatística

  • A significância vem de testes de hipótese.
  • Ela mede se um efeito observado (ex.: diferença entre médias, coeficiente de regressão, correlação) é provável de ter ocorrido por acaso ou se é um efeito consistente.
  • É expressa por meio do valor-p: quanto menor o valor-p, maior a evidência contra a hipótese nula (de “não efeito”).

2. Papel da variância

  • A variância dos dados afeta o erro padrão (desvio padrão da média ou do estimador).
  • Quanto maior a variância, maior a dispersão dos dados → maior o erro padrão → o teste estatístico perde poder → é mais difícil encontrar significância.
  • Quanto menor a variância, os dados ficam mais concentrados → menor o erro padrão → aumenta a chance de detectar um efeito como significativo (se ele existir).

Em fórmulas simplificadas, um teste t é:

E o erro padrão depende da variância:

Ou seja: se a variância (σ²) é alta, o erro é grande → t cai → p-valor aumenta → menor chance de significância.

O que são dados paramétricos?

São dados que seguem uma distribuição conhecida, geralmente a distribuição Normal (Gaussiana), ou que podem ser transformados para se aproximar dela (por exemplo, usando Box-Cox).

Quando dizemos que uma análise é paramétrica, significa que:

  • Faz suposições sobre os parâmetros da população (média, variância, etc.);
  • Assume que os dados vêm de uma distribuição específica (na maioria das vezes, normal);
  • Usa fórmulas matemáticas que dependem dessas premissas.

🔹 Exemplos de testes paramétricos

  • Teste t de Student (médias)
  • ANOVA (comparação de médias entre grupos)
  • Correlação de Pearson
  • Regressão linear

🔹 Características dos dados paramétricos

  1. Normalidade – os dados seguem (ou aproximadamente seguem) distribuição normal.
  2. Homocedasticidade – variâncias dos grupos comparados são iguais ou semelhantes.
  3. Independência – as observações não podem estar correlacionadas indevidamente.
  4. Escala intervalar ou de razão – precisam ser dados numéricos contínuos (ex.: altura, tempo, tamanho de banco de dados em GB).

🔹 Comparação com dados não paramétricos

  • Paramétricos: mais poderosos, mas exigem que os pressupostos sejam atendidos.
  • Não paramétricos: usados quando os dados não seguem normalidade ou não têm variâncias iguais (ex.: teste de Mann-Whitney, teste de Kruskal-Wallis).

Testes de Hipótese para dados Paramétricos (pressupõem normalidade dos dados):

OBS: para utilizar testes paramétricos , antes deve realizar teste de normalidade !!! (Ex. Shapiro-wilk-amostras pequenas < 30)

  • Teste para a média (com variância conhecida)
  • Teste para a média (com variância desconhecida)
  • Teste para a variância
  • Teste t pareado (comparação de médias em duas amostras dependentes)
  • Teste t independente (comparação de médias em duas amostras independentes)
  • ANOVA (comparação de médias em três ou mais grupos independentes)
  • Teste para comparação de variâncias

No quadro de decisão em testes de hipótese em formato de imagem, com destaque visual:

  • Erro Tipo I (α) em vermelho claro → rejeitar H₀ quando ela é verdadeira.
  • Erro Tipo II (β) em amarelo claro → não rejeitar H₀ quando ela é falsa.
  • As demais situações mostram as decisões corretas.

🚀 Passos para Realizar um Teste de Hipóteses

  1. Definir a variável em estudo
    • Identificar qual parâmetro será avaliado (média, variância, proporção etc.).
  2. Definir as hipóteses
    • Hipótese nula (H₀): não há efeito/diferença (hipótese padrão).
    • Hipótese alternativa (H₁): existe efeito/diferença.
  3. Escolher o nível de significância (α)
    • Probabilidade de cometer Erro Tipo I.
    • Valor comum: α = 0,05 (5%).
  4. Selecionar o teste estatístico
    • Depende do tipo de dado e do problema:
      • Teste z → variância conhecida e amostra grande.
      • Teste t → variância desconhecida ou amostra pequena.
      • ANOVA, Qui-quadrado, F de Snedecor, etc.
  5. Calcular a estatística de teste
    • Usar a fórmula do teste escolhido.
    • Comparar com valores críticos ou p-valor.

🧪 Testes de Hipótese para a Média Populacional:

Distribuição usada:

  • Se σ (variância populacional) é desconhecidateste t de Student (mais comum).
  • Se σ é conhecida → pode-se usar o teste Z.

Para verificar se a média populacional μ é igual a um valor específico μ0​:


🔹 Teste bicaudal (duas caudas)

  • H₀: μ=μ0
  • H₁: μ≠μ0
    👉 Usado quando queremos detectar qualquer diferença (maior ou menor).

🔹 Teste unicaudal superior (uma cauda à direita)

  • H₀: μ=μ0
  • H₁: μ>μ0
    👉 Usado quando queremos verificar se a média é maior que μ0​.

🔹 Teste unicaudal inferior (uma cauda à esquerda)

  • H₀: μ=μ0
  • H₁: μ<μ0
    👉 Usado quando queremos verificar se a média é menor que μ0.

🧪 Teste para a Variância Populacional (qui-quadrado):

Ele é a versão análoga ao que vimos para a média, mas aqui usamos como estatística de teste a qui-quadrado .

Distribuição usada:

  • Porem assumimos que a média é conhecida e a variância que é desconhecida.

Seguem os gráficos das regiões críticas para o teste de variância usando a distribuição qui-quadrado:

Teste unicaudal inferior → rejeita H0 se χ2 cair na cauda esquerda.

Teste bicaudal → rejeita H0 se χ2 cair nas extremidades (caudas vermelhas).

Teste unicaudal superior → rejeita H0 se χ2 cair na cauda direita.

Resumo:

Inferência estatistíca

Parâmetros, estimadores e distribuição.

  • Parâmetro são desconhecidos e queremos estimar.
  • Estimador é uma função da amostra, ele é uma variável aleatória que varia com a amostra.
  • Distribuição amostrais dos estimadores.

Exemplo:

Suponha que temos uma população com distribuição normal cuja média μ e desvio-padrão σ .

Abaixo vamos ver:

  • Viés;
  • Consistência;
  • Eficiência.

Distribuição amostral média:

É a distribuição de probabilidades de todas as médias amostrais possíveis de um certo tamanho (n) retiradas de uma população .

Exemplo: Se você tirar várias amostras de tamanho 10 de uma população, você obterá várias médias. A distribuição dessas médias é a distribuição amostral da média.

Exercicio:

Definição da População: Considera-se uma urna contendo três bolinhas numeradas de 1, 2 e 3. Esta é a população.

Definição da Amostra: . É retirada uma amostra aleatória com reposição de duas bolinhas da urna.O tamanho da amostra é n=2.

Possíveis Amostras e Suas Médias:

Listagem das Amostras: . Todas as combinações possíveis de duas bolinhas com reposição são listadas.

O espaço amostral 𝑆 é dado por:

S={(1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)}
O número total de amostras possíveis é :

Estimador não viesado:

Um estimador é não enviesado , se em média, não está tedendo a superestimar ou subestimar o verdadeiro valor do parâmetro.

A distribuição amostral da média, ou média amostral (X̄), é a distribuição de todas as médias possíveis de amostras aleatórias de um determinado tamanho (n) extraídas de uma população. Este estimador é não viesado porque o seu valor esperado é igual à média populacional (µ). A distribuição amostral da média, graças ao Teorema do Limite Central, tende a ser aproximadamente normal, mesmo que a população original não seja normal, especialmente para amostras grandes. 

Por que a média amostral (X̄) é um estimador não viesado? 

  • Um estimador é não viesado (ou não viciado) se o seu valor esperado é igual ao parâmetro populacional que ele está a tentar estimar. 
  • No caso da média, o valor esperado da média amostral é igual à média populacional (E(X̄) = µ). 
  • Isso significa que, em média, a média amostral não tende a superestimar ou subestimar a verdadeira média da população. 

Consistência do Estimador:

  • Definição: Um estimador é consistente se, ao aumentar o tamanho da amostra (n), o seu valor se aproxima cada vez mais do valor real do parâmetro populacional que ele tenta estimar. 
  • Como funciona: Para um estimador da média ser consistente:
    • A esperança (valor esperado) deve tender ao parâmetro: Ou seja, em média, o estimador deve se aproximar do valor real da média populacional, mesmo com a variabilidade natural das amostras. 
    • A variância deve tender a zero: À medida que n aumenta, a dispersão dos valores do estimador deve diminuir, indicando que os valores obtidos com amostras maiores estão mais concentrados em torno do parâmetro populacional.

Em resumo:

Estimador Não Viesado, mas Não Consistente

  • Definição: Um estimador não viesado tem o seu valor esperado igual ao verdadeiro parâmetro populacional (E(T) = θ). Um estimador não consistente tem a sua variância que não tende a zero à medida que o tamanho da amostra cresce. 
  • Exemplo: Considere a variância de uma população, σ². Um estimador para ela pode ser obtido usando a média de frequência amostral, que é o estimador de variância tendencioso do livro e sua amostra. 

Estimador Viesado, mas Consistente

  • Definição: Um estimador viesado tem um viés não nulo, ou seja, o seu valor esperado não é igual ao parâmetro real. Um estimador consistente tem a sua variância que tende a zero à medida que o tamanho da amostra se aproxima do infinito. 
  • Exemplo: Um estimador da variância populacional, σ², usando o denominador de n, pode ser usado para a variância da amostra. Este estimador tem um viés, mas é consistente. 

Como Identificar Estimadores Não Viesados e Consistentes

  • Um estimador é não viesado se E(T) = θ, e é consistente se a variância de T tende a zero quando o tamanho da amostra n tende ao infinito. 
  • Em geral, os estimadores não viesados e consistentes são preferíveis, pois fornecem estimativas mais precisas e não tendem a subestimar ou superestimar o parâmetro ao longo do tempo. 
  • Variância Pequena (Eficiência): 
    Um bom estimador deve ser consistente e ter uma variância pequena, significando que a variância do estimador tende a zero quando o tamanho da amostra é grande. 

Eficiência do Estimador:

Variância Pequena (Eficiência): 
Um bom estimador deve ser consistente e ter uma variância pequena, significando que a variância do estimador tende a zero quando o tamanho da amostra é grande. 

Erro quadratico médio (MSE):

Soma da variância do estimador + o viés ao quadrado do estimador, fornecendo uma maneira útil de calcular o MSE e implicando que, no caso de estimadores não tendenciosos, o MSE e a variância são equivalentes. MSE ⁡ ( θ ^ ) = Var θ ⁡ ( θ ^ ) + Bias ⁡ ( θ ^ , θ ) 2.

  • O quadrado do vies: o quanto o estimador está longe do valor verdadeiro.
  • A variância: o quanto o estimador pode variar em diferentes amostras da população.

Máxima Verossimilhança (MLE):

A “máxima verossimilhança” (ou Estimativa de Máxima Verossimilhança – MLE) é um método estatístico para estimar os parâmetros de um modelo probabilístico, procurando os valores que tornam os dados observados o mais prováveis possível.

o principio da verossimilhança afirma que devemos escolher aquele valor do parâmetro desconhecido que maximiza a probabilidade de obter a amostra particular observada, ou seja, o valor que torna aquela amostra a “mais provável”. Exemplo de Verossimilhança: A função de verossimilhança para estimar a probabilidade de um pouso de uma moeda sem conhecimento prévio de seu lançamento.

Verossimilhança vs. Probabilidade

“Não confunda verossimilhança com probabilidade. Enquanto a probabilidade mede a chance de observar dados específicos dado um conjunto de parâmetros, a verossimilhança mede a plausibilidade de um conjunto de parâmetros dado os dados observados. Em outras palavras, a verossimilhança é uma função dos parâmetros, enquanto a probabilidade é uma função dos dados. Essa distinção é crucial para a correta aplicação de métodos estatísticos.”

site: https://estatisticafacil.org/glossario/o-que-e-verossimilhanca-entenda-o-conceito/, acesso 25 setembro de 2025.

site: https://pt.scribd.com/document/838190048/Estimadores-de-Ma-xima-Verossimilhanc-a, acesso 25 setembro 2025.

Intervalo de confiança:

“O intervalo de confiança é um intervalo numérico construído ao redor da estimativa de um parâmetro. Ele utiliza um procedimento que, ao ser repetido em várias amostras hipotéticas, gera intervalos contendo o valor verdadeiro do parâmetro em X% dos casos.

Vamos dividir essa definição em partes. Primeiramente, o intervalo de confiança possui limites inferior e superior, calculados ao redor da estimativa de um parâmetro, θ-chapéu.”

Lima, M. (2024, 18 de dezembro). O que é intervalo de confiança? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-intervalo-de-confianca.

Intervalo de confiança para média com variância conhecida:

Para um intervalo de confiança da média populacional (μ) com variância (σ²) conhecida, utiliza-se a distribuição normal e a fórmula: x̄ ± Z * (σ/√n), onde x̄ é a média amostral, Z é o valor crítico da distribuição normal para o nível de confiança desejado (ex: 1,96 para 95% de confiança), σ é o desvio padrão populacional e n é o tamanho da amostra.

Intervalo de confiança para média com variância desconhecida:

Para construir um intervalo de confiança para a média populacional com variância desconhecida, usa-se a distribuição t de Student em vez da distribuição normal padrão, pois a variância populacional é desconhecida e, geralmente, trabalha-se com amostras pequenas. A fórmula do intervalo é a média amostral mais ou menos o produto do valor t de Student (determinado pelo nível de confiança e graus de liberdade) pela margem de erro, que é o desvio padrão amostral dividido pela raiz quadrada do tamanho da amostra. 

Passos para calcular o intervalo de confiança:

  1. Determinar o nível de confiança: Geralmente são 90%, 95% ou 99%.
  2. Calcular os graus de liberdade (gl): Em geral, gl = n – 1, onde n é o tamanho da amostra.
  3. Encontrar o valor t de Student: Utilize uma tabela t de Student ou software estatístico com base no nível de confiança e nos graus de liberdade.
  4. Calcular o desvio padrão amostral (s): Esta é a medida da variabilidade da amostra.
  5. Calcular o erro padrão da média: Divida o desvio padrão amostral pela raiz quadrada do tamanho da amostra (n).
  6. Calcular a margem de erro: Multiplique o valor t de Student pelo erro padrão da média.
  7. Construir o intervalo: Some e subtraia a margem de erro da média amostral (x̄) para obter os limites inferior e superior do intervalo. 

Exemplo prático:
Assumindo que você tem uma amostra de tamanho n, com média  e desvio padrão s, e deseja um intervalo de confiança de 95%: 

  • Cálculo:
  • x̄ ± t * (s / √n). 

site: https://est.ufmg.br/~marcosop/est031/aulas/Capitulo_8_1.pdf, acesso 25 de setembro de 2025.

Teorema do Limite Central

“O Teorema Central do Limite nos diz que conforme o tamanho da amostra aumenta, a distribuição amostral da média aproxima-se cada vez mais de uma distribuição normal. Portando a ideia é retirar várias amostras de uma mesma população, tomando a média de cada uma delas. A distribuição dessas médias é que tenderá a uma distribuição normal.” site: https://cursos.alura.com.br/forum/topico-teorema-do-limite-central-explicacao-148382, acesso 16 de setembro de 2025.

Principais Conceitos

  • Distribuição Amostral da Média: É a distribuição de todas as possíveis médias amostrais que podem ser obtidas ao tirar amostras de uma população. 
  • Independência e Distribuição Idêntica: As variáveis aleatórias devem ser independentes umas das outras e terem a mesma distribuição. 
  • Distribuição Normal: Uma distribuição de probabilidade simétrica em forma de sino, caracterizada por sua média e desvio padrão. 

Condições do Teorema 

  • O tamanho da amostra deve ser suficientemente grande. Geralmente, uma amostra com 30 ou mais observações é considerada adequada.
  • A população da qual as amostras são tiradas deve ter uma média e um desvio padrão bem definidos.

site: https://pt.wikipedia.org/wiki/Teorema_central_do_limite, acesso 17 setembro 2025.

Variáveis aleatórias bidimensionais

Variável aleatória conjunta de duas variáveis 𝑋1 e 𝑋2?
Queremos observar conjunto de par de variáveis (𝑋1,𝑋2)

número de “caras” na primeira e na segunda jogadas de uma moeda.

site: https://www.ime.usp.br/~yambar/MAE0219/Aula%209%20Modelos%20Bidimensionais%20I/Aula%209%20Bidimensionais%20I.pdf, acesso 17 setembro 2025.

Modelos probabilidade

Discretos

Bernoulli – 1 ou 0 (Ex. sim ou não ou sucesso ou não sucesso):

A probabilidade de X assumir um determinado valor x (0 ou 1) é dada por P(X = x) = px(1-p)1-x

Exemplo:

Um inspetor de qualidade extrai uma amostra aleatória de 10
tubos armazenados num depósito onde, de acordo com os padrões
de produção, se espera um total de 20% de tubos defeituosos.
Qual é a probabilidade de que não mais do que 2 tubos extraídos
sejam defeituosos?
Se X denotar a variável “número de tubos defeituosos em 10
extrações independentes e aleatórias”, qual o seu valor esperado?
Qual a variância?

Note que a variável aleatória X = número de tubos defeituosos em
10 extrações tem distribuição binomial, com parâmetros n = 10 e
p = 0,2. Portanto, “não mais do que dois tubos defeituosos” é o
evento {X ≤ 2}. Sabemos que, para X ∼ b(10 , 0,2)

Se X ∼ b(n, p), então
E(X) = np Var(X) = np(1 − p)
Basta então aplicar os valores fornecidos para vermos que o
n´umero esperado de tubos defeituosos num experimento com 10
extrações é de 2, e que a variância é de 1,6.

Binomial:

A distribuição binomial é usada para calcular a probabilidade de obter um certo número de “sucessos” em um número fixo de “tentativas” (ensaios de Bernoulli), onde cada tentativa tem apenas dois resultados possíveis e os resultados são independentes.

Fórmula:

  • n: O número total de tentativas.
  • k: O número de sucessos desejados.
  • p: A probabilidade de sucesso em uma única tentativa.
  • q (ou 1-p): A probabilidade de fracasso em uma única tentativa.

Como usar a fórmula:

A fórmula geral da distribuição binomial é: P(X=k) = C(n, k) * p^k * q^(n-k) 

Onde: 

  • P(X=k): A probabilidade de obter exatamente k sucessos.
  • C(n, k): O coeficiente binomial, que representa o número de combinações de escolher k sucessos em n tentativas.
  • p^k: A probabilidade de k sucessos.
  • q^(n-k): A probabilidade de (n-k) fracassos.

Poisson:

média e variância valores iguais.

Resumo:

A Distribuição de Bernoulli descreve o resultado de um único ensaio com dois resultados possíveis (sucesso ou fracasso); 

A Distribuição Binomial modela a soma de vários ensaios de Bernoulli independentes, contando o número de sucessos; 

A Distribuição de Poisson lida com a probabilidade de um certo número de eventos ocorrerem num intervalo fixo de tempo ou espaço, sendo útil para eventos raros.

Continuos

Uniforme: é um modelo de probabilidade onde cada resultado possível dentro de um determinado intervalo tem a mesma probabilidade de ocorrer.

Distribuição normal: uma distribuição contínua e simétrica ao redor da média, a maioria dos valores tende a se agrupar ao redor da média e valores que se afastam da média (para mais ou para menos) tendem a ser menos frequentes.

site: https://www.blog.psicometriaonline.com.br/distribuicao-normal/, acesso 16 setembro 2025.

Normal padrão:uma distribuição normal teórica especial, cuja média é 0 e o desvio-padrão é 1.

Exponencial:

É uma distribuição de probabilidade contínua que modela o tempo até a ocorrência de um evento em um processo de Poisson, ou seja, eventos que acontecem de forma independente e a uma taxa constante. Ela descreve a probabilidade de um evento ter uma duração ou ocorrer dentro de um certo tempo, sendo muito usada em áreas como análise de confiabilidade (tempo de vida de componentes) e tempos de espera. 

Exemplo: você quer saber a probabilidade de um aparelho eletrônico continuar funcionando após 3 anos, sabendo que, em média, ele dura 2 anos. A probabilidade de ele continuar funcionando diminui com o passar do tempo, o que é uma característica da distribuição exponencial. 

site: https://www.youtube.com/watch?v=87dvB9v1pRI, acesso 16 de setembro de 2025.

t-student

Parecida com a normal , mas com a cauda mais “pesada”, indicando uma maior probabilidade de ocorrerem valores extremos, mas aproxima-se da distribuição normal à medida que o número de graus de liberdade aumenta.

É uma distribuição de probabilidade em forma de sino, semelhante à distribuição normal, mas utilizada quando se trabalha com amostras pequenas ou com a variância populacional desconhecida.

  • Amostras pequenas: É a escolha ideal quando o tamanho da amostra é pequeno (geralmente inferior a 30 observações). 
  • Variância populacional desconhecida: Utiliza-se quando não se sabe o desvio padrão ou a variância da população. 

Qui-quadrado

é uma distribuição de probabilidade contínua usada em inferência estatística para testes de hipóteses, especialmente para avaliar se os dados observados se ajustam a uma distribuição esperada (teste de aderência) ou para testar a independência entre variáveis categóricas. Caracteriza-se por ser assimétrica à direita e definida por um parâmetro chamado graus de liberdade (k). 

F de Fisher-Snedecor

é uma distribuição de probabilidade de variáveis contínuas, definida como a razão de duas variáveis aleatórias independentes com distribuição qui-quadrado, divididas pelos seus respetivos graus de liberdade. É usada principalmente para inferência sobre a razão entre duas variâncias e em técnicas estatísticas como a Análise de Variância (ANOVA), onde compara a variabilidade entre grupos com a variabilidade dentro dos grupos. 

  • Assimetria: É uma distribuição assimétrica à direita, com valores que assumem apenas valores positivos. 
  • Graus de Liberdade: É caracterizada por dois parâmetros: os graus de liberdade do numerador e do denominador, que influenciam a forma da distribuição. 

Otimização matemática

Objetivo é encontrar a melhor solução possível, onde quantifica a qualidade da solução:

Onde transforma um vetor em um numero real.

Função objetivo:

Direção de otimização, maximizar (solução fornece o maior valore possível) ou minimizar (minimiza o custo), exemplo minimizar o tempo de viagem, ou maximizar o lucro.

Otimizador Global: busca a melhor entre todas as soluções viáveis, onde busca o minimo ou maximo global.

site: https://en.wikipedia.org/wiki/Global_optimization, acesso 03 de setembro 2025.

Otimizador Local: não tão complexo comparado a achar o otimizador global (minimo ou maximo), em muitos casos buscamos o minimo ou maximo local.

Restrições:Condições que limitam as variáveis de decisão, expressas como igualdades ou desigualdades lineares (ex: disponibilidade de ingredientes, demanda máxima ou mínima de um produto). 

Álgebra linear:

Vetores:

site:https://pt.khanacademy.org/math/multivariable-calculus/thinking-about-multivariable-function/x786f2022:vectors-and-matrices/a/vectors-and-notation-mvc, acesso 2 outubro de 2025.

Matriz: linhas x colunas

site:https://pt.khanacademy.org/math/multivariable-calculus/thinking-about-multivariable-function/x786f2022:vectors-and-matrices/a/matrices–intro-mvc, acesso 2 outubro de 2025.

Produto Vetor x Matrix:

Produto Matriz x Matriz:

Transposta: inverte coluna e linhas.

Otimização Linear:

Otimização Linear, ou Programação Linear (PL), é um método matemático para tomar a melhor decisão em um problema, maximizando ou minimizando um objetivo (como lucro ou custo) sujeito a um conjunto de restrições representadas por equações lineares. Ela é aplicada na pesquisa operacional para resolver situações complexas do mundo real, como planejamento de produção, definindo as quantidades ideais de produtos a fabricar para otimizar o lucro, ou criando misturas com o menor custo possível, respeitando a disponibilidade de componentes. 

Elementos Principais:

  • Função Objetivo:Uma função matemática (linear) que expressa o objetivo do problema, como maximizar o lucro ou minimizar o custo. 
  • Variáveis de Decisão:As variáveis que precisam ser determinadas para atingir o objetivo (ex: quantidade de cada produto a ser produzida). 
  • Restrições:Condições que limitam as variáveis de decisão, expressas como igualdades ou desigualdades lineares (ex: disponibilidade de ingredientes, demanda máxima ou mínima de um produto). 

Alguns Exemplo de otimizador em python:

com a biblioteca do scipy.optimize.minimize_scalar extraimos o minimo e no código abaixo adicionamos um intervalo de limite para ele achar o minímo.

Restrições:

Exemplos de Otimização Linear:

Estatística probabilística

Probabilidade é um modo de calcular ou quantificar as chances de que um evento ocorra, isso dada todas as possíveis ocorrências.

Probabilidade sempre esta no intervalo entre 0 e 1.

Espaço amostral:

São todos os possíveis resultados de um evento aleatório. Permitindo calcular o número total de resultados possíveis.

representado pelo ômega (Ω)

site: https://app.planejativo.com/estudar/360/resumo/matematica-probabilidade-visao-geral – acesso 21/8/2025

Evento:

Subconjunto dentro do espaço amostral. Representado por conjunto. Subconjunto do espaço amostral normalmente contem os elementos que estamos tentando calcular a probabilidade dos mesmos.

Evento certo (1%) e evento impossível (0%), exemplo de evento impossível seja dado honesto a probabilidade de cair numero maior que 6 = 0%.

Referência: https://pt.khanacademy.org/math/em-mat-probabilidade/x37cb49a28da24b56:probabilidade/x37cb49a28da24b56:tipos-de-eventos/a/tipos-de-eventos

União e interseção de eventos:

A união de dois eventos A e B, denotada por A ∪ B, representa a ocorrência de pelo menos um dos eventos A ou B.

A interseção do evento A com B, denotada por A ∩ B, é a ocorrência simultânea de A e B.

Dois eventos A e B são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A ∩ B = Ø.

site: https://www.infoescola.com/matematica/probabilidade/ – acesso: 21/08/2025

Árvore de probabilidade:

Árvore de probabilidade tambem pode ser representada e calculada a probabilidade

site:https://pt.wikipedia.org/wiki/Diagrama_de_%C3%A1rvore

Exemplo:

site: https://brainly.com.br/tarefa/27704281

Probabilidade total:

É a probabilidade total para um resultado que pode ser através de vários eventos distintos.

Exemplo sendo, B um evento, teremos o teorema da probabilidade total.

Assim, a probabilidade total de B pode ser obtida pelo axioma III da probabilidade, como segue.

P(B)=P(B∩A1)+P(B∩A2)+…+P(B∩An)=n∑i=1P(B∩Ai)=n∑i=1P(B|Ai)P(Ai).

site: https://bookdown.org/rfdapaz/probabilidade/probabilidade-condicional.html – acesso: 22/08/2025

Exemplo:

site: https://www.bertolo.pro.br/AdminFin/AnalInvest/Aula040912Revisao.pdf – acesso: 22/08/2025

Teorema de Bayes

Utilizada para calcular a probabilidade do evento ocorrer dado que outro evento já aconteceu.

P(A|B) = (P(B|A) * P(A)) / P(B) 

Sendo:

  • P(A|B): é a probabilidade do evento A ocorrer dado que o evento B já ocorreu. 
  • P(B|A): é a probabilidade do evento B ocorrer dado que o evento A já ocorreu. 
  • P(A): é a probabilidade inicial do evento A acontecer (probabilidade a priori). 
  • P(B): é a probabilidade do evento B ocorrer. 

Exemplo:

Em uma cidade em que os carros são testados para emissão de poluentes, 25% deles emitem quantidade considerada excessiva. O teste falha para 99% dos carros que emitem excesso de poluentes, mas resulta positivo para 17% dos carros que não emitem quantidade excessiva. Qual é a probabilidade de um carro que falha no teste realmente emitir quantidade excessiva de poluentes?

Função massa de probabilidade (FMP) ou (PMF):

Função de massa de probabilidade de uma variável aleatória discreta X é definida como:

Para variaveis aleatórias discretas, que assumem uma contagem.

  • X é uma variável aleatória discreta,
  • x é um valor que X pode assumir,
  • p(x) é a probabilidade de que X seja igual a x.

Com as condições:

  • Valores não negativos: 0 ≤ P(X=x) ≤ 1 para qualquer valor x possível da variável.
  • Soma igual a 1: A soma das probabilidades de todos os valores possíveis de X é igual a 1 (∑P(X=x) = 1).

Exemplo:

É lançado duas moedas. Seja 𝑋 = número de caras. Qual a função massa de probabilidade (ou fmp) de X?

Espaço Amostral (Ω)

Todas as combinações possíveis ao lançar duas moedas (cada uma pode dar cara (C) ou coroa (K)): Ω={(C,C), (C,K), (K,C), (K,K)}

Vamos contar quantas caras aparecem em cada resultado:

ResultadoNúmero de Caras (X)
(C, C)2
(C, K)1
(K, C)1
(K, K)0

Então, os valores possíveis para X são:

X∈{0,1,2}

Função Massa de Probabilidade (fmp) de X

A função massa de probabilidade P(X=x)P(X = x)P(X=x) nos dá a probabilidade de cada valor de XXX:

xP(X = x)Justificativa
01/4só (K, K) tem 0 caras
12/4​=1​/2(C, K) e (K, C) têm 1 cara
21/4só (C, C) tem 2 caras

Função de Densidade de Probabilidade (fdp) ou (pdf):

f(x) ≥ 0
∫f(x)dx = 1

Variáveis aleatórias contínuas usamos a função de densidade de probabilidade (PDF).

“Densidade de uma variável aleatória contínua, é uma função que descreve a verossimilhança de uma variável aleatória tomar um valor dado. A probabilidade da variável aleatória cair em uma faixa particular é dada pela integral da densidade dessa variável sobre tal faixa – isto é, é dada pela área abaixo da função densidade mas acima do eixo horizontal e entre o menor e o maior valor dessa faixa. A função densidade de probabilidade é não negativa sempre, e sua integral sobre todo o espaço é igual a um. A função densidade pode ser obtida a partir da função distribuição acumulada a partir da operação de derivação (quando esta é derivável).”

site: https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_de_densidade_de_probabilidade, acesso 25 setembro de 2015.

Exemplo de pdf:

A variável aleatória contínua X representa a altura (em metros) de uma planta em crescimento, e segue a distribuição normal

, ou seja:

  • Média μ=1.5\mu = 1.5μ=1.5 m
  • Desvio padrão σ=0.1\sigma = 0.1σ=0.1 m

Pergunta:

Qual a probabilidade de que uma planta tenha entre 1.4 m e 1.6 m de altura?

A probabilidade de que uma planta escolhida ao acaso tenha entre 1.4 m e 1.6 m de altura é aproximadamente 68,27%, o que faz sentido — corresponde a uma faixa de ±1 desvio padrão da média numa distribuição normal.

Diferenças entre PMF e PDF:

TipoValores possíveisExemplos de variáveis
DiscretaValores inteiros contáveisnº de filhos, nº de erros, nº de caras
ContínuaValores decimais (reais) infinitos em um intervaloaltura, tempo, temperatura, peso

Valor Esperado (Esperança matemática):

“representa o valor médio “esperado” de uma experiência se ela for repetida muitas vezes”.

site: https://pt.wikipedia.org/wiki/Valor_esperado, acesso 27 agosto 2025.

Variavél discreta:

{\displaystyle E[X]=\sum _{i=1}^{\infty }x_{i}p(x_{i})}

Variável contínua:

{\displaystyle E[X]=\int _{-\infty }^{\infty }xf(x)dx}

Exemplo:

Para ilustrar o conceito de Valor Esperado, considere um jogo de dados em que um jogador ganha R$10 se tirar um número par e perde R$5 se tirar um número ímpar. As probabilidades de tirar um número par ou ímpar em um dado de seis lados são ambas de 1/2. O cálculo do Valor Esperado seria: (E(X) = (10 cdot frac{1}{2}) + (-5 cdot frac{1}{2}) = 5 – 2.5 = 2.5). Isso significa que, em média, o jogador pode esperar ganhar R$2,50 por rodada, o que ajuda a avaliar se o jogo é vantajoso ou não.

site: https://estatisticafacil.org/glossario/o-que-e-valor-esperado/, acesso 27 agosto 2025.

pipeline()

Função pipeline()

Funcionamento:

Biblioteca função pipeline(), conecta os passos do seu modelo, exemplo abaixo:

Esse modelo utiliza um modelo pré-treinado e ajustado(fine-tuned) e analisa sentimentos dos textos em ingles.

Na função pipeline() exitem outras funcionalidades, como:

  • feature-extraction (pega a representação vetorial do texto)
  • fill-mask (preenchimento de máscara)
  • ner (reconhecimento de entidades nomeadas)
  • question-answering (responder perguntas)
  • sentiment-analysis (análise de sentimentos)
  • summarization (sumarização)
  • text-generation (geração de texto)
  • translation (tradução)
  • zero-shot-classification (classificação “zero-shot”)

Exemplo da função pipeline com zero-shot. Essa pipeline zero-shot você especifica quais rotulos deseja utilizar, escolhendo especificamento nos modelo já treinados, sem precisar fazer ajuste fino do modelo nos seus dados e já retorna os scores na lista de rótulos que você escolheu.

Text-generation (geração de texto):

Nesse pipeline text-generation você passa um trecho de um texto e o modelo irá completar o restante.

Pode adicionar tambem os argumentos num_return_sequences (a quantidade de diferentes sequências são geradas) e o argumento max_length (tamanho máximo da saida-output).

Escolha de modelo no HuggingFace: https://huggingface.co/models

filtrar modelos por tarefas especificas:

Tarefas especificas e em outro idioma ou multi-lingual:

Fill-mask (preenchimento de máscara)

O pipeline mask-filling preenche algum espaço em branco por um texto:

OBS: a variavel <mask>, pode variar o modo como é chamada, exemplo no modelo bert é [MASK], verifique no modelo API antes https://huggingface.co/models?pipeline_tag=fill-mask&sort=trending

Exemplo em portugues:

NER (Reconhecimento de Entidades Nomeadas)

Reconhece as entidades, como nome, cidade, local trabalho.

no ner a função “grouped_entities=True” diz para agrupar em uma unica palavra uma entidade em uma, exemplo: “Data Science”

PER:Pessoa/Nome

LOC: Local

question-answering (extrai a resposta da pergunta)

summarization (sumarização)

Reduz o texto para um texto menor, o resumo escolhe partes importantes do texto

Tradução (translation)

Todos os códigos estão no github: https://github.com/samantaleke/LLM/blob/main/pipeline.py

Análise Estatística Espacial

“A cartografia é a ciência e arte de criar, estudar e comunicar informações espaciais por meio de mapas, cartas e outras representações gráficas da superfície terrestre. É uma disciplina que combina conhecimentos de geografia, matemática, informática e outras áreas, para representar e analisar dados espaciais de forma precisa e eficaz. “. Site: https://pt.wikipedia.org/wiki/Cartografia, acesso 15 de maio de 2025.

Geotecnologia, conjunto de tecnologias para coleta, processamento, análise e disponibilização de informação geográfica. A Geotecnologia envolve aplicação de tecnologias da informação e comunicação para a aquisição, processamento, análise e visualização de dados geoespaciais. Este campo interdisciplinar desempenha um papel crucial em diversas áreas do conhecimento, incluindo geografia, cartografia, geologia, biologia, agricultura, planejamento urbano e gestão de recursos naturais.”. Site: https://pt.wikipedia.org/wiki/Cartografia, acesso 15 de maio de 2025.

Escolha do sistemas de coodenadas.

é uma superfície matematicamente definida que se aproxima do geoide, a verdadeira figura da Terra ou qualquer outro corpo planetário

Fonte: IBGE

Fonte: https://www.ufsm.br/midias/arco/cartografia-inclusiva – acesso: 15 de maio de 2025.

Escolha a escala:

Calculo da escala:

Sazonalidade

Variações regulares e periódicas na média da série, repetições ao longo de um dia, uma semana ou um ano são comuns.

As variações geralmente são ocorrem devido a aspectos do comportamento humano ou ciclos naturais ou comportamentos convencionais da sociedade. Ex. Transito durante a semana e horários de picos.

Assim como um plot da Média Móvel para descobrir a Tendência, utilizamos o Plot sazonal para descobrir a sazonalidade.

Fourier e Periodograma

A Feature Fourier tenta capturar a forma geral da curva sazonal, ao invés de tentar capturar para cada data.

Abaixo um gráfico de venda de café, podemos ver movimentos para cima e para baixo em alguns momentos do ano.

Essas frequências que tantamos visualizar com a Feature de Fourier. As curvas são das funções trigonométricas seno e cosseno.

São pares de curvas de seno e cosseno, um par para cada frequência potencial, iniciando pela mais longa. Os pares de Fourier que modelam a sazonalidade anual teriam frequências: uma vez por ano, duas vezes por ano, três vezes por ano e assim por diante.

site https://seara.ufc.br/pt/producoes/nossas-producoes-e-colaboracoes/secoes-especiais-de-ciencia-e-tecnologia/tintim-por-tintim/matematica/as-series-de-fourier/ – acesso 12 maio 2025.

Caracteristica de Fourier com o Periodograma

Quantos pares de Fourier devemos incluir como features. O periodograma pode ajudar a responder.

O periodograma é uma ferramenta da análise espectral e mostra quais frequências estão presentes em uma série temporal e com qual intensidade.

No Periodograma o eixo-y é: (a ** 2 + b ** 2) / 2 onde a e b são os coeficientes do seno e do cosseno naquela frequência.