Otimização Linear – Problema da Mistura

Em busca da mistura com menos custo, ou seja, minimizar o preço.

Notação matemática:

A variável de decisão xj é a quantidade do ingrediente j.xamp;=(x1,x2,,xn)T\begin{aligned} \text{A variável de decisão } x_j \text{ é a quantidade do ingrediente } j. \\ x &= (x_1, x_2, \dots, x_n)^T \end{aligned}
O ingrediente j tem custo Cj.camp;=(C1,C2,,Cn)T\begin{aligned} \text{O ingrediente } j \text{ tem custo } C_j. \\ c &= (C_1, C_2, \dots, C_n)^T \end{aligned}
Cada ingrediente j possui proporção Aij do componente i.Aamp;=(A11amp;A12amp;amp;A1nA21amp;A22amp;amp;A2namp;amp;amp;Am1amp;Am2amp;amp;Amn)\begin{aligned} \text{Cada ingrediente } j \text{ possui proporção } A_{ij} \text{ do componente } i. \\ A &= \begin{pmatrix} A_{11} & A_{12} & \dots & A_{1n} \\ A_{21} & A_{22} & \dots & A_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ A_{m1} & A_{m2} & \dots & A_{mn} \end{pmatrix} \end{aligned}
Cada componente i possui limite mínimo Ri e máximo Si.Ramp;=(R1,R2,,Rm)TSamp;=(S1,S2,,Sm)T\begin{aligned} \text{Cada componente } i \text{ possui limite mínimo } R_i \text{ e máximo } S_i. \\ R &= (R_1, R_2, \dots, R_m)^T \\ S &= (S_1, S_2, \dots, S_m)^T \end{aligned}
  • objetivo é achar as proporções dos ingredientes que respeitem os limites e chegue ao menor custo.
Objetivo: encontrar as proporções x que minimizam o custominamp;cTxsujeito aamp;RAxSamp;x0\begin{aligned} \text{Objetivo: encontrar as proporções } x \text{ que minimizam o custo} \\ \min \quad & c^T x \\ \text{sujeito a} \quad & R \leq A x \leq S \\ & x \geq 0 \end{aligned}

Modelo:

minamp;c1x1+c2x2++cnxns.a:amp;x1+x2++xn=1amp;a1,1x1+a1,2x2++a1,nxnr1amp;a2,1x1+a2,2x2++a2,nxnr2amp;amp;am,1x1+am,2x2++am,nxnrmamp;a1,1x1+a1,2x2++a1,nxns1amp;a2,1x1+a2,2x2++a2,nxns2amp;amp;am,1x1+am,2x2++am,nxnsmamp;x1,x2,,xn0\begin{aligned} \min \quad & c_1 x_1 + c_2 x_2 + \dots + c_n x_n \\[6pt] \text{s.a:} \quad & x_1 + x_2 + \dots + x_n = 1 \\[6pt] & a_{1,1}x_1 + a_{1,2}x_2 + \dots + a_{1,n}x_n \ge r_1 \\ & a_{2,1}x_1 + a_{2,2}x_2 + \dots + a_{2,n}x_n \ge r_2 \\ & \vdots \\ & a_{m,1}x_1 + a_{m,2}x_2 + \dots + a_{m,n}x_n \ge r_m \\[6pt] & a_{1,1}x_1 + a_{1,2}x_2 + \dots + a_{1,n}x_n \le s_1 \\ & a_{2,1}x_1 + a_{2,2}x_2 + \dots + a_{2,n}x_n \le s_2 \\ & \vdots \\ & a_{m,1}x_1 + a_{m,2}x_2 + \dots + a_{m,n}x_n \le s_m \\[6pt] & x_1, x_2, \dots, x_n \ge 0 \end{aligned}

Exemplos de aplicações:

Exemplo 1)

Modelo: Alocação de Entregas com Capacidade

Contexto

Uma organização precisa distribuir entregas para centros regionais.
Cada centro deve ser atendido por exatamente um veículo.
Cada veículo tem um limite máximo de atendimentos.

O objetivo é minimizar a distância total percorrida.

from pulp import LpProblem, LpMinimize, LpVariable, lpSum, LpStatus, value, PULP_CBC_CMD
# Criar problema
modelo = LpProblem("Delivery_Allocation_Model", LpMinimize)
veiculos = ['V1', 'V2', 'V3']
locais = ['Norte', 'Sul', 'Leste', 'Oeste', 'Centro']
# Variável binária: y[v,l] = 1 se veículo v atende local l
y = LpVariable.dicts(
"assign",
[(v, l) for v in veiculos for l in locais],
cat="Binary"
)
# Matriz de custos (distâncias)
custo = {
('V1', 'Norte'): 15, ('V1', 'Sul'): 20,
('V1', 'Leste'): 10, ('V1', 'Oeste'): 25,
('V1', 'Centro'): 5,
('V2', 'Norte'): 18, ('V2', 'Sul'): 15,
('V2', 'Leste'): 12, ('V2', 'Oeste'): 22,
('V2', 'Centro'): 8,
('V3', 'Norte'): 20, ('V3', 'Sul'): 25,
('V3', 'Leste'): 15, ('V3', 'Oeste'): 18,
('V3', 'Centro'): 10,
}
# -------------------------
# Função Objetivo
# -------------------------
modelo += lpSum(custo[(v, l)] * y[(v, l)] for v in veiculos for l in locais)
# -------------------------
# Restrição 1:
# Cada local deve ser atendido exatamente uma vez
# -------------------------
for l in locais:
modelo += lpSum(y[(v, l)] for v in veiculos) == 1
# -------------------------
# Restrição 2:
# Capacidade máxima de atendimentos por veículo
# -------------------------
limite_atendimentos = {'V1': 3, 'V2': 2, 'V3': 3}
for v in veiculos:
modelo += lpSum(y[(v, l)] for l in locais) <= limite_atendimentos[v]
# Resolver
modelo.solve(PULP_CBC_CMD(msg=False))
# Resultados
print("Status:", LpStatus[modelo.status])
print("Distância total mínima:", value(modelo.objective))
for v in veiculos:
atendimentos = [l for l in locais if value(y[(v, l)]) > 0.5]
print(f"{v} atende: {', '.join(atendimentos) if atendimentos else 'Nenhum'}")
Status: Optimal
Distância total mínima: 63.0
V1 atende: Norte, Leste, Centro
V2 atende: Sul
V3 atende: Oeste

Exemplo 2)

custo mínimo para 1Kg de ração com as restrições abaixo de quantidade mínima de proteína e sódio.

Modelo com valores respectivos para Frango/Osso/Trigo, com:

  • mistura total = 1 kg
  • proteína mínima
  • sódio máximo
  • x1,x2,x30x_1, x_2, x_3 \ge 0x1​,x2​,x3​≥0

Atenção: os coeficientes como exemplo na tabela (proteína: 0.6/0.2/0.1 e sódio: 0.1/0.05/0.02; limites proteína ≥ 0.4 e sódio ≤ 0.08).

import numpy as np
from scipy.optimize import linprog
# -------------------------
# Variáveis de decisão
# x1 = kg Frango, x2 = kg Osso, x3 = kg Trigo
# -------------------------
# Função objetivo: minimizar custo
# min 5x1 + 4x2 + 6x3
c = np.array([5, 4, 6], dtype=float)
# Restrições do tipo A_ub @ x <= b_ub
# 1) Proteína mínima: 0.6x1 + 0.2x2 + 0.1x3 >= 0.4
# Convertemos para <= multiplicando por -1:
# -0.6x1 -0.2x2 -0.1x3 <= -0.4
# 2) Sódio máximo: 0.1x1 + 0.05x2 + 0.02x3 <= 0.08
A_ub = np.array([
[-0.6, -0.2, -0.1], # proteína (convertida)
[ 0.1, 0.05, 0.02], # sódio
], dtype=float)
b_ub = np.array([
-0.4, # proteína mínima
0.08, # sódio máximo
], dtype=float)
# Restrição de igualdade: x1 + x2 + x3 = 1 (mistura total)
A_eq = np.array([[1, 1, 1]], dtype=float)
b_eq = np.array([1], dtype=float)
# Limites (não negatividade): x1, x2, x3 >= 0
bounds = [(0, None), (0, None), (0, None)]
# Resolver
res = linprog(
c=c,
A_ub=A_ub, b_ub=b_ub,
A_eq=A_eq, b_eq=b_eq,
bounds=bounds,
method="highs"
)
# Resultados
if res.success:
x1, x2, x3 = res.x
print("✅ Solução ótima encontrada (custo mínimo)")
print(f"x1 (Frango) = {x1:.4f} kg")
print(f"x2 (Osso) = {x2:.4f} kg")
print(f"x3 (Trigo) = {x3:.4f} kg")
print(f"Custo mínimo = R$ {res.fun:.4f}")
# Checagem das restrições (opcional)
proteina = 0.6*x1 + 0.2*x2 + 0.1*x3
sodio = 0.1*x1 + 0.05*x2 + 0.02*x3
print("\n🔎 Checagem:")
print(f"Total = {x1 + x2 + x3:.4f} (deve ser 1)")
print(f"Proteína = {proteina:.4f} (>= 0.4)")
print(f"Sódio = {sodio:.4f} (<= 0.08)")
else:
print("❌ Não foi possível encontrar solução.")
print("Motivo:", res.message)
✅ Solução ótima encontrada (custo mínimo)
x1 (Frango) = 0.5000 kg
x2 (Osso) = 0.5000 kg
x3 (Trigo) = 0.0000 kg
Custo mínimo = R$ 4.5000
🔎 Checagem:
Total = 1.0000 (deve ser 1)
Proteína = 0.4000 (>= 0.4)
Sódio = 0.0750 (<= 0.08)

Otimização Linear – Problema da Ração

Um dos primeiros problemas utilizando Otimização Linear e métodos de pesquisa operacional.

Problema da Ração é um exemplo típico utilizado como exemplo para Otimização Linear.

Imagina que uma fabrica de ração tenha que produzir a ração animal com 3 ingredientes, como o frango, osso e trigo.

Onde abaixo teríamos um custo, apenas como exemplo, dos 3 ingredientes por Kg:

Preço R$/Kg: Frango = 5 , Osso = 4, Trigo = 6

Sendo assim as variáveis decisão serão a quantidade para cada ingrediente:

Quantidade Kg: Frango = x1, Osso = x2, Trigo = x3

  1. Função Objetivo: Queremos reduzir o custo total de cada ingrediente da ração. Portanto o custo será:

Min 𝑐𝑇𝑥′ =5×1​+4×2​+6×3​

Curiosidade: O resultado da expressão cTxc to the cap T-th power x prime é um escalar obtido pela combinação linear das derivadas das componentes do vetor

xx, resultando em: cTx=i=1ncixibold c raised to the bold cap T power bold x prime equals sum from bold i equals 1 to bold n of bold c sub bold i bold x sub bold i prime

e

2) Restrições:

Quantidade de cada ingrediente não pode ser negativa e que a produção de pelo menos 1Kg de ração.

x1 + x2+ x3 = 1 (Kg)

x1 > =0

x2 > =0

x3 > =0

NutrienteFrango (x₁)Osso (x₂)Trigo (x₃)Restrição
Proteína0.60.20.1≥ 0.4
Sódio0.10.050.02≤ 0.08
Preço Kg546= 1 kg

ou seja, restrições são:

Quantidade total:x1+x2+x3=1x_1 + x_2 + x_3 = 1

Proteína mínima:0.6x1+0.2x2+0.1x30.40.6x_1 + 0.2x_2 + 0.1x_3 \ge 0.4

Sódio máximo:0.1x1+0.05x2+0.02x30.080.1x_1 + 0.05x_2 + 0.02x_3 \le 0.08

Não negatividade:x1,x2,x30x_1, x_2, x_3 \ge 0

Abaixo está a solução em Python com linprog, Otimização para custo mínimo a cada 1Kg de ração.

import numpy as np
from scipy.optimize import linprog
# -------------------------
# Variáveis de decisão
# x1 = kg Frango, x2 = kg Osso, x3 = kg Trigo
# -------------------------
# Função objetivo: minimizar custo
# min 5x1 + 4x2 + 6x3
c = np.array([5, 4, 6], dtype=float)
# Restrições do tipo A_ub @ x <= b_ub
# 1) Proteína mínima: 0.6x1 + 0.2x2 + 0.1x3 >= 0.4
# Convertemos para <= multiplicando por -1:
# -0.6x1 -0.2x2 -0.1x3 <= -0.4
# 2) Sódio máximo: 0.1x1 + 0.05x2 + 0.02x3 <= 0.08
A_ub = np.array([
[-0.6, -0.2, -0.1], # proteína (convertida)
[ 0.1, 0.05, 0.02], # sódio
], dtype=float)
b_ub = np.array([
-0.4, # proteína mínima
0.08, # sódio máximo
], dtype=float)
# Restrição de igualdade: x1 + x2 + x3 = 1 (mistura total)
A_eq = np.array([[1, 1, 1]], dtype=float)
b_eq = np.array([1], dtype=float)
# Limites (não negatividade): x1, x2, x3 >= 0
bounds = [(0, None), (0, None), (0, None)]
# Resolver
res = linprog(
c=c,
A_ub=A_ub, b_ub=b_ub,
A_eq=A_eq, b_eq=b_eq,
bounds=bounds,
method="highs"
)
# Resultados
if res.success:
x1, x2, x3 = res.x
print("✅ Solução ótima encontrada (custo mínimo)")
print(f"x1 (Frango) = {x1:.4f} kg")
print(f"x2 (Osso) = {x2:.4f} kg")
print(f"x3 (Trigo) = {x3:.4f} kg")
print(f"Custo mínimo = R$ {res.fun:.4f}")
# Checagem das restrições (opcional)
proteina = 0.6*x1 + 0.2*x2 + 0.1*x3
sodio = 0.1*x1 + 0.05*x2 + 0.02*x3
print("\n🔎 Checagem:")
print(f"Total = {x1 + x2 + x3:.4f} (deve ser 1)")
print(f"Proteína = {proteina:.4f} (>= 0.4)")
print(f"Sódio = {sodio:.4f} (<= 0.08)")
else:
print("❌ Não foi possível encontrar solução.")
print("Motivo:", res.message)
✅ Solução ótima encontrada (custo mínimo)
x1 (Frango) = 0.5000 kg
x2 (Osso)   = 0.5000 kg
x3 (Trigo)  = 0.0000 kg
Custo mínimo = R$ 4.5000

🔎 Checagem:
Total       = 1.0000 (deve ser 1)
Proteína    = 0.4000 (>= 0.4)
Sódio       = 0.0750 (<= 0.08)

Otimização Linear

Otimização Linear:

A Programação Linear é um dos pilares da Pesquisa Operacional.

Otimização Linear, ou Programação Linear (PL), é um método matemático para tomar a melhor decisão em um problema, maximizando ou minimizando um objetivo (como lucro ou custo) sujeito a um conjunto de restrições representadas por equações lineares. Ela é aplicada na pesquisa operacional para resolver situações complexas do mundo real, como planejamento de produção, definindo as quantidades ideais de produtos a fabricar para otimizar o lucro, ou criando misturas com o menor custo possível, respeitando a disponibilidade de componentes. 

Função Objetivo é linear: min ou max da função linear abaixo.

O atributo alt desta imagem está vazio. O nome do arquivo é image-22.png

Restrições tambem linear:  Limitações de recursos (materiais, tempo, mão de obra), expressas como inequações (<= ou >=) ou equações (=) lineares.

s.a.: Ax >= b x>=0

Objetivo: Maximizar o lucro ou minimizar custos, expresso como uma função linear .

O atributo alt desta imagem está vazio. O nome do arquivo é image-23.png

Elementos Principais:

  • Função Objetivo:Uma função matemática (linear) que expressa o objetivo do problema, como maximizar o lucro ou minimizar o custo. 
  • Variáveis de Decisão:As variáveis que precisam ser determinadas para atingir o objetivo (ex: quantidade de cada produto a ser produzida). 
  • Restrições:Condições que limitam as variáveis de decisão, expressas como igualdades ou desigualdades lineares (ex: disponibilidade de ingredientes, demanda máxima ou mínima de um produto). 

Objetivos exemplos:

  1. Ter unico otimizador global.
  2. Ter infinitos otimizadores globais
  3. Ser infactivel.
  4. Ser factivel, mas sem otimizador.
  • em python podemos utilizar as bibliotecas linprog, mip, pub

1) Unica solução:

Obs: por padrao no linprog bounds = ( 0, None ), que são as restrições da “Unica solução”

2) Infinitas soluções:

Obs.: Aqui as restrições acima estão em A_eq e b_eq

3) Infactivel

4) Ilimitado

Alguns Exemplo de otimizador em python:

Exemplo:

Problema: Maximizar

Z=3x+4yZ = 3x + 4yZ=3x+4y


s.a. x+2y10x + 2y \le 10x+2y≤10, 2x+y122x + y \le 122x+y≤12, x0x\ge 0x≥0, y0y\ge 0y≥0

# prog linear interpretação geometrica
import numpy as np
import matplotlib.pyplot as plt
# grade para x
x = np.linspace(0, 8, 400)
# restrições (em forma y = ...)
y1 = (10 - x) / 2 # x + 2y = 10 -> y = (10 - x)/2
y2 = 12 - 2*x # 2x + y = 12 -> y = 12 - 2x
plt.figure(figsize=(10, 8))
# linhas das restrições
plt.plot(x, y1, label=r'$x + 2y \leq 10$', linewidth=2)
plt.plot(x, y2, label=r'$2x + y \leq 12$', linewidth=2)
# não-negatividade (eixos)
plt.axvline(0, linewidth=2) # x = 0
plt.axhline(0, linewidth=2) # y = 0
# região viável: abaixo das duas retas e acima de y=0
y_feasible = np.minimum(y1, y2)
y_feasible = np.maximum(y_feasible, 0)
plt.fill_between(x, 0, y_feasible, alpha=0.25, label='Região viável')
# vértices (calculados/confirmados)
# Interseção das retas:
# x + 2y = 10
# 2x + y = 12 -> solução: x=14/3, y=8/3
vertices = [
(0, 0),
(0, 5), # quando x=0 na 1ª restrição: 2y=10 -> y=5 (e satisfaz a 2ª)
(14/3, 8/3), # interseção
(6, 0) # quando y=0 na 2ª restrição: 2x=12 -> x=6 (e satisfaz a 1ª)
]
# função objetivo (max)
def Z(x, y):
return 3*x + 4*y
# plotar vértices e anotar valor da função objetivo
for (vx, vy) in vertices:
plt.plot(vx, vy, 'ko', markersize=8)
plt.annotate(
f'({vx:.2f}, {vy:.2f})\nZ={Z(vx, vy):.2f}',
xy=(vx, vy),
xytext=(vx + 0.25, vy + 0.25)
)
# destacar o ótimo
best = max(vertices, key=lambda p: Z(p[0], p[1]))
plt.plot(best[0], best[1], 'k*', markersize=14, label='Ótimo')
plt.xlim(-0.5, 8)
plt.ylim(-0.5, 8)
plt.xlabel('x')
plt.ylabel('y')
plt.grid(alpha=0.3)
plt.legend()
plt.title(f'Visão Geométrica: ótimo no vértice ({best[0]:.2f}, {best[1]:.2f})')
plt.show()
print("Vértice ótimo:", best, "com Z =", Z(best[0], best[1]))

Testes de Hipótese – 2

Será que nos dados da população as variáveis são relevantes para o modelo ou são mero fruto do acaso?

Parâmetros da população e Estatisticas da amostra.

site: https://www.questionpro.com/blog/pt-br/populacao-e-amostra/, acesso 26 setembro de 2025.

A variância influencia fortemente a significância.

1. Conceito de significância estatística

  • A significância vem de testes de hipótese.
  • Ela mede se um efeito observado (ex.: diferença entre médias, coeficiente de regressão, correlação) é provável de ter ocorrido por acaso ou se é um efeito consistente.
  • É expressa por meio do valor-p: quanto menor o valor-p, maior a evidência contra a hipótese nula (de “não efeito”).

2. Papel da variância

  • A variância dos dados afeta o erro padrão (desvio padrão da média ou do estimador).
  • Quanto maior a variância, maior a dispersão dos dados → maior o erro padrão → o teste estatístico perde poder → é mais difícil encontrar significância.
  • Quanto menor a variância, os dados ficam mais concentrados → menor o erro padrão → aumenta a chance de detectar um efeito como significativo (se ele existir).

Em fórmulas simplificadas, um teste t é:

E o erro padrão depende da variância:

Ou seja: se a variância (σ²) é alta, o erro é grande → t cai → p-valor aumenta → menor chance de significância.

O que são dados paramétricos?

São dados que seguem uma distribuição conhecida, geralmente a distribuição Normal (Gaussiana), ou que podem ser transformados para se aproximar dela (por exemplo, usando Box-Cox).

Quando dizemos que uma análise é paramétrica, significa que:

  • Faz suposições sobre os parâmetros da população (média, variância, etc.);
  • Assume que os dados vêm de uma distribuição específica (na maioria das vezes, normal);
  • Usa fórmulas matemáticas que dependem dessas premissas.

🔹 Exemplos de testes paramétricos

  • Teste t de Student (médias)
  • ANOVA (comparação de médias entre grupos)
  • Correlação de Pearson
  • Regressão linear

🔹 Características dos dados paramétricos

  1. Normalidade – os dados seguem (ou aproximadamente seguem) distribuição normal.
  2. Homocedasticidade – variâncias dos grupos comparados são iguais ou semelhantes.
  3. Independência – as observações não podem estar correlacionadas indevidamente.
  4. Escala intervalar ou de razão – precisam ser dados numéricos contínuos (ex.: altura, tempo, tamanho de banco de dados em GB).

🔹 Comparação com dados não paramétricos

  • Paramétricos: mais poderosos, mas exigem que os pressupostos sejam atendidos.
  • Não paramétricos: usados quando os dados não seguem normalidade ou não têm variâncias iguais (ex.: teste de Mann-Whitney, teste de Kruskal-Wallis).

Testes de Hipótese para dados Paramétricos (pressupõem normalidade dos dados):

OBS: para utilizar testes paramétricos , antes deve realizar teste de normalidade !!! (Ex. Shapiro-wilk-amostras pequenas < 30)

  • Teste para a média (com variância conhecida)
  • Teste para a média (com variância desconhecida)
  • Teste para a variância
  • Teste t pareado (comparação de médias em duas amostras dependentes)
  • Teste t independente (comparação de médias em duas amostras independentes)
  • ANOVA (comparação de médias em três ou mais grupos independentes)
  • Teste para comparação de variâncias

No quadro de decisão em testes de hipótese em formato de imagem, com destaque visual:

  • Erro Tipo I (α) em vermelho claro → rejeitar H₀ quando ela é verdadeira.
  • Erro Tipo II (β) em amarelo claro → não rejeitar H₀ quando ela é falsa.
  • As demais situações mostram as decisões corretas.

🚀 Passos para Realizar um Teste de Hipóteses

  1. Definir a variável em estudo
    • Identificar qual parâmetro será avaliado (média, variância, proporção etc.).
  2. Definir as hipóteses
    • Hipótese nula (H₀): não há efeito/diferença (hipótese padrão).
    • Hipótese alternativa (H₁): existe efeito/diferença.
  3. Escolher o nível de significância (α)
    • Probabilidade de cometer Erro Tipo I.
    • Valor comum: α = 0,05 (5%).
  4. Selecionar o teste estatístico
    • Depende do tipo de dado e do problema:
      • Teste z → variância conhecida e amostra grande.
      • Teste t → variância desconhecida ou amostra pequena.
      • ANOVA, Qui-quadrado, F de Snedecor, etc.
  5. Calcular a estatística de teste
    • Usar a fórmula do teste escolhido.
    • Comparar com valores críticos ou p-valor.

🧪 Testes de Hipótese para a Média Populacional:

Distribuição usada:

  • Se σ (variância populacional) é desconhecidateste t de Student (mais comum).
  • Se σ é conhecida → pode-se usar o teste Z.

Para verificar se a média populacional μ é igual a um valor específico μ0​:


🔹 Teste bicaudal (duas caudas)

  • H₀: μ=μ0
  • H₁: μ≠μ0
    👉 Usado quando queremos detectar qualquer diferença (maior ou menor).

🔹 Teste unicaudal superior (uma cauda à direita)

  • H₀: μ=μ0
  • H₁: μ>μ0
    👉 Usado quando queremos verificar se a média é maior que μ0​.

🔹 Teste unicaudal inferior (uma cauda à esquerda)

  • H₀: μ=μ0
  • H₁: μ<μ0
    👉 Usado quando queremos verificar se a média é menor que μ0.

🧪 Teste para a Variância Populacional (qui-quadrado):

Ele é a versão análoga ao que vimos para a média, mas aqui usamos como estatística de teste a qui-quadrado .

Distribuição usada:

  • Porem assumimos que a média é conhecida e a variância que é desconhecida.

Seguem os gráficos das regiões críticas para o teste de variância usando a distribuição qui-quadrado:

Teste unicaudal inferior → rejeita H0 se χ2 cair na cauda esquerda.

Teste bicaudal → rejeita H0 se χ2 cair nas extremidades (caudas vermelhas).

Teste unicaudal superior → rejeita H0 se χ2 cair na cauda direita.

Resumo:

Inferência estatistíca

Parâmetros, estimadores e distribuição.

  • Parâmetro são desconhecidos e queremos estimar.
  • Estimador é uma função da amostra, ele é uma variável aleatória que varia com a amostra.
  • Distribuição amostrais dos estimadores.

Exemplo:

Suponha que temos uma população com distribuição normal cuja média μ e desvio-padrão σ .

Abaixo vamos ver:

  • Viés;
  • Consistência;
  • Eficiência.

Distribuição amostral média:

É a distribuição de probabilidades de todas as médias amostrais possíveis de um certo tamanho (n) retiradas de uma população .

Exemplo: Se você tirar várias amostras de tamanho 10 de uma população, você obterá várias médias. A distribuição dessas médias é a distribuição amostral da média.

Exercicio:

Definição da População: Considera-se uma urna contendo três bolinhas numeradas de 1, 2 e 3. Esta é a população.

Definição da Amostra: . É retirada uma amostra aleatória com reposição de duas bolinhas da urna.O tamanho da amostra é n=2.

Possíveis Amostras e Suas Médias:

Listagem das Amostras: . Todas as combinações possíveis de duas bolinhas com reposição são listadas.

O espaço amostral 𝑆 é dado por:

S={(1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)}
O número total de amostras possíveis é :

Estimador não viesado:

Um estimador é não enviesado , se em média, não está tedendo a superestimar ou subestimar o verdadeiro valor do parâmetro.

A distribuição amostral da média, ou média amostral (X̄), é a distribuição de todas as médias possíveis de amostras aleatórias de um determinado tamanho (n) extraídas de uma população. Este estimador é não viesado porque o seu valor esperado é igual à média populacional (µ). A distribuição amostral da média, graças ao Teorema do Limite Central, tende a ser aproximadamente normal, mesmo que a população original não seja normal, especialmente para amostras grandes. 

Por que a média amostral (X̄) é um estimador não viesado? 

  • Um estimador é não viesado (ou não viciado) se o seu valor esperado é igual ao parâmetro populacional que ele está a tentar estimar. 
  • No caso da média, o valor esperado da média amostral é igual à média populacional (E(X̄) = µ). 
  • Isso significa que, em média, a média amostral não tende a superestimar ou subestimar a verdadeira média da população. 

Consistência do Estimador:

  • Definição: Um estimador é consistente se, ao aumentar o tamanho da amostra (n), o seu valor se aproxima cada vez mais do valor real do parâmetro populacional que ele tenta estimar. 
  • Como funciona: Para um estimador da média ser consistente:
    • A esperança (valor esperado) deve tender ao parâmetro: Ou seja, em média, o estimador deve se aproximar do valor real da média populacional, mesmo com a variabilidade natural das amostras. 
    • A variância deve tender a zero: À medida que n aumenta, a dispersão dos valores do estimador deve diminuir, indicando que os valores obtidos com amostras maiores estão mais concentrados em torno do parâmetro populacional.

Em resumo:

Estimador Não Viesado, mas Não Consistente

  • Definição: Um estimador não viesado tem o seu valor esperado igual ao verdadeiro parâmetro populacional (E(T) = θ). Um estimador não consistente tem a sua variância que não tende a zero à medida que o tamanho da amostra cresce. 
  • Exemplo: Considere a variância de uma população, σ². Um estimador para ela pode ser obtido usando a média de frequência amostral, que é o estimador de variância tendencioso do livro e sua amostra. 

Estimador Viesado, mas Consistente

  • Definição: Um estimador viesado tem um viés não nulo, ou seja, o seu valor esperado não é igual ao parâmetro real. Um estimador consistente tem a sua variância que tende a zero à medida que o tamanho da amostra se aproxima do infinito. 
  • Exemplo: Um estimador da variância populacional, σ², usando o denominador de n, pode ser usado para a variância da amostra. Este estimador tem um viés, mas é consistente. 

Como Identificar Estimadores Não Viesados e Consistentes

  • Um estimador é não viesado se E(T) = θ, e é consistente se a variância de T tende a zero quando o tamanho da amostra n tende ao infinito. 
  • Em geral, os estimadores não viesados e consistentes são preferíveis, pois fornecem estimativas mais precisas e não tendem a subestimar ou superestimar o parâmetro ao longo do tempo. 
  • Variância Pequena (Eficiência): 
    Um bom estimador deve ser consistente e ter uma variância pequena, significando que a variância do estimador tende a zero quando o tamanho da amostra é grande. 

Eficiência do Estimador:

Variância Pequena (Eficiência): 
Um bom estimador deve ser consistente e ter uma variância pequena, significando que a variância do estimador tende a zero quando o tamanho da amostra é grande. 

Erro quadratico médio (MSE):

Soma da variância do estimador + o viés ao quadrado do estimador, fornecendo uma maneira útil de calcular o MSE e implicando que, no caso de estimadores não tendenciosos, o MSE e a variância são equivalentes. MSE ⁡ ( θ ^ ) = Var θ ⁡ ( θ ^ ) + Bias ⁡ ( θ ^ , θ ) 2.

  • O quadrado do vies: o quanto o estimador está longe do valor verdadeiro.
  • A variância: o quanto o estimador pode variar em diferentes amostras da população.

Máxima Verossimilhança (MLE):

A “máxima verossimilhança” (ou Estimativa de Máxima Verossimilhança – MLE) é um método estatístico para estimar os parâmetros de um modelo probabilístico, procurando os valores que tornam os dados observados o mais prováveis possível.

o principio da verossimilhança afirma que devemos escolher aquele valor do parâmetro desconhecido que maximiza a probabilidade de obter a amostra particular observada, ou seja, o valor que torna aquela amostra a “mais provável”. Exemplo de Verossimilhança: A função de verossimilhança para estimar a probabilidade de um pouso de uma moeda sem conhecimento prévio de seu lançamento.

Verossimilhança vs. Probabilidade

“Não confunda verossimilhança com probabilidade. Enquanto a probabilidade mede a chance de observar dados específicos dado um conjunto de parâmetros, a verossimilhança mede a plausibilidade de um conjunto de parâmetros dado os dados observados. Em outras palavras, a verossimilhança é uma função dos parâmetros, enquanto a probabilidade é uma função dos dados. Essa distinção é crucial para a correta aplicação de métodos estatísticos.”

site: https://estatisticafacil.org/glossario/o-que-e-verossimilhanca-entenda-o-conceito/, acesso 25 setembro de 2025.

site: https://pt.scribd.com/document/838190048/Estimadores-de-Ma-xima-Verossimilhanc-a, acesso 25 setembro 2025.

Intervalo de confiança:

“O intervalo de confiança é um intervalo numérico construído ao redor da estimativa de um parâmetro. Ele utiliza um procedimento que, ao ser repetido em várias amostras hipotéticas, gera intervalos contendo o valor verdadeiro do parâmetro em X% dos casos.

Vamos dividir essa definição em partes. Primeiramente, o intervalo de confiança possui limites inferior e superior, calculados ao redor da estimativa de um parâmetro, θ-chapéu.”

Lima, M. (2024, 18 de dezembro). O que é intervalo de confiança? Blog Psicometria Online. https://www.blog.psicometriaonline.com.br/o-que-e-intervalo-de-confianca.

Intervalo de confiança para média com variância conhecida:

Para um intervalo de confiança da média populacional (μ) com variância (σ²) conhecida, utiliza-se a distribuição normal e a fórmula: x̄ ± Z * (σ/√n), onde x̄ é a média amostral, Z é o valor crítico da distribuição normal para o nível de confiança desejado (ex: 1,96 para 95% de confiança), σ é o desvio padrão populacional e n é o tamanho da amostra.

Intervalo de confiança para média com variância desconhecida:

Para construir um intervalo de confiança para a média populacional com variância desconhecida, usa-se a distribuição t de Student em vez da distribuição normal padrão, pois a variância populacional é desconhecida e, geralmente, trabalha-se com amostras pequenas. A fórmula do intervalo é a média amostral mais ou menos o produto do valor t de Student (determinado pelo nível de confiança e graus de liberdade) pela margem de erro, que é o desvio padrão amostral dividido pela raiz quadrada do tamanho da amostra. 

Passos para calcular o intervalo de confiança:

  1. Determinar o nível de confiança: Geralmente são 90%, 95% ou 99%.
  2. Calcular os graus de liberdade (gl): Em geral, gl = n – 1, onde n é o tamanho da amostra.
  3. Encontrar o valor t de Student: Utilize uma tabela t de Student ou software estatístico com base no nível de confiança e nos graus de liberdade.
  4. Calcular o desvio padrão amostral (s): Esta é a medida da variabilidade da amostra.
  5. Calcular o erro padrão da média: Divida o desvio padrão amostral pela raiz quadrada do tamanho da amostra (n).
  6. Calcular a margem de erro: Multiplique o valor t de Student pelo erro padrão da média.
  7. Construir o intervalo: Some e subtraia a margem de erro da média amostral (x̄) para obter os limites inferior e superior do intervalo. 

Exemplo prático:
Assumindo que você tem uma amostra de tamanho n, com média  e desvio padrão s, e deseja um intervalo de confiança de 95%: 

  • Cálculo:
  • x̄ ± t * (s / √n). 

site: https://est.ufmg.br/~marcosop/est031/aulas/Capitulo_8_1.pdf, acesso 25 de setembro de 2025.

Teorema do Limite Central

“O Teorema Central do Limite nos diz que conforme o tamanho da amostra aumenta, a distribuição amostral da média aproxima-se cada vez mais de uma distribuição normal. Portando a ideia é retirar várias amostras de uma mesma população, tomando a média de cada uma delas. A distribuição dessas médias é que tenderá a uma distribuição normal.” site: https://cursos.alura.com.br/forum/topico-teorema-do-limite-central-explicacao-148382, acesso 16 de setembro de 2025.

Principais Conceitos

  • Distribuição Amostral da Média: É a distribuição de todas as possíveis médias amostrais que podem ser obtidas ao tirar amostras de uma população. 
  • Independência e Distribuição Idêntica: As variáveis aleatórias devem ser independentes umas das outras e terem a mesma distribuição. 
  • Distribuição Normal: Uma distribuição de probabilidade simétrica em forma de sino, caracterizada por sua média e desvio padrão. 

Condições do Teorema 

  • O tamanho da amostra deve ser suficientemente grande. Geralmente, uma amostra com 30 ou mais observações é considerada adequada.
  • A população da qual as amostras são tiradas deve ter uma média e um desvio padrão bem definidos.

site: https://pt.wikipedia.org/wiki/Teorema_central_do_limite, acesso 17 setembro 2025.

Variáveis aleatórias bidimensionais

Variável aleatória conjunta de duas variáveis 𝑋1 e 𝑋2?
Queremos observar conjunto de par de variáveis (𝑋1,𝑋2)

número de “caras” na primeira e na segunda jogadas de uma moeda.

site: https://www.ime.usp.br/~yambar/MAE0219/Aula%209%20Modelos%20Bidimensionais%20I/Aula%209%20Bidimensionais%20I.pdf, acesso 17 setembro 2025.

Modelos probabilidade

Discretos

Bernoulli – 1 ou 0 (Ex. sim ou não ou sucesso ou não sucesso):

A probabilidade de X assumir um determinado valor x (0 ou 1) é dada por P(X = x) = px(1-p)1-x

Exemplo:

Um inspetor de qualidade extrai uma amostra aleatória de 10
tubos armazenados num depósito onde, de acordo com os padrões
de produção, se espera um total de 20% de tubos defeituosos.
Qual é a probabilidade de que não mais do que 2 tubos extraídos
sejam defeituosos?
Se X denotar a variável “número de tubos defeituosos em 10
extrações independentes e aleatórias”, qual o seu valor esperado?
Qual a variância?

Note que a variável aleatória X = número de tubos defeituosos em
10 extrações tem distribuição binomial, com parâmetros n = 10 e
p = 0,2. Portanto, “não mais do que dois tubos defeituosos” é o
evento {X ≤ 2}. Sabemos que, para X ∼ b(10 , 0,2)

Se X ∼ b(n, p), então
E(X) = np Var(X) = np(1 − p)
Basta então aplicar os valores fornecidos para vermos que o
n´umero esperado de tubos defeituosos num experimento com 10
extrações é de 2, e que a variância é de 1,6.

Binomial:

A distribuição binomial é usada para calcular a probabilidade de obter um certo número de “sucessos” em um número fixo de “tentativas” (ensaios de Bernoulli), onde cada tentativa tem apenas dois resultados possíveis e os resultados são independentes.

Fórmula:

  • n: O número total de tentativas.
  • k: O número de sucessos desejados.
  • p: A probabilidade de sucesso em uma única tentativa.
  • q (ou 1-p): A probabilidade de fracasso em uma única tentativa.

Como usar a fórmula:

A fórmula geral da distribuição binomial é: P(X=k) = C(n, k) * p^k * q^(n-k) 

Onde: 

  • P(X=k): A probabilidade de obter exatamente k sucessos.
  • C(n, k): O coeficiente binomial, que representa o número de combinações de escolher k sucessos em n tentativas.
  • p^k: A probabilidade de k sucessos.
  • q^(n-k): A probabilidade de (n-k) fracassos.

Poisson:

média e variância valores iguais.

Resumo:

A Distribuição de Bernoulli descreve o resultado de um único ensaio com dois resultados possíveis (sucesso ou fracasso); 

A Distribuição Binomial modela a soma de vários ensaios de Bernoulli independentes, contando o número de sucessos; 

A Distribuição de Poisson lida com a probabilidade de um certo número de eventos ocorrerem num intervalo fixo de tempo ou espaço, sendo útil para eventos raros.

Continuos

Uniforme: é um modelo de probabilidade onde cada resultado possível dentro de um determinado intervalo tem a mesma probabilidade de ocorrer.

Distribuição normal: uma distribuição contínua e simétrica ao redor da média, a maioria dos valores tende a se agrupar ao redor da média e valores que se afastam da média (para mais ou para menos) tendem a ser menos frequentes.

site: https://www.blog.psicometriaonline.com.br/distribuicao-normal/, acesso 16 setembro 2025.

Normal padrão:uma distribuição normal teórica especial, cuja média é 0 e o desvio-padrão é 1.

Exponencial:

É uma distribuição de probabilidade contínua que modela o tempo até a ocorrência de um evento em um processo de Poisson, ou seja, eventos que acontecem de forma independente e a uma taxa constante. Ela descreve a probabilidade de um evento ter uma duração ou ocorrer dentro de um certo tempo, sendo muito usada em áreas como análise de confiabilidade (tempo de vida de componentes) e tempos de espera. 

Exemplo: você quer saber a probabilidade de um aparelho eletrônico continuar funcionando após 3 anos, sabendo que, em média, ele dura 2 anos. A probabilidade de ele continuar funcionando diminui com o passar do tempo, o que é uma característica da distribuição exponencial. 

site: https://www.youtube.com/watch?v=87dvB9v1pRI, acesso 16 de setembro de 2025.

t-student

Parecida com a normal , mas com a cauda mais “pesada”, indicando uma maior probabilidade de ocorrerem valores extremos, mas aproxima-se da distribuição normal à medida que o número de graus de liberdade aumenta.

É uma distribuição de probabilidade em forma de sino, semelhante à distribuição normal, mas utilizada quando se trabalha com amostras pequenas ou com a variância populacional desconhecida.

  • Amostras pequenas: É a escolha ideal quando o tamanho da amostra é pequeno (geralmente inferior a 30 observações). 
  • Variância populacional desconhecida: Utiliza-se quando não se sabe o desvio padrão ou a variância da população. 

Qui-quadrado

é uma distribuição de probabilidade contínua usada em inferência estatística para testes de hipóteses, especialmente para avaliar se os dados observados se ajustam a uma distribuição esperada (teste de aderência) ou para testar a independência entre variáveis categóricas. Caracteriza-se por ser assimétrica à direita e definida por um parâmetro chamado graus de liberdade (k). 

F de Fisher-Snedecor

é uma distribuição de probabilidade de variáveis contínuas, definida como a razão de duas variáveis aleatórias independentes com distribuição qui-quadrado, divididas pelos seus respetivos graus de liberdade. É usada principalmente para inferência sobre a razão entre duas variâncias e em técnicas estatísticas como a Análise de Variância (ANOVA), onde compara a variabilidade entre grupos com a variabilidade dentro dos grupos. 

  • Assimetria: É uma distribuição assimétrica à direita, com valores que assumem apenas valores positivos. 
  • Graus de Liberdade: É caracterizada por dois parâmetros: os graus de liberdade do numerador e do denominador, que influenciam a forma da distribuição. 

Otimização matemática

Objetivo é encontrar a melhor solução possível, onde quantifica a qualidade da solução:

Onde transforma um vetor em um numero real.

Função objetivo:

Direção de otimização, maximizar (solução fornece o maior valore possível) ou minimizar (minimiza o custo), exemplo minimizar o tempo de viagem, ou maximizar o lucro.

Otimizador Global: busca a melhor entre todas as soluções viáveis, onde busca o minimo ou maximo global.

site: https://en.wikipedia.org/wiki/Global_optimization, acesso 03 de setembro 2025.

Otimizador Local: não tão complexo comparado a achar o otimizador global (minimo ou maximo), em muitos casos buscamos o minimo ou maximo local.

Restrições:Condições que limitam as variáveis de decisão, expressas como igualdades ou desigualdades lineares (ex: disponibilidade de ingredientes, demanda máxima ou mínima de um produto). 

Álgebra linear:

Vetores:

site:https://pt.khanacademy.org/math/multivariable-calculus/thinking-about-multivariable-function/x786f2022:vectors-and-matrices/a/vectors-and-notation-mvc, acesso 2 outubro de 2025.

Matriz: linhas x colunas

site:https://pt.khanacademy.org/math/multivariable-calculus/thinking-about-multivariable-function/x786f2022:vectors-and-matrices/a/matrices–intro-mvc, acesso 2 outubro de 2025.

Produto Vetor x Matrix:

Produto Matriz x Matriz:

Transposta: inverte coluna e linhas.

Estatística probabilística

Probabilidade é um modo de calcular ou quantificar as chances de que um evento ocorra, isso dada todas as possíveis ocorrências.

Probabilidade sempre esta no intervalo entre 0 e 1.

Espaço amostral:

São todos os possíveis resultados de um evento aleatório. Permitindo calcular o número total de resultados possíveis.

representado pelo ômega (Ω)

site: https://app.planejativo.com/estudar/360/resumo/matematica-probabilidade-visao-geral – acesso 21/8/2025

Evento:

Subconjunto dentro do espaço amostral. Representado por conjunto. Subconjunto do espaço amostral normalmente contem os elementos que estamos tentando calcular a probabilidade dos mesmos.

Evento certo (1%) e evento impossível (0%), exemplo de evento impossível seja dado honesto a probabilidade de cair numero maior que 6 = 0%.

Referência: https://pt.khanacademy.org/math/em-mat-probabilidade/x37cb49a28da24b56:probabilidade/x37cb49a28da24b56:tipos-de-eventos/a/tipos-de-eventos

União e interseção de eventos:

A união de dois eventos A e B, denotada por A ∪ B, representa a ocorrência de pelo menos um dos eventos A ou B.

A interseção do evento A com B, denotada por A ∩ B, é a ocorrência simultânea de A e B.

Dois eventos A e B são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A ∩ B = Ø.

site: https://www.infoescola.com/matematica/probabilidade/ – acesso: 21/08/2025

Árvore de probabilidade:

Árvore de probabilidade tambem pode ser representada e calculada a probabilidade

site:https://pt.wikipedia.org/wiki/Diagrama_de_%C3%A1rvore

Exemplo:

site: https://brainly.com.br/tarefa/27704281

Probabilidade total:

É a probabilidade total para um resultado que pode ser através de vários eventos distintos.

Exemplo sendo, B um evento, teremos o teorema da probabilidade total.

Assim, a probabilidade total de B pode ser obtida pelo axioma III da probabilidade, como segue.

P(B)=P(B∩A1)+P(B∩A2)+…+P(B∩An)=n∑i=1P(B∩Ai)=n∑i=1P(B|Ai)P(Ai).

site: https://bookdown.org/rfdapaz/probabilidade/probabilidade-condicional.html – acesso: 22/08/2025

Exemplo:

site: https://www.bertolo.pro.br/AdminFin/AnalInvest/Aula040912Revisao.pdf – acesso: 22/08/2025

Teorema de Bayes

Utilizada para calcular a probabilidade do evento ocorrer dado que outro evento já aconteceu.

P(A|B) = (P(B|A) * P(A)) / P(B) 

Sendo:

  • P(A|B): é a probabilidade do evento A ocorrer dado que o evento B já ocorreu. 
  • P(B|A): é a probabilidade do evento B ocorrer dado que o evento A já ocorreu. 
  • P(A): é a probabilidade inicial do evento A acontecer (probabilidade a priori). 
  • P(B): é a probabilidade do evento B ocorrer. 

Exemplo:

Em uma cidade em que os carros são testados para emissão de poluentes, 25% deles emitem quantidade considerada excessiva. O teste falha para 99% dos carros que emitem excesso de poluentes, mas resulta positivo para 17% dos carros que não emitem quantidade excessiva. Qual é a probabilidade de um carro que falha no teste realmente emitir quantidade excessiva de poluentes?

Função massa de probabilidade (FMP) ou (PMF):

Função de massa de probabilidade de uma variável aleatória discreta X é definida como:

Para variaveis aleatórias discretas, que assumem uma contagem.

  • X é uma variável aleatória discreta,
  • x é um valor que X pode assumir,
  • p(x) é a probabilidade de que X seja igual a x.

Com as condições:

  • Valores não negativos: 0 ≤ P(X=x) ≤ 1 para qualquer valor x possível da variável.
  • Soma igual a 1: A soma das probabilidades de todos os valores possíveis de X é igual a 1 (∑P(X=x) = 1).

Exemplo:

É lançado duas moedas. Seja 𝑋 = número de caras. Qual a função massa de probabilidade (ou fmp) de X?

Espaço Amostral (Ω)

Todas as combinações possíveis ao lançar duas moedas (cada uma pode dar cara (C) ou coroa (K)): Ω={(C,C), (C,K), (K,C), (K,K)}

Vamos contar quantas caras aparecem em cada resultado:

ResultadoNúmero de Caras (X)
(C, C)2
(C, K)1
(K, C)1
(K, K)0

Então, os valores possíveis para X são:

X∈{0,1,2}

Função Massa de Probabilidade (fmp) de X

A função massa de probabilidade P(X=x)P(X = x)P(X=x) nos dá a probabilidade de cada valor de XXX:

xP(X = x)Justificativa
01/4só (K, K) tem 0 caras
12/4​=1​/2(C, K) e (K, C) têm 1 cara
21/4só (C, C) tem 2 caras

Função de Densidade de Probabilidade (fdp) ou (pdf):

f(x) ≥ 0
∫f(x)dx = 1

Variáveis aleatórias contínuas usamos a função de densidade de probabilidade (PDF).

“Densidade de uma variável aleatória contínua, é uma função que descreve a verossimilhança de uma variável aleatória tomar um valor dado. A probabilidade da variável aleatória cair em uma faixa particular é dada pela integral da densidade dessa variável sobre tal faixa – isto é, é dada pela área abaixo da função densidade mas acima do eixo horizontal e entre o menor e o maior valor dessa faixa. A função densidade de probabilidade é não negativa sempre, e sua integral sobre todo o espaço é igual a um. A função densidade pode ser obtida a partir da função distribuição acumulada a partir da operação de derivação (quando esta é derivável).”

site: https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_de_densidade_de_probabilidade, acesso 25 setembro de 2015.

Exemplo de pdf:

A variável aleatória contínua X representa a altura (em metros) de uma planta em crescimento, e segue a distribuição normal

, ou seja:

  • Média μ=1.5\mu = 1.5μ=1.5 m
  • Desvio padrão σ=0.1\sigma = 0.1σ=0.1 m

Pergunta:

Qual a probabilidade de que uma planta tenha entre 1.4 m e 1.6 m de altura?

A probabilidade de que uma planta escolhida ao acaso tenha entre 1.4 m e 1.6 m de altura é aproximadamente 68,27%, o que faz sentido — corresponde a uma faixa de ±1 desvio padrão da média numa distribuição normal.

Diferenças entre PMF e PDF:

TipoValores possíveisExemplos de variáveis
DiscretaValores inteiros contáveisnº de filhos, nº de erros, nº de caras
ContínuaValores decimais (reais) infinitos em um intervaloaltura, tempo, temperatura, peso

Valor Esperado (Esperança matemática):

“representa o valor médio “esperado” de uma experiência se ela for repetida muitas vezes”.

site: https://pt.wikipedia.org/wiki/Valor_esperado, acesso 27 agosto 2025.

Variavél discreta:

{\displaystyle E[X]=\sum _{i=1}^{\infty }x_{i}p(x_{i})}

Variável contínua:

{\displaystyle E[X]=\int _{-\infty }^{\infty }xf(x)dx}

Exemplo:

Para ilustrar o conceito de Valor Esperado, considere um jogo de dados em que um jogador ganha R$10 se tirar um número par e perde R$5 se tirar um número ímpar. As probabilidades de tirar um número par ou ímpar em um dado de seis lados são ambas de 1/2. O cálculo do Valor Esperado seria: (E(X) = (10 cdot frac{1}{2}) + (-5 cdot frac{1}{2}) = 5 – 2.5 = 2.5). Isso significa que, em média, o jogador pode esperar ganhar R$2,50 por rodada, o que ajuda a avaliar se o jogo é vantajoso ou não.

site: https://estatisticafacil.org/glossario/o-que-e-valor-esperado/, acesso 27 agosto 2025.

pipeline()

Função pipeline()

Funcionamento:

Biblioteca função pipeline(), conecta os passos do seu modelo, exemplo abaixo:

Esse modelo utiliza um modelo pré-treinado e ajustado(fine-tuned) e analisa sentimentos dos textos em ingles.

Na função pipeline() exitem outras funcionalidades, como:

  • feature-extraction (pega a representação vetorial do texto)
  • fill-mask (preenchimento de máscara)
  • ner (reconhecimento de entidades nomeadas)
  • question-answering (responder perguntas)
  • sentiment-analysis (análise de sentimentos)
  • summarization (sumarização)
  • text-generation (geração de texto)
  • translation (tradução)
  • zero-shot-classification (classificação “zero-shot”)

Exemplo da função pipeline com zero-shot. Essa pipeline zero-shot você especifica quais rotulos deseja utilizar, escolhendo especificamento nos modelo já treinados, sem precisar fazer ajuste fino do modelo nos seus dados e já retorna os scores na lista de rótulos que você escolheu.

Text-generation (geração de texto):

Nesse pipeline text-generation você passa um trecho de um texto e o modelo irá completar o restante.

Pode adicionar tambem os argumentos num_return_sequences (a quantidade de diferentes sequências são geradas) e o argumento max_length (tamanho máximo da saida-output).

Escolha de modelo no HuggingFace: https://huggingface.co/models

filtrar modelos por tarefas especificas:

Tarefas especificas e em outro idioma ou multi-lingual:

Fill-mask (preenchimento de máscara)

O pipeline mask-filling preenche algum espaço em branco por um texto:

OBS: a variavel <mask>, pode variar o modo como é chamada, exemplo no modelo bert é [MASK], verifique no modelo API antes https://huggingface.co/models?pipeline_tag=fill-mask&sort=trending

Exemplo em portugues:

NER (Reconhecimento de Entidades Nomeadas)

Reconhece as entidades, como nome, cidade, local trabalho.

no ner a função “grouped_entities=True” diz para agrupar em uma unica palavra uma entidade em uma, exemplo: “Data Science”

PER:Pessoa/Nome

LOC: Local

question-answering (extrai a resposta da pergunta)

summarization (sumarização)

Reduz o texto para um texto menor, o resumo escolhe partes importantes do texto

Tradução (translation)

Todos os códigos estão no github: https://github.com/samantaleke/LLM/blob/main/pipeline.py