Unsupervised Machine Learning Análise de Correspondência Simples e Múltipla

A ANACOR (Análise de Correspondência).

Variáveis Qualitativas.
Simples 2 variáveis categóricas.
Múltipla > que 2 variáveis categóricas.

OBS: um ponto interessante é que com a Anacor e suas coordenadas, podemos transformar variáveis categóricas em métricas.

Associações estátisticamente significantes, verifica as categorias das associações, análise dessas categorias.

Podemos transformar uma variável métrica em categórica. Exemplo faixas de idade.

Objetivo é analisar pela proximidade a associação entre as variáveis.

Fonte: https://rpubs.com/rcleoni/265601, acesso 11 maio de 2026.

Verificar se existe associação e estatisticamente significantes: teste Qui-Quadrado.

Criando a tabela contingência, para verificar a contagem por variável.

Abaixo será explicado detalhadamente cada item:

Função de cada etapa da ANACOR

Etapa	Função na análise
1. Tabela de contingência	É o ponto de partida. Mostra as frequências observadas entre duas variáveis categóricas, por exemplo, Perfil do Cliente × Canal de Atendimento.
2. Frequências esperadas	Mostram quais valores seriam esperados se as duas variáveis fossem independentes, ou seja, se não houvesse associação entre elas.
3. Resíduos padronizados	Medem a diferença entre o observado e o esperado em cada célula. Indicam quais combinações ocorreram mais ou menos do que o esperado.
4. Matriz A	É construída a partir dos resíduos padronizados divididos por $\sqrt{n}$ n. Ela organiza os desvios padronizados em uma matriz preparada para a decomposição matemática.
5. Matriz /W=ATA	Resume a estrutura de associação das categorias das colunas. É a matriz usada para encontrar os autovalores e autovetores.
6. Autovalores λ	Indicam quanta informação, ou inércia, cada dimensão explica. Quanto maior o autovalor, mais importante é aquela dimensão.
7. Autovetores	Indicam a direção dos eixos fatoriais. Eles ajudam a determinar como as categorias serão posicionadas no espaço.
8. Coordenadas das categorias	Transformam as categorias em pontos no plano. Cada categoria recebe uma coordenada $X$ e $Y$ , correspondentes às dimensões 1 e 2.
9. Gráfico perceptual	Representa visualmente as categorias. Categorias próximas no gráfico tendem a estar mais associadas.

Frequências absolutas observadas

E_{ij} = \frac{n_{i+} \cdot n_{+j}}{n}

Onde:

E_{ij}

representa a frequência esperada da célula da linha $i$ i e coluna $j$ j;

n_{i+}

representa o total da linha;

n_{+j}

representa o total da coluna;

n

representa o total geral da tabela.

Exemplo de Frequências Absolutas:

Perfil do Cliente	App	Site	Telefone	Loja Física	Total
Jovem	35	20	5	10	70
Adulto	25	30	15	20	90
Idoso	5	10	25	30	70
Total	65	60	45	60	230

Duas variáveis categóricas:

Perfil do Cliente
Canal de Atendimento

Frequência esperada

Para Jovem × App:

E_{\text{Jovem, App}} = \frac{70 \cdot 65}{230}

E_{\text{Jovem, App}} = \frac{4550}{230}

E_{\text{Jovem, App}} \approx 19{,}78

Exemplo de Frequências esperadas

Perfil do Cliente	App	Site	Telefone	Loja Física
Jovem	19,78	18,26	13,70	18,26
Adulto	25,43	23,48	17,61	23,48
Idoso	19,78	18,26	13,70	18,26

Tabela de resíduos simples

O resíduo simples é calculado por:

r_{ij} = O_{ij} – E_{ij}

Onde:

O_{ij}

é a frequência observada;

E_{ij}

é a frequência esperada.

Exemplo do cálculo do resíduo simples

Para Jovem × App:

r_{\text{Jovem, App}} = 35 – 19{,}78

r_{\text{Jovem, App}} = 15{,}22

Resíduos simples

Perfil do Cliente	App	Site	Telefone	Loja Física
Jovem	15,22	1,74	-8,70	-8,26
Adulto	-0,43	6,52	-2,61	-3,48
Idoso	-14,78	-8,26	11,30	11,74

Resíduos padronizados

O resíduo padronizado é calculado por:

z_{ij} = \frac{O_{ij} – E_{ij}}{\sqrt{E_{ij}}}

Ele é mais útil do que o resíduo simples porque coloca os valores em uma escala comparável.

Exemplo do cálculo do resíduo padronizado

Para Jovem × App:

z_{\text{Jovem, App}} = \frac{35 – 19{,}78}{\sqrt{19{,}78}}

z_{\text{Jovem, App}} = \frac{15{,}22}{4{,}45}

z_{\text{Jovem, App}} \approx 3{,}42

Exemplo da Tabela de resíduos padronizados

Perfil do Cliente	App	Site	Telefone	Loja Física
Jovem	3,42	0,41	-2,35	-1,93
Adulto	-0,09	1,35	-0,62	-0,72
Idoso	-3,32	-1,93	3,05	2,75

Os maiores resíduos positivos indicam as associações mais fortes entre categorias.

Neste exemplo, os principais destaques são:

Associação	Resíduo padronizado	Interpretação
Jovem × App	3,42	Jovens usam App mais do que o esperado
Idoso × Telefone	3,05	Idosos usam Telefone mais do que o esperado
Idoso × Loja Física	2,75	Idosos usam Loja Física mais do que o esperado
Jovem × Telefone	-2,35	Jovens usam Telefone menos do que o esperado
Idoso × App	-3,32	Idosos usam App menos do que o esperado

Teste Qui-quadrado

Ele verifica se existe associação estatística entre as duas variáveis categóricas:

H_0: \text{Perfil do cliente e canal de atendimento são independentes}

H_1: \text{Perfil do cliente e canal de atendimento não são independentes}

\chi^2 = \sum \frac{(O_{ij} – E_{ij})^2}{E_{ij}}

Onde:

O_{ij}

é a frequência observada.

E_{ij}

é a frequência esperada.

Exemplo do cálculo de uma célula

Para Jovem × App:

\chi^2_{\text{Jovem, App}} = \frac{(35 – 19{,}78)^2}{19{,}78}

\chi^2_{\text{Jovem, App}} = \frac{(15{,}22)^2}{19{,}78}

\chi^2_{\text{Jovem, App}} \approx 11{,}71

Esse valor representa a contribuição da célula Jovem × App para o Qui-quadrado total.

Contribuições para o Qui-quadrado

Perfil do Cliente	App	Site	Telefone	Loja Física
Jovem	11,71	0,17	5,52	3,74
Adulto	0,01	1,81	0,39	0,52
Idoso	11,05	3,74	9,33	7,55

Somando todas as contribuições:

\chi^2 \approx 55{,}51

A fórmula dos graus de liberdade é:

gl = (l – 1)(c – 1)

Onde:

l = \text{número de linhas}

c = \text{número de colunas}

Neste Exemplo:

gl = (3 – 1)(4 – 1)

gl = 2 \times 3 = 6

Resultado do teste

Estatística	Valor
Qui-quadrado calculado	55,51
Graus de liberdade	6
p-valor	0,00000000037
Nível de significância	0,05

Como o p-valor é muito menor que 0,05:

p < 0{,}05

rejeitamos a hipótese nula de independência.

O resultado indica que existe associação estatisticamente significativa entre perfil do cliente e canal de atendimento.

Na prática, isso significa que a escolha do canal de atendimento não parece ocorrer de forma aleatória em relação ao perfil do cliente.

Os maiores responsáveis pelo valor do Qui-quadrado foram:

Associação	Contribuição
Jovem × App	11,71
Idoso × App	11,05
Idoso × Telefone	9,33
Idoso × Loja Física	7,55
Jovem × Telefone	5,52

Essas células mostram onde estão as maiores diferenças entre o observado e o esperado.

Resíduos padronizados ajustados (utilizar esse)

Após o cálculo dos resíduos padronizados, é possível aprofundar a análise utilizando os resíduos padronizados ajustados. Esses resíduos corrigem o efeito dos totais marginais das linhas e colunas, permitindo uma interpretação mais adequada da associação entre cada par de categorias.

A fórmula do resíduo padronizado ajustado é:

z_{ij}^{ajustado} = \frac{z_{ij}} {\sqrt{ \left(1 – \frac{n_{i+}}{n}\right) \left(1 – \frac{n_{+j}}{n}\right) }}

Como os resíduos padronizados ajustados se aproximam de uma distribuição normal padrão, podemos interpretar assim:

Valor do resíduo ajustado	Interpretação
Maior que 1,96	Associação positiva significativa
Menor que -1,96	Associação negativa significativa
Entre -1,96 e 1,96	Sem associação estatisticamente forte

Considerando nível de significância de 5%

|z_{ij}^{ajustado}| > 1{,}96

indica que aquela célula contribui de forma relevante para a associação entre as variáveis.

No Exemplo:

No exemplo analisado, o perfil Jovem apresentou forte associação positiva com o canal App, enquanto o perfil Idoso apresentou associação positiva com Telefone e Loja Física. Por outro lado, clientes idosos apresentaram associação negativa com o uso de App, indicando que esse canal aparece menos do que seria esperado para esse perfil.

Resíduos padronizados ajustados

Perfil do Cliente	App	Site	Telefone	Loja Física
Jovem	4,84	0,59	-3,38	-2,75
Adulto	-0,13	2,10	-0,90	-1,11
Idoso	-4,70	-2,75	4,39	3,91

Principais associações do exemplo

Associação	Resíduo ajustado	Interpretação
Jovem × App	5,12	Associação positiva forte
Idoso × Telefone	4,32	Associação positiva forte
Idoso × Loja Física	4,01	Associação positiva forte
Idoso × App	-4,96	Associação negativa forte
Jovem × Telefone	-3,32	Associação negativa forte
Jovem × Loja Física	-2,82	Associação negativa
Idoso × Site	-2,82	Associação negativa
Adulto × Site	2,08	Associação positiva

Exemplo do cálculo: Jovem × App

Primeiro, usamos o resíduo padronizado da célula:

z_{\text{Jovem, App}} = 3{,}42

Agora calculamos o ajuste da linha e da coluna.

Total da linha Jovem:

n_{i+} = 70

Total da coluna App:

n_{+j} = 65

Total geral:

n = 230

Então:

z_{\text{Jovem, App}}^{ajustado} = \frac{3{,}42} {\sqrt{ \left(1 – \frac{70}{230}\right) \left(1 – \frac{65}{230}\right) }}

z_{\text{Jovem, App}}^{ajustado} = \frac{3{,}42} {\sqrt{ (1 – 0{,}3043) (1 – 0{,}2826) }}

z_{\text{Jovem, App}}^{ajustado} = \frac{3{,}42} {\sqrt{ 0{,}6957 \times 0{,}7174 }}

z_{\text{Jovem, App}}^{ajustado} = \frac{3{,}42}{0{,}7064}

z_{\text{Jovem, App}}^{ajustado} \approx 4{,}84

Conclusões: Células com associação positiva.

As células com resíduo ajustado maior que 1,96 são:

Associação	Resíduo ajustado	Interpretação
Jovem × App	4,84	Jovens tendem a utilizar mais o App
Adulto × Site	2,10	Adultos tendem a utilizar mais o Site
Idoso × Telefone	4,39	Idosos tendem a utilizar mais o Telefone
Idoso × Loja Física	3,91	Idosos tendem a utilizar mais a Loja Física

Elaboração do mapa perceptual

Passo a passo em calculo para chegar nos eixos do mapa perceptual.

\text{Tabela observada} \rightarrow \text{Resíduos padronizados} \rightarrow \text{Matriz A} \rightarrow \text{Matriz W} \rightarrow \text{Autovalores} \rightarrow \text{Coordenadas} \rightarrow \text{Mapa perceptual}

Para a elaboração do mapa perceptual da Análise de Correspondência, inicialmente constrói-se a matriz $A$ A, formada pelos resíduos padronizados divididos pela raiz quadrada do total geral da tabela. Essa matriz representa os desvios padronizados entre as frequências observadas e esperadas.

Em seguida, calcula-se a matriz $W$ W, definida por:

W = A^T A

A partir dessa matriz, os autovalores são obtidos pela solução da equação característica:

\det(W – \lambda I) = 0

As raízes dessa equação correspondem aos autovalores, que indicam a quantidade de inércia (variância) explicada por cada dimensão. No exemplo analisado, a primeira dimensão apresentou autovalor igual a 0,2283, explicando 94,60% da inércia total. A segunda dimensão apresentou autovalor igual a 0,0130, explicando 5,40%.

Como a quantidade máxima de dimensões é dada por $m = \min(I – 1, J – 1)$ m=min(I−1,J−1), e a tabela possui três categorias nas linhas e quatro categorias nas colunas, tem-se:

m = \min(3 – 1,\ 4 – 1) = 2

Assim, o mapa perceptual pode ser representado em duas dimensões, correspondentes aos eixos $X$ e $Y$ . Cada categoria recebe uma coordenada no plano, permitindo visualizar graficamente as associações entre perfis de clientes e canais de atendimento.

Autovalor:

Na Análise de Correspondência, os autovalores indicam a quantidade de inércia explicada por cada dimensão do mapa perceptual. Essa inércia pode ser interpretada como a quantidade de informação associativa representada em cada eixo.

Exemplo:

No exemplo, observa-se proximidade entre Jovem e App, indicando associação entre clientes jovens e uso do aplicativo. O perfil Adulto aparece mais próximo de Site, enquanto o perfil Idoso aparece próximo de Telefone e Loja Física. Portanto, o mapa perceptual confirma visualmente a associação entre Perfil do Cliente e Canal de Atendimento.

1. Construção da matriz A

Primeiro, parte-se da tabela de resíduos padronizados simples, calculados por:

z_{ij} = \frac{O_{ij} – E_{ij}}{\sqrt{E_{ij}}}

Depois, cada resíduo padronizado é dividido pela raiz quadrada do total geral da tabela:

A_{ij} = \frac{z_{ij}}{\sqrt{n}}

No exemplo Perfil do Cliente × Canal de Atendimento, temos:

n = 230

Logo:

\sqrt{230} \approx 15{,}17

A matriz $A$ fica aproximadamente:

Perfil do Cliente	App	Site	Telefone	Loja Física
Jovem	0,2256	0,0268	-0,1549	-0,1275
Adulto	-0,0057	0,0887	-0,0410	-0,0473
Idoso	-0,2192	-0,1275	0,2014	0,1811

Essa matriz representa os desvios padronizados entre as frequências observadas e esperadas.

2. Construção da matriz W

Após montar a matriz $A$ , calcula-se sua transposta:

A^T

Em seguida, calcula-se a matriz $W$ :

W = A^T A

Como $A$ tem dimensão $3 \times 4$ 3×4, então:

A^T = 4 \times 3

W = 4 \times 4

A matriz $W$ W fica:

	App	Site	Telefone	Loja Física
App	0,0990	0,0335	-0,0789	-0,0682
Site	0,0335	0,0248	-0,0335	-0,0307
Telefone	-0,0789	-0,0335	0,0663	0,0582
Loja Física	-0,0682	-0,0307	0,0582	0,0513

3. Determinação dos autovalores

Com base na matriz $W$ , os autovalores são obtidos por:

\det(W – \lambda I) = 0

Onde:

é a matriz obtida por $A^T A$ ;

\lambda

representa os autovalores;

I

é a matriz identidade.

As raízes dessa equação são os autovalores.

No exemplo, os autovalores principais são:

Dimensão	Autovalor $\lambda$ λ	% da inércia
1	0,2283	94,60%
2	0,0130	5,40%
Total	0,2413	100,00%

4. Cálculo dos valores singulares

Os valores singulares são calculados pela raiz quadrada dos autovalores:

\sigma_k = \sqrt{\lambda_k}

Assim:

\sigma_1 = \sqrt{0{,}2283} \approx 0{,}4778

\sigma_2 = \sqrt{0{,}0130} \approx 0{,}1141

A tabela fica:

Dimensão	Autovalor $\lambda$ λ	% Inércia	Valor Singular $\sigma$ σ
1	0,2283	94,60%	0,4778
2	0,0130	5,40%	0,1141
Total	0,2413	100,00%

5. Quantidade máxima de dimensões

A quantidade máxima de dimensões é dada por:

m = \min(I – 1,\ J – 1)

No exemplo:

I = 3

porque existem 3 perfis:

\text{Jovem, Adulto, Idoso}

J = 4

porque existem 4 canais:

\text{App, Site, Telefone, Loja Física}

Portanto:

m = \min(3 – 1,\ 4 – 1)

m = \min(2,\ 3)

m = 2

Logo, o mapa perceptual terá no máximo duas dimensões, que serão representadas pelos eixos $X$ e $Y$ .

6. Coordenadas das categorias

Depois dos autovalores e autovetores, são calculadas as coordenadas das categorias no mapa perceptual.

Cada categoria recebe uma posição:

(x, y)

Onde:

x = \text{Dimensão 1}

y = \text{Dimensão 2}

Coordenadas dos perfis

Perfil do Cliente	Dimensão 1 / X	Dimensão 2 / Y
Jovem	0,5372	0,1154
Adulto	0,1028	-0,1402
Idoso	-0,6694	0,0649

Coordenadas dos canais

Canal de Atendimento	Dimensão 1 / X	Dimensão 2 / Y
App	0,5803	0,1156
Site	0,2489	-0,1825
Telefone	-0,5816	0,0187
Loja Física	-0,4413	0,0433

7. Interpretação do mapa perceptual

No mapa perceptual, categorias próximas indicam associação.

Neste exemplo:

Proximidade no mapa	Interpretação
Jovem próximo de App	Jovens estão mais associados ao uso do aplicativo
Adulto próximo de Site	Adultos estão mais associados ao uso do site
Idoso próximo de Telefone e Loja Física	Idosos estão mais associados a canais tradicionais

A Dimensão 1 explica 94,60% da inércia. Portanto, o eixo horizontal é o mais importante. Ele separa principalmente:

\text{Jovem e App}

de:

\text{Idoso, Telefone e Loja Física}

A Dimensão 2 explica apenas 5,40%, ajudando no ajuste visual das categorias, mas com importância menor.

1. Autovalores do nosso exemplo

Para o exemplo Perfil do Cliente × Canal de Atendimento, os autovalores foram:

Dimensão	Autovalor $\lambda$ λ	% Inércia	Valor Singular $\sigma$ σ
1	0,2283	94,60%	0,4778
2	0,0130	5,40%	0,1141
Total	0,2413	100,00%

2. Como calcular a % de inércia

Na ANACOR, a ideia é parecida com PCA: cada dimensão explica uma parte da informação total. Mas, em vez de “variância”, usamos o termo inércia, porque estamos analisando a associação entre categorias.

A fórmula é:

\% \text{Inércia da dimensão } k = \frac{\lambda_k}{\sum \lambda} \times 100

Onde:

\lambda_k

é o autovalor da dimensão analisada.

\sum \lambda

é a soma de todos os autovalores não nulos.

Aplicando no nosso exemplo

A soma dos autovalores é:

\sum \lambda = 0{,}2283 + 0{,}0130 = 0{,}2413

Para a Dimensão 1:

\% \text{Inércia}_1 = \frac{0{,}2283}{0{,}2413} \times 100

\% \text{Inércia}_1 \approx 94{,}60\%

Para a Dimensão 2:

\% \text{Inércia}_2 = \frac{0{,}0130}{0{,}2413} \times 100

\% \text{Inércia}_2 \approx 5{,}40\%

Somando:

94{,}60\% + 5{,}40\% = 100\%

Ou seja:

A Dimensão 1, representada pelo eixo $X$ , explica aproximadamente 94,60% da inércia total. Isso significa que quase toda a associação entre Perfil do Cliente e Canal de Atendimento está concentrada nesse primeiro eixo.

A Dimensão 2, representada pelo eixo $Y$ , explica aproximadamente 5,40% da inércia total. Ela ainda participa do mapa perceptual, mas tem peso muito menor na explicação da associação.

Portanto, no nosso exemplo, o eixo $X$ é muito mais importante para a interpretação do gráfico do que o eixo $Y$ .

Qual categoria é mais representativa? Calcular as massas:

Na ANACOR, as massas mostram o peso relativo de cada categoria na tabela. Em termos simples, elas indicam quais categorias têm maior participação no total da amostra.

A massa é calculada dividindo o total da linha ou da coluna pelo total geral.

1. Tabela observada

Perfil do Cliente	App	Site	Telefone	Loja Física	Total
Jovem	35	20	5	10	70
Adulto	25	30	15	20	90
Idoso	5	10	25	30	70
Total	65	60	45	60	230

O total geral é:

n = 230

2. Massas das linhas

A massa da linha é calculada por:

m_i = \frac{n_{i+}}{n}

Onde:

n_{i+}

é o total da linha, e:

é o total geral da tabela.

Tabela de massas das linhas

Perfil do Cliente	Total da linha	Massa
Jovem	70	0,3043
Adulto	90	0,3913
Idoso	70	0,3043
Total	230	1,0000

A categoria de linha mais representativa é:

\text{Adulto}

porque possui a maior massa:

0{,}3913

Ou seja, os adultos representam aproximadamente:

39{,}13\%

do total da amostra.

Tabela de massas das colunas

Canal de Atendimento	Total da coluna	Massa
App	65	0,2826
Site	60	0,2609
Telefone	45	0,1957
Loja Física	60	0,2609
Total	230	1,0000

A categoria de coluna mais representativa é:

\text{App}

porque possui a maior massa:

0{,}2826

Ou seja, o canal App representa aproximadamente:

28{,}26\%

do total de atendimentos.

As massas indicam quais categorias têm maior peso no conjunto de dados.

No exemplo:

Tipo de categoria	Categoria mais representativa	Massa	Percentual
Linha	Adulto	0,3913	39,13%
Coluna	App	0,2826	28,26%

Portanto, a categoria mais representativa entre os perfis é Adulto, enquanto a categoria mais representativa entre os canais é App.

Mas atenção: massa alta não significa necessariamente maior associação.
A massa mostra o peso da categoria na amostra. Já a associação é analisada pelos resíduos padronizados ajustados e pela posição no mapa perceptual.

AutoVetores:

Indicam a direção dos eixos fatoriais. Eles ajudam a determinar como as categorias serão posicionadas no espaço.

Função de cada etapa da ANACOR

Frequências absolutas observadas

Exemplo de Frequências Absolutas:

Frequência esperada

Exemplo de Frequências esperadas

Tabela de resíduos simples

Exemplo do cálculo do resíduo simples

Resíduos simples

Resíduos padronizados

Exemplo do cálculo do resíduo padronizado

Exemplo da Tabela de resíduos padronizados

Teste Qui-quadrado

Exemplo do cálculo de uma célula

Contribuições para o Qui-quadrado

Resultado do teste

Resíduos padronizados ajustados (utilizar esse)

Resíduos padronizados ajustados

Principais associações do exemplo

Elaboração do mapa perceptual

Autovalor:

Exemplo:

1. Construção da matriz A

2. Construção da matriz W

3. Determinação dos autovalores

4. Cálculo dos valores singulares

5. Quantidade máxima de dimensões

6. Coordenadas das categorias

Coordenadas dos perfis

Coordenadas dos canais

7. Interpretação do mapa perceptual

1. Autovalores do nosso exemplo

2. Como calcular a % de inércia

Aplicando no nosso exemplo

Qual categoria é mais representativa? Calcular as massas:

1. Tabela observada

2. Massas das linhas

Tabela de massas das linhas

Tabela de massas das colunas

AutoVetores:

Mapa Perceptual da Anacor:

Compartilhe isso:

Relacionado

Deixe um comentário Cancelar resposta