Principais caracteristicas:
- Algoritmos suscetível a “overfitting”, por isso é recomendável realizar validação cruzada (“cross validation”).
- Achar o tamanho “ideal” da árvore para assim diminuir sua complexidade e dimunuir também o overfitting, ao mesmo tempo maximizando a qualidade do modelo.
- Variável resposta quantitativa e qualitativa
Visualmente parece uma árvore com uma cascata de perguntas e probabilidade, cada pergunta é uma quebra, a ultima pergunta é a folha, e a quantidade de perguntas é a profundidade da árvore.
Impurezas: o algoritmo busca minimizar o indicador de “impureza”, testa todas as possíveis quebras binárias com todas as variáveis disponíveis. Com menor impureza. Até um critério de parada, até impureza zero por exemplo, ou só faço mais quebra se tiver 30 sobreviventes no caso do titanic sobreviventes.
Exemplo de 2 tipos para definição de impureza: (como a árvore encontra a melhor quebra)
- Gini
- Entropia de Shannon
Hiperparâmetros: são parâmetros que controlam o algoritmo como:
- Número mínimo de observações por folha
- Profundidade máxima
- CP – Custo de complexidade
CP – Custo da complexidade, deixar a arvore mais generica.
Em uma árvore para cada ponto de corte Curva-ROC tenho uma nova matrix confusão, consequentemente uma nova sensitividade e especificidade, Curva-ROC.