Multiplicação de matrizes, com os pesos corretos, ótimo predict.
Função de Ativação:
Mais utilizada é a ReLu (classificação 1 ou 0):
Outra função de ativação bem conhecida é a sigmoide.
Função Custo:
Mostra o quanto errou a sua rede, exemplo de função de custo é o erro quadrático médio, mas existem muitas outras funções de custo.
Descida do Gradiente:
Encontrar o menor valor da função custo com base nos seus pesos. Esse método se chama Backpropagation.
Por trás é baseado em calculo diferencial.
*Empiricamente as Redes Neurais Artificiais aprendem melhor com dados Normalizados, como o método min-max normalization (valor fica entre 0 e 1), aprendem melhor com numeros “menores”, provavel devido a backpropagation. Intuitivamente se eu tiver valores muito grandes terei erros muito grandes e vou propagar ele durante a rede, a ideia de normalizar é ter uma descida de gradiente mais suave, e buscar o melhor valor do vale com menor função custo.