Ferramenta Comparação de Modelos
A ferramenta Comparação de Modelos compara o desempenho de um ou mais modelos preditivos usando um conjunto de dados de validação ou de teste. Ela gera um relatório, uma tabela de medidas básicas de erro e uma tabela com resultados de previsão de cada modelo. A ferramenta oferece suporte para todos os modelos de classificação binária, nos quais a variável-alvo tem somente dois níveis, como "Sim" e "Não"; de classificação multinomial, nos quais a variável-alvo tem mais de dois níveis, como "carro", "ônibus", "trem" e "avião"; e de regressão, nos quais a variável-alvo é contínua.
Para problemas de classificação, o relatório contém a precisão geral, a precisão por classe, a pontuação F1 e a matriz de confusão de cada modelo. Para modelos de classificação binária, também são fornecidos gráficos de diagnóstico de desempenho, que incluem comparações de cada modelo na forma de um conjunto de gráficos de curva de lift, ganho, curva de precisão e de recall e curva ROC. Para modelos de regressão, o relatório inclui a correlação entre os valores previstos e os reais, a raiz do erro quadrático médio (RMSE), o erro absoluto médio (MAE), o erro médio percentual (MPE) e o erro absoluto médio percentual (MAPE) das previsões de cada modelo. Note que as medidas de MPE e MAPE não são definidas quando há algum valor zero na variável-alvo, uma vez que ambas envolvem a divisão pelo valor real de cada observação. Nesses casos, em vez do MAPE, é relatado o erro percentual absoluto ponderado (a soma dos erros absolutos dividida pela soma dos valores reais), e o MPE é substituído pela soma dos erros sobre a soma dos valores reais. Embora seja fácil inventar exemplos forçados com soma de valores-alvo igual a zero, na prática, é improvável que isso aconteça. Também é fornecido um gráfico de valores reais vs. previstos para cada modelo.
Note que, embora essa ferramenta ofereça suporte para a comparação de múltiplos modelos, os usuários também podem usar um só modelo e obter um relatório de desempenho semelhante ao caso de vários modelos. A diferença entre o relatório obtido a partir da comparação de modelos e o relatório gerado pela âncora R de uma ferramenta preditiva (por exemplo, a ferramenta Modelo de Boosting) é que o primeiro usa um conjunto de dados de teste diferente do conjunto de dados de treinamento que gerou o modelo, consequentemente, ele apresenta uma avaliação de desempenho de uma amostra externa para o modelo.
Conectar entradas
A ferramenta Comparação de Modelos exige dois fluxos de dados de entrada.
Âncora M: uma união de diferentes modelos gerados pela âncora de saída O de qualquer ferramenta preditiva do Alteryx. Para comparar mais de um modelo, combine vários objetos de modelo em um só fluxo de dados.
Âncora D: o conjunto de dados de teste, que geralmente é diferente do conjunto de dados de treinamento usado para gerar os modelos.
Configurar a ferramenta
A classe positiva na variável-alvo (somente classificação binária, opcional): como o próprio nome da opção já diz, essa configuração é opcional. Quando esse campo é deixado em branco, é usado o último valor dos nomes de classe em ordem alfabética como classe positiva.
Se a variável-alvo assumir os valores "Falso" e "Verdadeiro", por padrão, a classe positiva será "Verdadeiro", uma vez que aparece depois de "Falso" na ordem alfabética.
Restrições de opção de configuração
Para problemas de regressão, como a variável-alvo contém números contínuos, o conceito de classe não se aplica. Para modelos de classificação multinomial, o relatório fornece uma matriz de confusão completa de cada modelo, assim sendo, não faz diferença escolher ou não uma classe positiva, pois as saídas não serão afetadas. Para modelos de classificação binária, a classe positiva deve ser o resultado no qual a análise se concentra. Por exemplo, se o objetivo for determinar quais clientes têm uma probabilidade maior de responder a uma campanha de marketing direto e os valores de resposta forem "Sim" e "Não", o foco provável será nas respostas afirmativas e "Sim" deverá ser selecionado como a "classe positiva" na comparação de modelos.
Visualizar a saída
Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
Âncora E: uma tabela de medidas de erro.
Âncora P: os valores reais e os diversos valores previstos.
Âncora R: um relatório que contém as medidas de erro e um conjunto de gráficos de diagnóstico.