Ferramenta de comparação de modelos

A ferramenta comparação de modelo compara o desempenho de um ou mais modelos preditivos diferentes com base no uso de uma validação ou de um conjunto de dados de teste. Ele gera um relatório, uma tabela de medições de erro básica e uma tabela de resultados de previsão de cada modelo. A ferramenta suporta todas as classificações binárias, onde a variável de destino tem apenas dois níveis, como "Sim" e "não", multinomial classificação, onde a variável de destino tem mais de dois níveis, como "carro", "barramento", "Train" e "avião" e regressão ( variável de destino contínuo) modelos.

Para problemas de classificação, o relatório contém a exatidão geral, a exatidão por classe, a Pontuação de F1e a matriz de confusão para cada modelo. Para modelos de classificação binária, plotagens de diagnóstico de desempenho, que incluem comparações de cada modelo na forma de um conjunto de curva de elevação, gráficode ganho, curva de precisão e RECALL, e parcelas de curva Roc também são relatados. Para os modelos de regressão, o relatório inclui a correlação entre valores previstos e reais, o erro do quadrado da média raiz (RMSE), o erro absoluto médio (Mae), o erro médio da porcentagem (MPE), e a porcentagem absoluta média erro (mape) das previsões de cada modelo. Note-se que as medidas MPE e mape não são definidas se algum dos valores da variável-alvo for igual a zero, uma vez que ambos envolvem a divisão pelo valor real de cada observação. Nesses casos, o erro percentual absoluto ponderado (a soma dos erros absolutos dividido pela soma dos valores reais) é relatado em vez do mape, e o MPE é substituído pela soma dos erros sobre a soma dos valores reais. Embora seja fácil de chegar a exemplos inventados onde a soma dos valores de destino é igual a zero, isso é improvável que aconteça na prática real. Também é fornecida uma parcela de valores reais versus previsíveis para cada modelo.

Observe que, embora essa ferramenta ofereça suporte à comparação de vários modelos, os usuários também podem usar apenas um modelo e obter um relatório de desempenho semelhante ao caso de modelo múltiplo. A diferença entre o relatório obtido a partir do modelo de comparação e a saída de relatório da âncora R de uma ferramenta preditiva (por exemplo, Modelo impulsionada) é que o primeiro usa um conjunto de dados de teste que é diferente do conjunto de dados de treinamento que cria o modelo, consequentemente, ele produz uma avaliação de desempenho de exemplo para o modelo.

Ferramenta Gallery

Esta ferramenta não é instalada automaticamente com o Alteryx designer ou as ferramentas R. Para usar esta ferramenta, baixe-a da Alteryx Analytics Gallery.

Conecte entradas

A ferramenta de comparação de modelo requer dois fluxos de dados de entrada.

  • M âncora: uma União de diferentes modelos gerados por qualquer ferramenta preditiva Alteryx de saída. Para comparar mais de um modelo, combine vários objetos de modelo juntos em um único fluxo de dados.
  • D âncora: o conjunto de dados de teste, que geralmente é diferente do conjunto de dados de treinamento que foi usado para compilar o modelo (s).

Configure a ferramenta

A classe positiva na variável de destino (classificação binária somente, opcional): opcional. Quando esse valor é deixado em branco, o último valor de uma classificação alfabética dos nomes de classe é usado como a classe positiva.

Se a variável de destino assume os valores "false" e "true", em seguida, a classe positiva se torna "true" por padrão, uma vez que ele cai após "false" em uma classificação alfabética.

Restrições de opção de configuração

Para problemas de regressão, uma vez que a variável de destino contém números contínuos, o conceito de classe não se aplica. Para modelos de classificação multinomial, o relatório fornece uma matriz de confusão completa para cada modelo, assim, escolher ou não escolher uma classe positiva não afetará as saídas. Para modelos de classificação binária, a classe positiva deve ser o resultado em que a análise é focalizada. Por exemplo, se o objetivo é determinar quais clientes são mais propensos a responder a uma campanha de marketing direto, e os valores de resposta são codificados como "Sim" e "não", então o foco provável será sobre as respostas "Sim", e isso deve ser selecionado como o "positivo classe "na comparação de modelos..

Visualizar a saída

Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.

  • E âncora: uma tabela de medidas de erro.
  • P âncora: o real e os vários valores previstos.
  • R âncora: um relatório contendo as medidas de erro e um conjunto de parcelas de diagnóstico.