Outil Comparaison de modèle
L’outil Comparaison de modèles compare les performances d’un ou plusieurs modèles prédictifs différents en fonction de l’utilisation d’une validation ou d’un jeu de données de test. Il génère un rapport, une table des mesures erronées de base et une table des résultats de prédiction de chaque modèle. L'outil prend en charge toutes les classifications binaires, lorsque la variable cible n'a que deux niveaux, tels que «oui» et «non», classification multinominale, où la variable cible a plus de deux niveaux, tels que «voiture», «bus», «train» et «avion», et la régression ( variable cible continue).
Pour les problèmes de classification, le rapport contient la précision globale, la précision par classe, le score F1et la matrice de confusion pour chaque modèle. Pour les modèles de classification binaire, les parcelles diagnostiques de performance, qui incluent des comparaisons de chaque modèle sous la forme d'un ensemble de courbe de levage, de diagramme de gain, de courbe de précision et de rappel, et de courbes de courbe de Roc sont également rapportées. Pour les modèles de régression, le rapport inclut la corrélation entre les valeurs prédites et réelles, l' erreur quadratique moyenne ( RMSE), l' erreur absolue moyenne (MAE), l' erreur moyenne en pourcentage (MPE) et le pourcentage absolu moyen erreur (EMCP) des prédictions de chaque modèle. Il convient de noter que les mesures MPE et MAPE ne sont pas définies si l’une des valeurs de la variable cible est égale à zéro, puisque les deux mesures impliquent une division par la valeur réelle de chaque observation. Dans ces cas, l’erreur de pourcentage absolue pondérée (somme des valeurs absolues divisée par la somme des valeurs réelles) est renvoyée au lieu de la mesure MAPE, et la mesure MPE est remplacée par la somme des erreurs sur la somme des valeurs réelles. Bien qu’il soit facile d’imaginer des exemples fictifs où la somme des valeurs cibles est égale à zéro, ce cas de figure est peu probable dans la réalité. Un tracé représentant les valeurs réelles par rapport aux valeurs prédites pour chaque modèle est également fourni.
Notez que, bien que cet outil prenne en charge la comparaison de plusieurs modèles, les utilisateurs ne peuvent également utiliser qu’un seul modèle et obtenir un rapport de performances similaire à celui qui est obtenu avec des modèles multiples. La différence entre le rapport obtenu à partir de la comparaison de modèles et la production du rapport de l' ancre R d'un outil prédictif (p. ex. Modèle boosté) est que le premier utilise un jeu de données de test qui est différent du jeu de données d’apprentissage qui génère le modèle, par conséquent, il génère une évaluation de la performance de l’exemple pour le modèle.
Outil Gallery
Cet outil n'est pas installé automatiquement avec Alteryx Designer ou les outils R. Pour utiliser cet outil, téléchargez-le à partir de la Gallery Alteryx Analytics.
Connecter les entrées
L'outil de comparaison de modèles nécessite deux flux de données d'entrée.
- M ancre: une Union de différents modèles générés par l' ancrage de sortie O de l'outil prédictif Alteryx. Pour comparer plusieurs modèles, combinez plusieurs objets de modèle ensemble dans un seul flux de données.
- D ancre: le jeu de données de test, qui est généralement différent du jeu de données d’apprentissage qui a été utilisé pour générer le ou les modèles.
Configurer l’outil
La classe positive dans la variable cible (classification binaire uniquement, facultatif): facultative. Lorsque cette valeur est laissée en blanc, la dernière valeur d'un tri alphabétique des noms de classe est utilisée comme classe positive.
Contraintes d'option de configuration
Pour les problèmes de régression, puisque la variable cible contient des nombres continus, le concept de classe ne s'applique pas. Pour les modèles de classification multinomiale, le rapport fournit une matrice de confusion complète pour chaque modèle ; en conséquence, la sélection ou la non sélection d’une classe positive n’aura pas d’impact sur les sorties. Pour le modèle de classification binaire, la classe positive doit correspondre au résultat que vise l’analyse. Par exemple, si l’objectif est de déterminer quels clients sont le plus susceptibles de répondre à une campagne de marketing direct et les valeurs de réponse sont codées par « Oui » et « Non », l’intérêt se portera alors probablement sur les réponses « Oui », qui doit être sélectionné comme la « classe positive » dans la comparaison de modèle.
Afficher la sortie
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
- E ancre: tableau des mesures d'erreur.
- P ancre: la valeur réelle et les différentes valeurs prévues.
- R ancre: rapport contenant les mesures d'erreur et un ensemble de parcelles diagnostiques.