Skip to main content

Model Comparison Tool Icon Outil Comparaison de modèle

L'outil Comparaison de modèle compare les performances d'un ou de plusieurs modèles prédictifs différents en fonction de l'utilisation d'un jeu de données de validation (ou de test). Il génère un rapport, une table des mesures erronées de base et une table des résultats de prédiction de chaque modèle. L'outil prend en charge toutes les classifications binaires, où la variable cible n'a que deux niveaux, tels que « Oui » et « Non » ; les classifications multinomiales, où la variable cible a plus de deux niveaux ou classes, tels que « voiture », « bus », « train » et « avion » ; et les modèles de régression (variable cible continue).

Pour les problèmes de classification, le rapport indique la précision globale, la précision par classe, le score F1 et la matrice de confusion pour chaque modèle. Pour les modèles de classification binaire, des tracés de diagnostic de performances, qui incluent des comparaisons de chaque modèle sous la forme d'un ensemble de tracés de courbe de lift, de diagramme de gain, de courbe de précision et de rappel et de courbe ROC, sont également renvoyés. Pour les modèles de régression, le rapport contient la corrélation entre les valeurs prédites et les valeurs réelles, la racine de l'erreur quadratique moyenne (RMSE), l'erreur absolue moyenne (MAE), l'erreur de pourcentage moyenne (MPE) et l'erreur de pourcentage absolue moyenne (MAPE) des prédictions de chaque modèle. Il convient de noter que les mesures MPE et MAPE ne sont pas définies si l’une des valeurs de la variable cible est égale à zéro, puisque les deux mesures impliquent une division par la valeur réelle de chaque observation. Dans ces cas, l’erreur de pourcentage absolue pondérée (somme des valeurs absolues divisée par la somme des valeurs réelles) est renvoyée au lieu de la mesure MAPE, et la mesure MPE est remplacée par la somme des erreurs sur la somme des valeurs réelles. Bien qu’il soit facile d’imaginer des exemples fictifs où la somme des valeurs cibles est égale à zéro, ce cas de figure est peu probable dans la réalité. Un tracé représentant les valeurs réelles par rapport aux valeurs prédites pour chaque modèle est également fourni.

Notez que, bien que cet outil prenne en charge la comparaison de plusieurs modèles, les utilisateurs ne peuvent également utiliser qu’un seul modèle et obtenir un rapport de performances similaire à celui qui est obtenu avec des modèles multiples. La différence entre le rapport obtenu à partir de la comparaison d'un modèle et le rapport obtenu à partir de l'ancrage R d'un outil prédictif (par exemple, Modèle boosté) réside dans le fait que le premier utilise un jeu de données de test différent du jeu de données d'entraînement qui construit le modèle. En conséquence, vous obtenez un exemple d'évaluation des performances du modèle.

Connexion des entrées

L'outil Comparaison de modèles nécessite deux flux d'entrée de données.

  • Ancrage M : union de différents modèles générés par l'ancrage de sortie O de tout outil prédictif Alteryx. Pour comparer plusieurs modèles, combinez plusieurs objets de modèle dans un seul flux de données.

  • Ancrage D : jeu de données de test, généralement différent du jeu de données d'entraînement utilisé pour créer le ou les modèles.

Configuration de l'outil

La classe positive dans la variable cible (classification binaire uniquement, facultatif) : Facultatif. Si cette valeur est laissée vide, la dernière valeur de la liste des noms de classes triés par ordre alphabétique est utilisée comme la classe positive.

Si la variable cible a les valeurs « Faux » et « Vrai », la classe positive devient alors « Vrai » par défaut, puisque ce dernier vient après « Faux » dans l'ordre alphabétique.

Contraintes d'option de configuration

Pour les problèmes de régression, étant donné que la variable cible contient des valeurs numériques continues, le concept de classe ne s'applique pas. Pour les modèles de classification multinomiale, le rapport fournit une matrice de confusion complète pour chaque modèle ; en conséquence, la sélection ou la non sélection d’une classe positive n’aura pas d’impact sur les sorties. Pour le modèle de classification binaire, la classe positive doit correspondre au résultat que vise l’analyse. Par exemple, si l'objectif est de déterminer quels clients sont le plus susceptibles de répondre à une campagne de marketing direct et les valeurs de réponse sont codées par « Oui » et « Non », l'intérêt se portera alors probablement sur les réponses « Oui », qui doivent être sélectionnées comme la « classe positive » dans la comparaison de modèle.

Visualisation de la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • Ancrage E : table des mesures erronées.

  • Ancrage P : valeurs réelles et diverses valeurs prédites.

  • Ancrage R : rapport contenant les mesures erronées et un ensemble de tracés de diagnostic.