Outil Validation croisée
L'outil de validation croisée compare les performances d'un ou plusieurs modèles prédictifs générés par Alteryx à l'aide du processus de validation croisée. Il prend en charge tous les modèles de classification et de régression.
Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R.
Outil Gallery
Cet outil n'est pas installé automatiquement avec Alteryx Designer ou les outils R. Pour utiliser cet outil, téléchargez-le à partir de la Gallery Alteryx Analytics.
Parmi les modélisateurs prédictifs, la validation croisée est souvent préférable par rapport aux autres méthodes d’évaluation de modèles, car elle ne nécessite pas l’utilisation d’un jeu de test distinct et elle génère des estimations plus fiables de la qualité des modèles.
Pour tous les modèles de classification, l’outil indique la précision globale, la précision par classe et un ensemble de matrices de confusion (un pour chaque modèle). En outre, l’outil indique le score F1 et une collection de tracés de diagnostic de performances (courbe de lift, le diagramme de gain, courbes de précision versus courbes de rappel et courbe ROC) pour les modèles de classification binaire. Pour les modèles de régression, l'outil fournit généralement la corrélation entre les valeurs prédites et réelles, l' erreur quadratique moyenne de la racine (RMSE), l' erreur absolue moyenne (MAE), l' erreur moyenne en pourcentage (MPE) et la moyenne absolue pourcentage d'erreur (EMCP) des prédictions de chaque modèle. Mais si au moins une valeur cible est proche de 0, les mesures MPE et MAPE ne sont pas définies. Dans ce cas, la mesure MPE est remplacée par la somme des erreurs sur la somme des valeurs réelles, et la somme des valeurs absolues divisée par la somme des valeurs réelles (c’est-à-dire l’erreur de pourcentage absolue pondérée) remplace la mesure MAPE. En outre, l’outil fournit toujours un diagramme des valeurs réelles versus les valeurs prédites dans le cas de régression.
Connecter les entrées
L’outil Validation croisée requiert deux entrées :
- M ancre: soit un seul modèle prédit Alteryx, soit l'Union de deux ou plusieurs de ces modèles. Ces modèles doivent toujours être générés à l’aide du même jeu de données.
- D ancre: l'ensemble de données utilisé pour générer les modèles ci-dessus.
Configurer l’outil
- Nombre d'essais: saisissez le nombre de fois que vous souhaitez que la procédure de validation croisée soit répétée. En choisissant un petit nombre de tentatives, vous accélérerez l’exécution de l’outil ; toutefois, en définissant un nombre de tentatives élevé, vous obtiendrez une estimation plus fiable de la qualité de vos modèles.
- Nombre de plis: saisissez le nombre de sous-ensembles pour fractionner les données. Un compromis analogue au nombre d'essais existe également pour le nombre de plis.
-
Sélectionnez le type de modèle.
- Classification: ces modèles prédisent des catégories comme oui/non.
- Régression: ces modèles prédisent des quantités numériques comme les totaux des ventes.
- Faut-il utiliser une validation croisée stratifiée? : La validation croisée stratifiée est un type spécial de validation croisée qui crée des plis avec la même distribution de probabilité que le DataSet plus volumineux. Par exemple, dans un jeu de données où 80 % des valeurs cibles sont « Non » et 20 % sont « Oui », chaque pli comprendra grosso modo 80 % de réponses « Non » et 20 % de réponses « Oui ». La validation croisée stratifiée est souvent recommandée si la variable cible n’est pas équilibrée.
- Nom de la classe positive: (facultatif) cette option de configuration n'est pertinente que dans la classification binaire (deux classes). Certaines des mesures indiquées pour la classification binaire, telles que le score F1, exigent une distinction entre une classe positive (p. ex. « Oui ») et une classe négative (p. ex. « Non »). Toutefois, cette option de configuration n’est pas obligatoire. Si vous la laissez vide lors de l’utilisation de l’outil avec des modèles de classification binaire, l’outil choisira l’une des classes comme la classe positive.
- Valeur de la graine: pour créer des résultats reproductibles, vous pouvez sélectionner la graine utilisée par le générateur de nombres aléatoires qui dicte quels enregistrements obtenir triés dans les plis. La modification de l’amorce changera les compositions des plis.
Afficher la sortie
- D ancre: cette sortie fournit les valeurs de données réelles ainsi que leurs prédictions.
- F ancre: cette sortie signale diverses mesures de l'ajustement du modèle, selon le type de modèle.
- R ancre: rapport récapitulatif contenant les mesures d'ajustement moyennes pour chaque essai, ainsi que les graphiques où une seule courbe est présentée pour chaque modèle.