ML automatisé

Avertissement

L'outil ML automatisé de Alteryx Intelligence Suite est obsolète depuis la version 2022.1. Des fonctionnalités de Machine Learning automatisées similaires sont toujours disponibles avec Alteryx Machine Learning .

Utilisez l'outil ML automatisé dans le cadre d'un pipeline de machine learning pour créer automatiquement un modèle de vos données. L'outil fournit plusieurs algorithmes pour les méthodes de classification et de régression, puis évalue les algorithmes les uns par rapport aux autres avant de créer un modèle entraîné.

Alteryx Intelligence Suite requis

Cet outil fait partie de Alteryx Intelligence Suite . Intelligence Suite nécessite une licence séparée et un programme d'installation complémentaire pour Designer. Après avoir installé Designer, installez Intelligence Suite et commencez votre essai gratuit .

Composants de l'outil

L'outil ML automatisé dispose de deux ancrages.

Ancrage d'entrée : l'ancrage d'entrée se connecte aux données que vous souhaitez modéliser via l'outil ML automatisé.
Ancrage de sortie : l'ancrage de sortie transmet l'objet de modèle avec les métriques de performance associées en aval.

Configuration de l'outil

Pour utiliser l'outil ML automatisé, vous devez configurer des options pour la cible à prévoir et la méthode de machine learning à utiliser.

1. Cible

Sélectionnez une option dans la liste déroulante. Les choix incluent toutes les colonnes des données que vous avez entrées. Le type de données de chaque colonne s'affiche en regard de son nom.

2. Méthode de machine learning

L'outil ML automatisé sélectionne automatiquement la meilleure méthode de machine learning en fonction de la cible sélectionnée. Les méthodes de machine learning disponibles sont la régression et la classification. Vous avez la possibilité de sélectionner manuellement la méthode de machine learning.

La méthode de régression résout les problèmes où l'objectif est de trouver une ligne de tendance dans les données, comme prévoir la croissance du PIB. Vous pouvez également utiliser des algorithmes de régression pour décrire des associations entre des événements. Par exemple, vous pouvez utiliser cette méthode pour déterminer si les ventes d'une entreprise sont en hausse par rapport au nombre de commerciaux que cette société emploie.

La méthode de classification résout les problèmes où l'objectif est de déterminer à quelle catégorie appartient un élément de données, comme l'espèce d'une fleur. Les problèmes de classification sont soit binaires, avec deux catégories, soit multiclasses, avec plus de deux catégories. Souvent, différents algorithmes sont utilisés pour résoudre chaque type de problème de classification.

Configurer les paramètres avancés

L'outil ML automatisé dispose de différentes options que vous pouvez configurer pour modifier la façon dont l'outil évalue les algorithmes, puis en sélectionne un pour construire le meilleur modèle de machine learning.

1. Fonction objective

Sélectionnez une fonction objective pour optimiser les performances du modèle. Dans le menu déroulant, sélectionnez la mesure pour laquelle vous souhaitez optimiser l'outil.

La fonction objective est ce que vous voulez utiliser pour déterminer le classement des modèles que l'outil évalue. Les fonctions objectives sont des mesures qui servent à déterminer l'optimisation d'un modèle pour votre cas d'usage.

2. Algorithmes

Sélectionnez les types d'algorithmes à évaluer dans le cadre du processus de modélisation automatique. Vous pouvez sélectionner plusieurs options. Plus vous sélectionnez de types, plus l'exécution du workflow sera longue. Cochez la case en regard de chaque algorithme que vous souhaitez évaluer.

Forêt aléatoire : les algorithmes de forêt aléatoire entrainent les modèles à l'aide des résultats d'un ensemble d'arbres de décision générés de manière aléatoire. Cet algorithme est optimal pour modéliser des associations non linéaires entre des classes. Cette méthode d'ensemble permet d'éviter les problèmes de surajustement ou sous-ajustement, mais demande une grande puissance de calcul.

XGBoost : les algorithmes XGBoost entrainent les modèles à l'aide des résultats d'un ensemble d'arbres de décision générés de manière aléatoire. Grâce à cette capacité d'accélération (une méthode qui permet aux arbres de décision de s'améliorer mutuellement), l'algorithme est moins susceptible d'effectuer des surajustements et sous-ajustements. L'algorithme XGBoost est idéal lorsque vous utilisez de nombreuses caractéristiques différentes pour entraîner le modèle.

Linéaire : les algorithmes linéaires entraînent le modèle en traçant des lignes à travers les données, en trouvant le meilleur ajustement ou en le divisant en groupes. Ces algorithmes s'avèrent plus performants pour modéliser des associations linéaires ou des tendances. Leurs calculs sont plutôt efficaces, mais ils sont susceptibles d'effectuer des sous-ajustements.

CatBoost : les algorithmes CatBoost entrainent le modèle à l'aide des résultats d'un ensemble d'arbres de décision. Cet algorithme utilise les mêmes méthodes d'accélération que XGBoost, mais est moins enclin aux surajustements. Il est toutefois encore plus coûteux en calcul que XGBoost.

3. Maximum de pipelines de modèle à évaluer

Entrez le nombre de pipelines que l'outil ML automatisé doit créer, à l'aide des algorithmes choisis, puis évaluez-les en fonction de la fonction objective. Vous pouvez évaluer de 1 à 50 pipelines.

4. Activer les vérifications de données

Pour activer les vérifications de données, cochez la case dans cette section. Nous utilisons les vérifications de données par défaut d' EvalML.

Dans cette section: