Skip to main content

Modélisation assistée

Utilisez l'option assistée pour obtenir de l'aide pour construire des modèles de machine learning. Cette option vous guide à travers un processus étape par étape, qui comprend la sélection d'une cible et d'une méthode de machine learning, la définition des types de données, le nettoyage des valeurs manquantes, le choix des caractéristiques et la sélection du meilleur algorithme. Si vous n’êtes pas sûr de l’algorithme le mieux approprié, la modélisation assistée vous permet de comparer les algorithmes dans le classement. Après cela, vous pouvez ajouter un pipeline au canevas de Designer qui contient tous les outils de Machine Learning que vous avez utilisés pour entraîner le modèle.

Important

Avant de pouvoir utiliser la modélisation assistée, vous devez utiliser l' Input Data Tool Icon Outil Entrée de données pour intégrer vos données dans Designer, puis les connecter à l'outil Modélisation assistée. Après avoir sélectionné Exécuter , vous pouvez sélectionner Démarrez la modélisation assistée dans la fenêtre de configuration.

1. Sélectionner la cible et la méthode de machine learning

Sélectionnez une cible et laissez la modélisation assistée choisir la méthode de machine learning la plus appropriée pour prédire cette cible.

  1. Dans la section Cibles disponibles , les noms des caractéristiques dans le jeu de données sont répertoriés. Sélectionnez la caractéristique que vous souhaitez définir comme cible.

  2. La modélisation assistée détecte automatiquement si la cible contient des données catégorielles ou numériques, et elle sélectionne la méthode de machine learning appropriée.

  3. Sélectionnez Suivant pour aller à l'étape 2 : Sélectionner le niveau d'automatisation .

Important

La modélisation assistée s’assure que vous avez choisi la bonne cible avant de passer à l’étape suivante. Après cela, vous ne pouvez pas changer la cible sans redémarrer l’ensemble du processus. Sélectionnez Continuer si vous avez choisi la cible correcte.

2. Sélectionner le niveau d'automatisation

Sélectionnez si vous préférez confier la construction du pipeline de machine learning à l'outil, ou laissez-vous guider étape par étape par la modélisation assistée tout au long du processus.

  1. Sélectionnez l’option Étape par étape ou Automatique .

  2. Sélectionnez Suivant .

Si vous choisissez Étape par étape , la modélisation assistée passe à l’étape 3 : définir des types de données .

Si vous choisissez Automatique , la modélisation assistée parcourt automatiquement les étapes pour créer le pipeline de machine learning : elle définit les types de données, nettoie les valeurs manquantes, sélectionne les caractéristiques et sélectionne les algorithmes. Lorsque l’outil termine ce processus, vous pouvez voir le résultat dans le tableau de classement.

3. Définir les types de données

La modélisation assistée définit le type de données pour chaque caractéristique. Elle affiche le type de données recommandé dans la colonne Type de données . L’option recommandée est marquée (par exemple, Numérique (Recommandé) ).

  1. Sélectionnez une caractéristique pour afficher es informations à son sujet dans la section Détails des colonnes . Là, vous pouvez voir Probabilités de types de données , qui affiche le niveau de confiance de la modélisation assistée concernant le type de données de la caractéristique. Vous pouvez également voir un aperçu , qui contient un échantillon des données. Utilisez ces informations pour vous assurer que les types de données sont définis correctement.

  2. Si une caractéristique est définie avec un type de données erroné, utilisez le menu déroulant dans la colonne Type de données pour sélectionner le type de données correct.

  3. Sélectionnez Suivant pour aller à l'étape 4 : Nettoyer les valeurs manquantes .

Astuce

Si vous n’êtes pas sûr de ce que signifie un terme, consultez la section Glossaire dans La modélisation assistée. La section contient des informations utiles sur de nombreux termes communs utilisés en science des données.

4. Nettoyer les valeurs manquantes

La modélisation assistée nettoie les valeurs manquantes dans les données. Pour chaque caractéristique qui contient des valeurs manquantes, elle affiche une méthode recommandée pour nettoyer les valeurs manquantes dans la colonne Méthode . L’option recommandée est marquée (par exemple, Remplacer par une médiane (recommandé) ).

  1. Sélectionnez une caractéristique pour afficher es informations à son sujet dans la section Détails des colonnes . Là, vous pouvez voir la méthode de nettoyage , qui explique comment la modélisation assistée sélectionne la méthode pour nettoyer les données manquantes. Vous pouvez également voir un aperçu , qui contient un échantillon des données. Utilisez ces informations pour vous assurer que vous utilisez la bonne méthode pour gérer les valeurs manquantes.

  2. Si vous souhaitez utiliser une méthode de nettoyage différente, utilisez le menu déroulant de la colonne Méthode pour sélectionner la bonne méthode de nettoyage.

  3. Sélectionnez Suivant pour aller à l'étape 5 : Sélectionner les caractéristiques .

5. Sélectionner les caractéristiques

La modélisation assistée sélectionne les caractéristiques qui génèrent le meilleur modèle. Pour chaque caractéristique, elle évalue s’il s’agit d’un bon prédicteur dans la colonne Informations sur la caractéristique .

  1. Sélectionnez une caractéristique pour afficher es informations à son sujet dans la section Détails des colonnes . Là, vous pouvez voir Détails du prédicteur , qui fournit deux mesures de performance pour chaque caractéristique : Gini et GKT. La modélisation assistée utilise les deux mesures pour déterminer si la caractéristique s’associe trop ou peu à la cible. Vous pouvez également voir un aperçu , qui contient un échantillon des données. Utilisez ces informations pour vous assurer que les caractéristiques sont de bons prédicteurs.

  2. Si vous ne souhaitez pas utiliser une fonctionnalité, décochez la case à côté du nom de cette fonctionnalité.

  3. Sélectionnez Suivant pour aller à l’étape 6 : Sélectionner les algorithmes .

6. Sélectionner les algorithmes

La modélisation assistée vous fournit une sélection d’algorithmes à choisir. Elle recommande différents algorithmes en fonction du type de problème que vous voulez résoudre. Dans cette étape, vous sélectionnez les algorithmes que vous souhaitez évaluer dans le classement.

  1. La carte pour chaque algorithme affiche ses avantages et ses inconvénients, une description et certains cas d’utilisation. Utilisez ces informations pour vous assurer que vous voulez évaluer l’algorithme.

    1. Pour les variables catégoriques, l'outil dispose de 4 algorithmes :

      1. Régression logistique

      2. Arbre de décision

      3. Forêt aléatoire

      4. XGBoost

    2. Pour les variables continues (numériques), l'outil dispose de 3 algorithmes :

      1. Régression linéaire

      2. Arbre de décision

      3. Forêt aléatoire

  2. Pour évaluer un algorithme, cochez la case à côté de son nom. Si vous ne voulez pas évaluer un algorithme, décochez la case.

  3. Sélectionnez Exécuter les algorithmes sélectionnés .

Le classement

La modélisation assistée génère le classement, que vous pouvez utiliser pour comparer les performances des algorithmes que vous avez sélectionnés.

La sortie dans le classement est différente, selon le type de problème que vous résolvez, mais voici les bases pour la façon de naviguer dans l’interface utilisateur :

  • Pour afficher des informations spécifiques à un algorithme, sélectionnez sa carte dans la section Tableau de classement .

  • Pour afficher des informations sur la performance d’un algorithme par rapport aux autres algorithmes, sélectionnez l’onglet Comparaison .

  • Pour afficher des informations sur les performances individuelles d’un algorithme, sélectionnez l’onglet Vue d'ensemble .

  • Pour voir quelles sont les caractéristiques les plus évaluées pour chaque algorithme, sélectionnez l’onglet Interprétation .

  • Pour vous rappeler les choix que vous avez faits tout au long du processus de modélisation assistée, sélectionnez l’onglet Configuration .

  • Pour recommencer avec la modélisation assistée, mais conserver les informations qui sont dans le classement, sélectionnez Créer un nouveau modèle .

  • Pour afficher ou masquer le tableau de classement, sélectionnez Masquer le tableau de classement ou Afficher le tableau de classement .

Une fois que vous avez déterminé quels algorithmes sont les plus performants, vous pouvez sélectionner ceux que vous souhaitez ajouter au canevas de Designer dans le cadre du pipeline de machine learning qui entraîne le modèle :

  1. Cochez la case à côté du nom de l’algorithme que vous souhaitez ajouter au canevas. Vous devriez consulter le nombre d’algorithmes que vous avez sélectionnés.

  2. Sélectionnez Ajouter des modèles et continuer au workflow .

Vous pouvez exporter un rapport qui contient les résultats du modèle.

  1. Cliquez sur le menu à 3 points.

  2. Dans le menu déroulant, sélectionnez Exporter le rapport HTML .

  3. Sélectionnez l’emplacement où vous souhaitez enregistrer le rapport en utilisant l’explorateur de fichiers.

Vous pouvez exporter le code pour le pipeline de machine learning à un Jupyter Notebook dans un Python tool Python Tool.

  1. Sélectionnez l'icône à 3 points.

  2. Dans le menu déroulant, sélectionnez Exporter le modèle vers Python .

  3. Lorsque vous quittez la fenêtre de Modélisation assistée, un outil Python apparaît dans le workflow. Il contient un Jupyter Notebook annoté avec tout le code pour le pipeline de machine learning.