Glossaire de machine learning
Dans votre jeu de données, les valeurs réelles sont celles qui indiquent à quelle catégorie appartient une ligne. Par exemple, un jeu de données sur les clients perdus peut contenir une colonne de variables Oui et Non, indiquant si un client est perdu ou non. Il s'agit-là des valeurs réelles et observées qui aident à entraîner votre modèle de machine learning.
Le graphique des valeurs réelles par rapport aux valeurs prédites trace des valeurs réelles à partir de vos données d'entraînement par rapport aux valeurs prédites résultant de votre modèle pour la cible. Les modèles aux scores d'erreurs plus faibles contiennent des points de données où les valeurs réelles se rapprochent des valeurs prédites.
Le R² ajusté est une mesure normalisée de l'ajustement. Il indique à quel point vos caractéristiques expliquent la variation dans votre cible. Utilisez cette mesure pour comparer l'efficacité avec laquelle différents algorithmes de régression modélisent des données similaires. Les scores vont de 0 à 1, 1 correspondant à un ajustement parfait.
Un algorithme est une procédure utilisée par l'ordinateur pour résoudre un problème. Respectant un ensemble de règles, l'algorithme construit un modèle à l'aide des données d'entraînement contenant un jeu de caractéristiques. Dès que le modèle reçoit de nouvelles données, il peut prédire un résultat. Les forêts aléatoires, les arbres de décision et les régressions logistiques sont des exemples d'algorithmes.
Les données booléennes représentent des valeurs qui ne peuvent être que l’une des deux possibilités, par exemple vrai ou faux.
Les caractéristiques catégorielles contiennent un nombre limité de valeurs représentant les différentes catégories, par exemple le statut du prêt d'une personne avec les valeurs approuvé, refusé et aucun.
La colinéarité se produit lorsque deux ou plusieurs caractéristiques mesurent la même chose. Dans ces cas-là, vous pourriez avoir plusieurs caractéristiques auxquelles votre modèle attribue trop de poids. La colinéarité peut fausser la mesure de l'importance de la permutation.
L'importance de la permutation est une méthode efficace pour mesurer le degré d'importance de chaque caractéristique par rapport à votre modèle. Cependant, cette méthode a des limites. Elle est susceptible de créer des problèmes de colinéarité, des effets d'interaction et des valeurs impossibles. Examinez attentivement vos données pour vérifier qu'aucun de ces problèmes n'affecte votre modèle.
Si vous sélectionnez cette option, la Modélisation assistée lira les champs vides comme s'il s'agissait de valeurs manquantes. Sélectionnez cette option si vous pensez que l'algorithme de modélisation peut trouver une signification dans les valeurs manquantes elles-mêmes, car il est parfois possible de trouver des schémas récurrents dans l'absence de données. Vous pouvez également sélectionner cette option si vous pensez que d'autres méthodes de traitement des données manquantes pourraient biaiser votre modèle.
Si vous sélectionnez cette option, la modélisation assistée n'utilisera pas cette caractéristique lors de l'exécution du modèle. Sélectionnez cette option lorsque votre jeu de données contient trop de valeurs manquantes.
Les caractéristiques sont des ensembles de valeurs mesurables pour prédire une cible. Un modèle contient généralement plusieurs caractéristiques d'importance variable. Dans le cas d'un problème de régression, par exemple pour prédire la valeur boursière d'une action, le jeu de caractéristiques pourrait être le prix de départ du jour, le prix de fin de journée et le nombre de transactions. Dans le cas d'un problème de classification, par exemple pour prédire à quelle espèce florale appartient un iris, les caractéristiques peuvent être la longueur et la largeur des sépales et des pétales.
La Modélisation assistée utilise la méthode permutation-importance pour mesurer l'importance de chaque caractéristique dans votre modèle en les évaluant par rapport au jeu de données test. Utilisez cette mesure pour déterminer les caractéristiques les plus importantes pour votre modèle. Vous pouvez également l'utiliser pour identifier les caractéristiques susceptibles d'exposer votre modèle à un risque d'erreur de généralisation, en l'associant trop faiblement ou trop fortement à la cible.
L'impureté de Gini (Gini) mesure la contribution des caractéristiques, où chacune d'entre elles se voit attribuer un pourcentage pour quantifier sa contribution à la totalité du modèle prédictif. La Modélisation assistée utilise cette mesure dans le cadre d'un arbre de décision afin de sélectionner les caractéristiques qui sont de bons prédicteurs, en fonction de leur pourcentage de contribution. Utilisez le score Gini pour identifier les caractéristiques susceptibles d'exposer votre modèle à un risque d'erreur de généralisation, en contribuant trop ou pas assez.
La Modélisation assistée ignore les colonnes de type ID (Identifiant) lors de la définition des types de données, car vous ne pouvez pas les utiliser pour prédire une cible. Les données de type ID représentent des valeurs à la fois uniques et discrètes. Ces caractéristiques contiennent des informations, par exemple l'ID du client ou un numéro de transaction.
Une valeur impossible peut être créée lorsque vous utilisez une méthode, telle que l'importance de la permutation, qui mélange les valeurs de votre jeu de données. Dans ces cas-là, vous pourriez avoir des lignes de données qui n'ont aucun sens. À titre d'exemple, imaginez une maison comportant moins de portes que de pièces. Les valeurs impossibles peuvent fausser la mesure de l'importance de la permutation.
Un effet d'interaction se produit lorsque deux ou plusieurs caractéristiques affectent une cible bien plus (ou bien moins) qu'elles ne le feraient toutes seules. Dans ces cas-là, vous pourriez avoir des caractéristiques avec des effets surestimés ou sous-estimés sur la cible. Ainsi, les effets d'interaction peuvent fausser la mesure de l'importance de la permutation.
L'erreur moyenne absolue (MAE) mesure l'ajustement de votre modèle de régression par rapport à vos données. L'erreur moyenne absolue (MAE) est similaire à l'erreur moyenne quadratique, mais a tendance à être moins affectée par les valeurs hors norme. Un score élevé indique un plus grand nombre d'erreurs et un très mauvais ajustement , un score de 0 indique l'absence d'erreur et un ajustement parfait.
L'erreur maximale est une mesure de la plus grande différence entre les valeurs prédites et réelles. Utilisez cette mesure pour identifier le scénario le plus défavorable pour votre modèle de régression. Un score élevé indique un plus grand nombre d'erreurs ; un score de 0 indique l'absence d'erreur et un ajustement parfait.
Si vous sélectionnez cette option, la Modélisation assistée remplacera les valeurs manquantes par la somme de toutes les lignes d'une caractéristique, divisée par le nombre total de lignes. Utilisez cette méthode uniquement pour les valeurs numériques. Cette option est recommandée lorsque vos données ont une distribution normale et ne présentent pas de valeurs aberrantes.
Si vous sélectionnez cette option, la Modélisation assistée remplacera les valeurs manquantes par le nombre représentant le point médian dans la distribution de votre caractéristique. Cette option est recommandée lorsque vos données sont asymétriques ou contiennent des valeurs aberrantes.
Si vous sélectionnez cette option, la Modélisation assistée remplacera les valeurs manquantes par le nombre revenant le plus fréquemment. Cette option est recommandée lorsque la caractéristique contient des valeurs catégorielles et que vous souhaitez la conserver. Vous pouvez aussi utiliser le mode pour renseigner les valeurs numériques manquantes.
Il s'agit d'une caractéristique dont votre modèle ne tient pas compte pour prédire votre cible. Envisagez d'abandonner cette caractéristique pour réduire la complexité de votre modèle.
Les caractéristiques numériques contiennent des nombres réels, par exemple 1, 3,14 et 100.
La méthode OLS (Moindres carrés ordinaires) permet de mesurer l'ajustement d'une caractéristique et est utile pour déterminer sa variance. La modélisation assistée utilise cette mesure afin d'évaluer le degré d'association d'une caractéristique à la cible. Utilisez la méthode OLS pour identifier les caractéristiques susceptibles d'exposer votre modèle à un risque d'erreur de généralisation, en l'associant trop faiblement ou trop fortement à la cible.
Les valeurs prédites sont les valeurs attribuées aux lignes par l'algorithme selon les tendances qu'il détecte dans les caractéristiques indiquées. Par exemple, avec un jeu de données sur les clients perdus, l'algorithme peut prédire Oui (ce client sera perdu) et Non dans le cas contraire.
Le résidu est la différence entre la valeur observée et la valeur prédite pour votre cible. Le résidu peut être positif ou négatif. Utilisez les résidus pour évaluer l'ajustement d'un modèle par rapport à vos données d'entraînement, et en quoi il diffère.
Ce tracé compare le résultat résiduel selon les algorithmes de régression. Dans ce tracé, les résidus sont absolus, log transformé et classé, de sorte que 0 indique aucune erreur et les valeurs supérieures indiquent plus d’erreur. Utilisez le tracé de comparaison des résidus pour évaluer le bon fonctionnement des différents modèles avec vos données d'entraînement.
La racine de l'erreur quadratique moyenne (RMSE) mesure l'ajustement de votre modèle de régression par rapport à vos données. Utilisez la racine de l'erreur quadratique moyenne pour comparer l'efficacité avec laquelle différents algorithmes de régression modélisent des données similaires. Un score élevé indique un plus grand nombre d'erreurs et un très mauvais ajustement , un score de 0 indique l'absence d'erreur et un ajustement parfait.