Outil Classifieur bayésien naïf

Exemple d'outil unique

L'outil Classifieur bayésien naïf comporte un exemple d'outil unique. Accédez à la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.

L'outil Classifieur bayésien naïf crée un modèle de classification probabiliste binomiale ou multinomiale de la relation entre un ensemble de variables prédictives et une variable cible catégorique. L'outil Classifieur bayésien naïf suppose que toutes les variables prédictives sont indépendantes les unes des autres et prédit, en fonction d'une entrée d'échantillon, une distribution probabiliste dans un ensemble de classes. Il calcule ainsi la probabilité d'appartenance à chaque classe de la variable cible.

L'un des principaux avantages de l'outil Classifieur bayésien naïf est qu'il fonctionne bien même avec un petit jeu d'entraînement. Cet avantage est lié au fait que l'outil Classifieur bayésien naïf est paramétré par la moyenne et la variance de chaque variable indépendamment de toutes les autres variables. Dans de nombreux problèmes liés à la classification du maximum de vraisemblance, la matrice de covariance est nécessaire afin d'estimer les probabilités prédites, mais de petits jeux d'entraînement peuvent conduire à une matrice de covariance très variable qui, à son tour, peut diminuer les performances de l'estimateur du maximum de vraisemblance (MLE). Comme l'outil Classifieur bayésien naïf ne nécessite que le calcul de variances unidimensionnelles pour chaque prédicteur, la matrice de covariance n'est pas nécessaire, par conséquent, le MLE n'est pas affecté par les problèmes d'un petit jeu d'entraînement.

L'outil Classifieur bayésien naïf est utile lorsqu'il s'agit de classer un ensemble d'observations en fonction d'une variable « classe » cible, en particulier dans les situations où seul un petit jeu d'entraînement et une petite quantité de prédicteurs sont utilisés. En utilisant un jeu d'entraînement initial, l'outil Classifieur bayésien naïf développe un modèle pour prédire la probabilité d'appartenance d'une observation donnée à chaque classe de la variable cible.

Voici un exemple simple : prévoir si une personne prenant un nouveau véhicule en location achèterait ce véhicule au terme du contrat de location en fonction des caractéristiques du véhicule (par exemple, camionnette/berline/SUV) et du client (par exemple, sexe, âge, etc.). L'outil Classifieur bayésien naïf permettrait à l'utilisateur d'établir un score pour les personnes futures en fonction du modèle généré par le jeu d'entraînement. Ce processus de notation donnerait lieu à un ensemble de probabilités, une pour l'achat au terme du contrat de bail et une pour le non-achat au terme du contrat de bail.

Cet outil utilise l'outil R. Accédez à Options > Télécharger les outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les packages utilisés par l'outil R. Consultez Télécharger et utiliser les outils prédictifs.

Configuration de l'outil

Paramètres obligatoires

Nom de modèle : vous devez attribuer un nom à chaque modèle afin de pouvoir les identifier ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point ( . ) et trait de soulignement ( _ ). Aucun autre caractère spécial n'est autorisé et R est sensible à la casse.
Sélectionnez le champ cible : sélectionnez le champ du flux de données à prédire. Cette cible doit être de type chaîne.
Sélectionnez les champs prédicteurs : sélectionnez les champs du flux de données dont vous pensez qu'ils « provoquent » des changements de valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Lissage de Laplace : choisissez une valeur positive comme paramètre de lissage. La valeur par défaut est 0. La fonction Lissage de Laplace permet à l'utilisateur de lisser les données en tenant compte des combinaisons classe/caractéristique qui peuvent être entièrement absentes du jeu d'entraînement ou sous-représentées par rapport à la fréquence, et qui seraient associées à une probabilité nulle ou, au minimum, inhabituellement faible (selon les circonstances). Ceci est utile lorsque vous essayez de créer un modèle de classification en utilisant un petit jeu d'entraînement qui peut ne pas constituer un échantillon suffisamment représentatif de la population.

Options des graphiques

Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ; ou 3x (288 dpi).
- Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
- Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.

Visualisation de la sortie

Ancrage O : objet. Se compose d'une table de modèle sérialisé avec le nom du modèle.
Ancrage R : rapport. Se compose des snippets de rapports générés par l'outil Classifieur bayésien naïf : un récapitulatif de modèle de base et les principaux tracés d'effets pour chaque classe de la variable cible.

_{https://fr.wikipedia.org/wiki/Classification_na%C3%AFve_bay%C3%A9sienne}