Outil Classifieur bayésien naïf
L’outil Classifieur bayésien naïf crée un modèle de classification probabiliste binomial ou multinomial de la relation entre un jeu de variables prédictives et une variable cible catégorielle. Le classifieur bayésien naïf suppose que toutes les variables prédictives sont indépendantes l’une de l’autre, et prédit, en fonction d’une entrée d’échantillon, une distribution de probabilité sur un jeu de classes. Il calcule ainsi la probabilité d’appartenance à chaque classe de la variable cible.
L’un des principaux avantages du classifieur bayésien naïf est qu’il obtient de bons résultats même avec un petit jeu d’apprentissage. Cet avantage est lié au fait que le classifieur bayésien naïf est paramétré par la moyenne et la variance de chaque variable indépendante de toutes les autres variables. Dans de nombreux problèmes liés à la classification de vraisemblance maximum, la matrice de covariance est nécessaire afin d’estimer les probabilités prédites, mais de petits jeux d’apprentissage peuvent entraîner une matrice de covariance très variable qui, à son tour, peut diminuer les performances de l’estimateur de vraisemblance maximum (MLE). Le classifieur bayésien naïf n’a besoin que du calcul de variances à une dimension pour chaque variable prédictive. Par conséquent, la matrice de covariance n’est pas nécessaire, et le MLE n’est pas influencé par les problèmes d’un petit jeu d’apprentissage.
Le classifieur bayésien naïf est utile pour classer un ensemble d’observations en fonction d’une variable de « classe » cible, en particulier dans les situations où seuls un petit jeu d’apprentissage et un faible nombre de variables prédictives sont utilisés. À l’aide d’un jeu d’apprentissage initial, le classifieur bayésien naïf élabore un modèle permettant de prévoir la probabilité d’appartenance d’une observation donnée à chaque classe de la variable cible.
Voici un exemple simple : prévoir si une personne prenant un nouveau véhicule en location achèterait ce véhicule au terme du contrat de location en fonction des caractéristiques du véhicule (par exemple, camionnette/berline/SUV) et du client (par exemple, sexe, âge, etc.). Le classifieur bayésien naïf permettrait à l’utilisateur d’établir un score pour les personnes futures en fonction du modèle généré par le jeu d’apprentissage. Ce processus de définition de score entraînerait un jeu de probabilités, un pour l’achat au terme du contrat de location et un pour le non-achat au terme du contrat de location.
Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.
Configurer l’outil
Paramètres obligatoires
- Nom du modèle: chaque modèle doit être donné un nom afin qu'il puisse être identifié ultérieurement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
- Sélectionnez la variable cible: sélectionnez le champ dans le flux de données que vous souhaitez prédire. Cette cible doit être de type Chaîne.
- Sélectionnez les variables prédictives: Choisissez les champs du flux de données que vous croyez «provoquer» les modifications de la valeur de la variable cible.
- Lissage des Laplace: Choisissez une valeur positive comme paramètre de lissage. Valeur par défaut : 0. La fonction Lissage de Laplace permet de lisser les données en tenant compte des combinaisons classe/fonction qui peuvent être entièrement absentes du jeu d’apprentissage ou sous-représentées en ce qui concerne la fréquence, et qui seraient associées à une probabilité nulle ou, au minimum, inhabituellement faible (selon les circonstances). Cela est utile pour créer un modèle de classification à l’aide d’un petit jeu d’apprentissage qui peut ne pas constituer un échantillon suffisamment représentatif de la population.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Options des graphiques
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
Afficher la sortie
- O ancre: objet. Table du modèle sérialisé avec son nom de modèle.
- R ancre: rapport. Constituée des snippets de rapports générés par l’outil Classifieur bayésien naïf : récapitulatif de modèle de base et tracés d’effets principaux pour chaque classe de la variable cible.