Outil Régression logistique

Exemple d'outil unique

L'outil Régression logistique dispose d'un exemple d'outil unique. Accédez à la page Exemples de workflows pour savoir comment accéder à cet exemple et à de nombreux autres exemples directement dans Alteryx Designer.

L'outil Régression logistique crée un modèle qui relie une variable binaire cible (telle que oui/non, réussite/échec) à une ou plusieurs variables prédictives pour obtenir une estimation de probabilité pour chacune des deux réponses possibles pour la variable cible. Les modèles de régression logistique courants incluent les modèles logit, probit et logarithme double complémentaire. Consultez la page Régression logistique.

Cet outil utilise l'outil R. Accédez à Options > Télécharger les outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les packages utilisés par l'outil R. Consultez Télécharger et utiliser les outils prédictifs.

Configurer l'outil pour le traitement standard

Connexion d'une entrée

Connectez un flux de données Alteryx ou un flux de métadonnées XDF qui inclut un champ cible d'intérêt avec un ou plusieurs champs prédicteurs possibles.

Si les données d'entrée proviennent d'un flux de données Alteryx, la fonction glm R open source et les fonctions glmnet et cv.glmnet (dans le package glmnet) sont utilisées pour l'estimation du modèle.

Si les données d'entrée proviennent d'un outil Sortie XDF ou d'un outil Entrée XDF, alors la fonction RevoScaleR rxLogit permet d'estimer le modèle. L’avantage de la fonction RevoScaleR est qu’elle permet d’analyser des jeux de données beaucoup plus volumineux (mémoire insuffisante), au détriment d’une augmentation de la charge pour créer un fichier XDF et avec l’impossibilité de créer une partie de la sortie de diagnostic de modèle avec les fonctions R open source. En outre, elle ne permet d’utiliser qu’une fonction de liaison logit.

Configuration de l'outil

Saisir le nom du modèle : saisissez le nom du modèle pour identifier ce dernier lorsque d'autres outils y font référence. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n'est autorisé et l'outil R est sensible à la casse.
Sélectionner la variable cible : sélectionnez les données à prédire. Une variable cible est également appelée « réponse » ou « variable dépendante ».
Sélectionner les variables prédictives : sélectionnez les données à utiliser pour influencer la valeur de la variable cible. Une variable prédictive est également appelée « caractéristique » ou « variable indépendante ». Vous pouvez sélectionner n'importe quel nombre de variables prédictives, mais la variable cible ne doit pas être également une variable prédictive. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.

Sélectionnez Personnaliser pour modifier les paramètres Modèle, Validation croisée et Tracés.

Personnaliser le modèle

Utiliser les pondérations d'échantillonnage dans l'estimation du modèle : sélectionnez une variable pour déterminer l'importance à accorder à chaque enregistrement lors de la création d'une estimation du modèle. Si une valeur est utilisée comme prédicteur et comme variable de pondération, la variable de pondération apparaît alors dans l’appel de modèle dans la sortie du rapport avec la chaîne « Right_ » ajoutée au début.
Utiliser la régression régularisée : sélectionnez cette option pour équilibrer la même réduction de la somme des erreurs quadratiques avec un terme de pénalité sur la taille des coefficients et produire un modèle plus simple.
- Saisir la valeur alpha : sélectionnez une valeur comprise entre 0 (régression ridge) et 1 (lasso) pour mesurer l'importance accordée au coefficient.
- Normaliser les variables prédictives : sélectionnez cette option pour attribuer la même taille à toutes les variables en fonction de l'algorithme utilisé.
- Utiliser la validation croisée pour déterminer les paramètres du modèle : sélectionnez cette option pour effectuer une validation croisée et obtenir divers paramètres du modèle.
  - Nombre de plis : sélectionnez le nombre de plis pour diviser les données. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
  - Quel type de modèle : sélectionnez le type de modèle pour déterminer les coefficients.
    Modèle simple
    Modèle avec une erreur quadratique moyenne dans l’échantillon
  - Définir l'amorce : sélectionnez cette option pour garantir la reproductibilité de la validation croisée et sélectionnez la valeur de l'amorce utilisée pour affecter des enregistrements aux plis. La sélection de la même amorce à chaque fois que le workflow est exécuté garantit la présence systématique des mêmes enregistrements dans le même pli. La valeur doit être un entier positif.
- Saisir la classe positive pour la variable cible (facultatif) : certaines mesures renvoyées par l'outil dans les cas de classification binaire (par exemple le taux positif réel) exigent la désignation d'une classe positive. Pour effectuer une classification binaire, saisissez l'une des deux classes positives de la variable cible. Si ce champ est laissé vide, une des classes est déterminée automatiquement comme la classe positive. Cette option n’est disponible que pour les modèles de classification.
Sélectionner le type de modèle : sélectionnez le type de modèle à utiliser pour prédire la variable cible.
- logit
- probit
- logarithme double complémentaire

Personnaliser la validation croisée

Utiliser la validation croisée pour déterminer les estimations de la qualité du modèle : sélectionnez cette option pour effectuer une validation croisée et obtenir divers graphiques et métriques sur la qualité du modèle. Certains graphiques et métriques apparaîtront dans la sortie R statique, tandis que d’autres s’afficheront dans la sortie I interactive.
Nombre de plis : sélectionnez le nombre de plis pour diviser les données. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
Nombre de tentatives : sélectionnez le nombre de répétitions de la procédure de validation croisée. Les plis sont sélectionnés différemment lors de chaque tentative et la moyenne des résultats de toutes les tentatives est calculée. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
Utiliser la validation croisée stratifiée : sélectionnez cette option afin que chaque pli ait le même pourcentage de chaque classe comme c'est le cas dans l'ensemble du jeu de données. Cette option n’est disponible que pour les modèles de classification.
Définir l'amorce : sélectionnez cette option pour garantir la reproductibilité de la validation croisée et sélectionnez la valeur de l'amorce utilisée pour affecter des enregistrements aux plis. La sélection de la même amorce à chaque fois que le workflow est exécuté garantit la présence systématique des mêmes enregistrements dans le même pli. La valeur doit être un entier positif.

Personnaliser les tracés

Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi) ; 2x (192 dpi) ou 3x (288 dpi).

Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
Une résolution élevée produit un fichier de plus grande taille avec une qualité d'impression supérieure.

Visualisation de la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

O (Sortie) : affiche le nom du modèle et la taille de l'objet dans la fenêtre Résultats.
R (Rapport) : affiche un rapport récapitulatif du modèle incluant un récapitulatif et des tracés.
I (Interactif) : affiche un tableau de bord interactif des éléments d'aide visuels qui vous permettent d'appliquer un zoom, d'effectuer un survol et de cliquer.

Configurer l'outil pour le traitement en BDD

L’outil Régression logistique prend en charge le traitement en BDD Oracle, Microsoft SQL Server 2016 et Teradata. Visitez Vue d'ensemble des outils en base de données pour plus d'informations sur les outils et la prise en charge en base de données.

Si un outil Régression logistique est placé sur le canevas avec un autre outil en BDD, l'outil bascule automatiquement vers la version en BDD. Pour changer la version de l'outil, cliquez avec le bouton droit sur l'outil, pointez le curseur sur « Sélectionner la version de l'outil », puis cliquez sur une autre version de l'outil. Consultez la page Analyses prédictives pour en savoir plus sur la prise en charge en base de données prédictive.

Connexion d'une entrée

Connectez un flux de données en base de données qui inclut un champ cible d'intérêt avec un ou plusieurs champs prédicteurs possibles.

Si l'entrée provient d'un flux de données en base de données SQL Server ou Teradata, la fonction rxLogit de Microsoft Machine Learning Server (dans le package RevoScaleR) est utilisée pour l'estimation du modèle. Il est ainsi possible d'effectuer le traitement sur le serveur de base de données, à condition que la machine locale et le serveur soient configurés avec Microsoft Machine Learning Server, ce qui peut augmenter considérablement les performances.

Si l'entrée provient d'un flux de données en base de données Oracle, la fonction ore.lm d'Oracle R Enterprise (dans le package OREmodels) est alors utilisée pour l'estimation du modèle. Il est ainsi possible d'effectuer le traitement sur le serveur de base de données, à condition que la machine locale et que le serveur soient configurés avec Oracle R Enterprise, ce qui augmente considérablement les performances.

Dans le cas d'un workflow en base de données Oracle, les fonctionnalités intégrales de l'objet modèle généré en aval ne sont disponibles que si l'outil Régression logistique est directement connecté depuis un outil Connecter en BDD avec une seule table complète sélectionnée, ou si un outil Écrire des données en BDD est utilisé immédiatement avant l'outil Régression logistique pour enregistrer la table de données d'estimation dans la base de données. Oracle R Enterprise utilise la table de données d’estimation pour fournir toutes les fonctionnalités d’objet modèle, comme le calcul des intervalles de prédiction.

Configuration de l'outil

Nom de modèle : vous devez attribuer un nom à chaque modèle afin de pouvoir les identifier ultérieurement. Vous devez fournir un nom ou générer un nom automatiquement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n'est autorisé et l'outil R est sensible à la casse.
Sélectionnez la variable cible : sélectionnez le champ du flux de données à prédire.
Sélectionner les variables prédictives : sélectionnez les champs du flux de données dont vous pensez qu'ils « provoquent » des changements de valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l'exécution.
Omettre une constante du modèle : activez cette option si vous souhaitez exclure une constante du modèle. À n’utiliser que si vous avez un motif explicite pour le faire.
Options spécifiques à Oracle : cette option permet de configurer des options supplémentaires qui ne s'appliquent qu'à la plateforme Oracle.
- Type de modèle : sélectionnez le type de modèle à utiliser pour prédire la variable cible.
  - logit
  - probit
  - logarithme double complémentaire
- Enregistrer le modèle dans la base de données : cette option entraîne l'enregistrement de l'objet modèle estimé dans la base de données. Elle est recommandée afin que les objets modèle et les tables d'estimation coexistent dans un emplacement centralisé de la base de données Oracle.
Utiliser des pondérations d'échantillonnage pour l'estimation du modèle : cochez la case et sélectionnez un champ de pondération dans le flux de données pour estimer un modèle utilisant la pondération de l'échantillonnage. Un champ est utilisé comme prédicteur et comme variable de pondération, puis la variable de pondération apparaîtra dans l'appel de modèle dans la sortie, précédée par la chaîne « Right_ ».
Configuration spécifique à Teradata : Microsoft Machine Learning Server nécessite des informations de configuration supplémentaires concernant la plateforme Teradata spécifique à utiliser ; en particulier, les chemins sur le serveur Teradata des exécutables binaires de l'outil R et l'emplacement où peuvent être écrits les fichiers temporaires utilisés par Microsoft Machine Learning Server. Ces informations devront être communiquées par l’administrateur Teradata local.

Visualisation de la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

Ancrage O : sortie. Affiche le nom du modèle et la taille de l’objet dans la fenêtre Résultats.
Ancrage R : rapport. Affiche un rapport récapitulatif du modèle incluant un récapitulatif et des tracés.

Outil Régression logistique

Configurer l'outil pour le traitement standard

Connexion d'une entrée

Configuration de l'outil

Personnaliser le modèle

Personnaliser la validation croisée

Personnaliser les tracés

Visualisation de la sortie

Configurer l'outil pour le traitement en BDD

Connexion d'une entrée

Configuration de l'outil

Visualisation de la sortie

Résultats de la recherche