Logistic Regression Icon

Outil Régression Logistique

Version:
2022.3
Last modified: September 25, 2020

Outil Régression logistique crée un modèle qui relie une variable binaire cible (telle que oui/non, réussite/échec) à une ou plusieurs variables prédictives pour obtenir une estimation de probabilité pour chacune des deux réponses possibles pour la variable cible.Les modèles courants de régression logistique incluent le logit, le probit et le journal de bord complémentaire. Voir Régression logistique.

Cet outil utilise l’outil R. Accédez à Options > Téléchargez des outils prédictifs et connectez-vous au portail Téléchargements et licences Alteryx pour installer R et les packages utilisés par l’outil R. Voir Télécharger et utiliser des outils prédictifs.

Configurer l’outil pour le traitement standard

Connecter une entrée

Connectez un flux de données Alteryx ou un flux de métadonnées XDF qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.

Si les données d’entrée proviennent d’un flux de données Alteryx, la fonction glm R open-source et les fonctions glmnet et cv.glmnet (du package glmnet)sont utilisées pour l’estimation du modèle.

Si les données d’entrée proviennent d’un outil de sortie XDF ou d’un outil d’entrée XDF, la fonction RxLogit RevoScaleR est utilisée pour l’estimation du modèle. L’avantage de la fonction RevoScaleR est qu’elle permet d’analyser des jeux de données beaucoup plus volumineux (mémoire insuffisante), au détriment d’une augmentation de la charge pour créer un fichier XDF et avec l’impossibilité de créer une partie de la sortie de diagnostic de modèle avec les fonctions R open source. En outre, elle ne permet d’utiliser qu’une fonction de liaison logit.

Configurer l'outil

  • Nom du modèle :Entrez un nom pour le modèle afin d’identifier le modèle lorsqu’il est référencé dans d’autres outils. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
  • Sélectionnez la variable cible: sélectionnez les données à prévoir. Une variable cible est également connue sous le nom de variable de réponse ou de variable dépendante.
  • Sélectionnez variables prédictor :sélectionnez les données à utiliser pour influencer la valeur de la variable cible. Une variable prédictive est également appelée « fonction » ou « variable indépendante ». Vous pouvez sélectionner un nombre infini de variables prédictives, mais la variable cible ne doit pas être également une variable prédictive. Les colonnes qui contiennent des identificateurs uniques, comme les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.

Sélectionnez Personnaliser pour modifier les paramètres Modèle, Validation croiséeet Tracés.

Personnaliser le modèle

  • Utiliser des poids d’échantillonnage dans l’estimationdu modèle : Sélectionnez une variable pour déterminer la quantité d’importance à placer sur chaque enregistrement lors de la création d’une estimation de modèle. Si une valeur est utilisée comme prédicteur et comme variable de pondération, la variable de pondération apparaît alors dans l’appel de modèle dans la sortie du rapport avec la chaîne « Right_ » ajoutée au début.
  • Utilisez la régression régularisée: Sélectionnez pour équilibrer la même minimisation de la somme d’erreurs carrées avec un terme de pénalité sur la taille des coefficients et produire un modèle plus simple.
    • Entrez la valeur alpha: Sélectionnez une valeur comprise entre 0 (régression de crête) et 1 (lasso) pour mesurer la quantité d’accentuation donnée au coefficient.
    • Standardisez les variables prédictor teur :sélectionnez pour faire toutes les variables de la même taille en fonction de l’algorithme utilisé.
    • Utilisez la validation croisée pour déterminer les paramètres du modèle: sélectionnez pour effectuer la validation croisée et obtenir différents paramètres de modèle
      • Nombre de plis: sélectionnez le nombre de plis pour diviser les données. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
      • Quel type de modèle: Sélectionnez le type de modèle pour déterminer les coefficients.
        • Modèle simple
        • Modèle présentant moins d’erreurs standard dans l’échantillon
      • Définir les semences: Sélectionnez pour assurer la reproductibilité de la validation croisée et sélectionnez la valeur de la graine utilisée pour attribuer des enregistrements aux plis. La sélection de la même amorce à chaque fois que le workflow est exécuté garantit la présence systématique des mêmes enregistrements dans le même pli. La valeur doit être un entier positif.
  • Sélectionnez le typede modèle : Sélectionnez le type de modèle à utiliser pour prédire la variable cible.
    • logit
    • probit
    • logarithme double complémentaire

Personnaliser la validation croisée

  • Utilisez la validation croisée pour déterminer les estimations de la qualité du modèle: Sélectionnez pour effectuer la validation croisée et obtenir diverses mesures et graphiques de qualité du modèle. Certains graphiques et métriques apparaîtront dans la sortie R statique, tandis que d’autres s’afficheront dans la sortie I interactive.
  • Nombre de plis: sélectionnez le nombre de plis pour diviser les données. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
  • Nombre d’essais: sélectionnez le nombre de fois pour répéter la procédure de validation croisée. Les plis sont sélectionnés différemment dans chaque essai, et les résultats globaux sont moyens dans tous les essais. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
  • Entrez une classe positive pourla variable cible : Certaines des mesures signalées par l’outil dans les cas de classification binaire (tels que le taux positif réel) nécessitent la désignation d’une classe positive. Pour effectuer la classification binaire, tapez une des deux classes positives de la variable cible. Si elle est laissée vide, l'une des classes est automatiquement déterminée comme la classe positive. Cette option n’est disponible que pour les modèles de classification.
  • Utilisez la validation croisée stratifiée: Sélectionnez pour que chaque pli ait le même pourcentage de chaque classe que dans l’ensemble du jeu de données. Cette option n’est disponible que pour les modèles de classification.
  • Définir les semences: Sélectionnez pour assurer la reproductibilité de la validation croisée et sélectionnez la valeur de la graine utilisée pour attribuer des enregistrements aux plis. La sélection de la même amorce à chaque fois que le workflow est exécuté garantit la présence systématique des mêmes enregistrements dans le même pli. La valeur doit être un entier positif.

Personnaliser les parcelles

​​​​​​​Résolution graphique: Sélectionnez la résolution du graphique en points par pouce : 1x (96 dpi), 2x (192 dpi) ou 3x (288 dpi).

  • Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur.
  • Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.

Afficher la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • O (Sortie) : affiche le nom du modèle et la taille de l’objet dans la fenêtre Résultats.
  • R (Rapport) : Affiche un rapport sommaire du modèle qui comprend un résumé et des graphiques.
  • I (Interactif) : affiche un tableau de bord interactif de visualisations de support qui vous permet de zoomer, de planer et de cliquer.

Configurer l’outil pour le traitement dans la base de données

L’outil Régression logistique prend en charge le traitement en BDD Oracle, Microsoft SQL Server 2016 et Teradata. Voir Aperçu d’En base de données pour plus d’informations sur la prise en charge et les outils En base de données.

Lorsqu'un outil de régression logistique est placé sur la toile avec un autre outil In-DB, l'outil passe automatiquement à la version In-DB. Pour changer la version de l’outil, cliquez avec le bouton droit sur l’outil, pointez le curseur sur Sélectionner la version de l’outil, puis cliquez sur une autre version de l’outil. Voir Analyses prédictives pour en savoir plus sur la prise en charge des prédictifs en base de données.

Connecter une entrée

Connectez un flux de données en BDD qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.

Si l’entrée provient d’un flux de données SQL Server ou Teradata in-database, la fonction RxLogit microsoft machine learning server (du package RevoScaleR) est utilisée pour l’estimation du modèle. Cela permet de procéder au traitement sur le serveur de base de données, tant que l’ordinateur local et le serveur ont été configurés avec Microsoft Machine Learning Server, et peut entraîner une amélioration significative des performances.

Si l’entrée provient d’un flux de données Oracle dans la base de données, la fonction Or Enterprise ore.lm Oracle R (du package OREmodels) est utilisée pour l’estimation du modèle. Cela permet de procéder au traitement sur le serveur de base de données, tant que l’ordinateur local et le serveur ont été configurés avec Oracle R Enterprise, et peut entraîner une amélioration significative des performances.

Pour un flux de travail dans la base de données dans une base de données Oracle, la fonctionnalité complète de l'objet modèle résultant en aval ne se produit que si l'outil de régression logistique est connecté directement à partir d'un outil Connect In-DB avec une seule table complète sélectionnée, ou si un outil Write Data In-DB est utilisé immédiatement avant l'outil de régression logistique pour enregistrer la table de données d'estimation dans la base de données. Oracle R Enterprise utilise la table de données d’estimation pour fournir toutes les fonctionnalités d’objet modèle, comme le calcul des intervalles de prédiction.

Configurer l'outil

  • Nom du modèle: Chaque modèle doit recevoir un nom afin qu’il puisse être identifié ultérieurement. Le choix est soit de fournir un nom, soit d’avoir un nom généré automatiquement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
  • Sélectionnez la variable cible: sélectionnez le champ dans le flux de données à prévoir.
  • Sélectionnez les variables de prédicteur: choisissez les champs dans le flux de données que vous croyez « cause » des changements dans la valeur de la variable cible. Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
  • Omettez une constante de modèle: vérifiez cet élément si vous souhaitez omettre une constante du modèle. À n’utiliser que si vous avez un motif explicite pour le faire.
  • Options spécifiquesà Oracle : cette option permet la configuration d’options supplémentaires uniquement pertinentes pour la plate-forme Oracle.
    • Type de modèle: Sélectionnez le type de modèle à utiliser pour prédire la variable cible.
      • logit
      • probit
      • logarithme double complémentaire
    • Enregistrer le modèle dans la base de données: il faut enregistrer l’objet modèle estimé dans la base de données et est recommandé pour que les objets du modèle et les tables d’estimation vivent ensemble dans un emplacement centralisé dans la base de données Oracle.
  • Utilisez des poids d’échantillonnage pour l’estimationdu modèle : Cochez la case à cocher, puis sélectionnez un champ de poids dans le flux de données pour estimer un modèle qui utilise le poids d’échantillonnage. Un champ est utilisé comme prédicteur et comme variable de pondération, puis la variable de pondération apparaît dans l’appel de modèle dans la sortie avec la chaîne « Right_ » ajoutée au début.
  • Configuration spécifique aux teradata :Microsoft Machine Learning Server a besoin d’informations de configuration supplémentaires sur la plate-forme Teradata spécifique à utiliser – en particulier, les chemins d’accès sur le serveur Teradata vers les exécutables binaires de R et l’emplacement où les fichiers temporaires utilisés par Microsoft Machine Learning Server peuvent être écrits. Ces informations devront être communiquées par l’administrateur Teradata local.

Afficher la sortie

Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.

  • O ancre : Sortie. Affiche le nom du modèle et la taille de l’objet dans la fenêtre Résultats.
  • R ancre: Rapport. Affiche un rapport récapitulatif du modèle incluant un récapitulatif et des tracés.
Cette page vous a-t-elle été utile ?

Vous rencontrez des problèmes avec votre produit Alteryx ? Visitez la communauté Alteryx ou contactez le  support. Vous n'arrivez pas à soumettre ce formulaire ? Envoyez-nous un e-mail.