Outil Régression linéaire
L'outil de régression linéaire crée un modèle simple pour estimer les valeurs, ou évaluer les relations entre les variables basées sur une relation linéaire.
Les deux principaux types de régression linéaire sont non-régularisés et régularisés:
- La régression linéaire non régularisée produit des modèles linéaires qui réduisent la somme des erreurs quadratiques entre les valeurs réelles et les valeurs prédites de la variable cible des données de formation.
- La régression linéaire régularisée équilibre la même minimisation de la somme des erreurs au carré avec un terme de pénalité sur la taille des coefficients et tend à produire des modèles plus simples qui sont moins enclins au surajustement.
Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.
Paquet R | Type | Description du package |
---|---|---|
AlteryxPredictive | Personnalisé | Ce paquet fournit des fonctions personnalisées et appelle les packages cran et Custom R. |
AlteryxRDataX | Personnalisé | Ce paquet fournit une connectivité entre Alteryx et r, ainsi qu'un certain nombre de fonctions pour faciliter l'interaction entre Alteryx et r. |
AlteryxRviz | Personnalisé | Ce package est obsolète. Il fournit des fonctions qui conduisent des visualisations interactives pour les outils prédictifs dans Alteryx (séries chronologiques, analyse réseau). |
FlightDesk | Personnalisé | Ce paquet facilite la création de tableaux de bord interactifs pour la production de rapports de modèles prédictifs. |
Connectez un flux de données Alteryx ou un flux de métadonnées XDF qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.
Si les données d'entrée proviennent d'un flux de données Alteryx, la fonction R LM Open source et les fonctions glmnet et CV. glmnet (à partir du paquet glmnet) sont utilisées pour l'estimation du modèle.
Si les données d'entrée proviennent soit d'un outil de sortie XDF, soit d'un outil d'entrée XDF, la fonction rxLinMod RevoScaleR est utilisée pour l'estimation du modèle. L’avantage de la fonction RevoScaleR est qu’elle permet d’analyser des jeux de données beaucoup plus volumineux (mémoire insuffisante), au détriment d’une augmentation de la charge pour créer un fichier XDF et avec l’impossibilité de créer une partie de la sortie de diagnostic de modèle avec les fonctions R open source.
- Nom du modèle: tapez un nom pour le modèle pour identifier le modèle lorsqu'il est référencé dans d'autres outils. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
- Sélectionnez la variable cible: sélectionnez les données à prévoir. Une variable cible est également appelée « réponse » ou « variable dépendante ».
- Sélectionnez les variables prédictives: sélectionnez les données à utiliser pour influencer la valeur de la variable cible. Une variable prédictive est également appelée « fonction » ou « variable indépendante ». Vous pouvez sélectionner un nombre infini de variables prédictives, mais la variable cible ne doit pas être également une variable prédictive.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Cliquez sur personnaliser pour modifier les paramètres du modèle, de la validation croisée et des tracés .
- Omettre une constantede modèle: sélectionnez cette option pour omettre une constante et la ligne la plus adaptée passe par l'origine.
- Utilisez une variable de poids pour les moindres carrés pondérés: sélectionnez une variable pour déterminer la quantité d'importance à placer sur chaque enregistrement lors de la création d'un modèle des moindres carrés.
- Utiliser la régression régularisée: sélectionner pour équilibrer la même minimisation de la somme des erreurs au carré avec un terme de pénalité sur la taille des coefficients et produire un modèle plus simple.
- Entrez la valeur d'alpha: sélectionnez une valeur comprise entre 0 (régression de crête) et 1 (Lasso) pour mesurer la quantité d'emphase donnée au coefficient.
- Normalisation des variables prédictives: sélectionnez cette option pour que toutes les variables soient de la même taille en fonction de l'algorithme utilisé.
- Utilisez la validation croisée pour déterminer les paramètres du modèle: sélectionnez cette option pour effectuer une validation croisée et obtenir différents paramètres de modèle
- Nombre de plis: sélectionnez le nombre de plis pour diviser les données. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
- Quel type de modèle: sélectionnez le type de modèle pour déterminer les coefficients.
- Modèle simple
- Modèle présentant moins d’erreurs standard dans l’échantillon
- Set Seed: sélectionnez cette option pour garantir la reproductibilité de la validation croisée et sélectionner la valeur de la graine utilisée pour attribuer des enregistrements aux plis. La sélection de la même amorce à chaque fois que le workflow est exécuté garantit la présence systématique des mêmes enregistrements dans le même pli. La valeur doit être un entier positif.
- Utiliser la validation croisée pour déterminer les estimations de la qualité du modèle: sélectionner pour effectuer la validation croisée et obtenir diverses métriques et graphiques de qualité de modèle. Certains graphiques et métriques apparaîtront dans la sortie R statique, tandis que d’autres s’afficheront dans la sortie I interactive.
- Nombre de plis: sélectionnez le nombre de plis pour diviser les données. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
- Nombre d'essais: sélectionnez le nombre de fois où vous souhaitez répéter la procédure de validation croisée. Les plis sont sélectionnés différemment lors de chaque tentative et la moyenne des résultats de toutes les tentatives est calculée. Plus le nombre de plis est élevé, plus les estimations de la qualité du modèle sont fiables ; toutefois, plus le nombre de plis est bas, plus l’outil s’exécute rapidement.
- Set Seed: sélectionnez cette option pour garantir la reproductibilité de la validation croisée et sélectionner la valeur de la graine utilisée pour attribuer des enregistrements aux plis. La sélection de la même amorce à chaque fois que le workflow est exécuté garantit la présence systématique des mêmes enregistrements dans le même pli. La valeur doit être un entier positif.
-
Résolution du graphique : sélectionnez la résolution du graphique en points par pouce : 1x (96 ppp) ; 2x (192 PPP) ; ou 3x (288 PPP). Une résolution basse produit un fichier de plus petite taille et facilite la visualisation sur un moniteur. Une résolution élevée produit un fichier de plus grande taille avec une qualité d’impression supérieure.
- Afficher les graphiques: sélectionnez cette option pour afficher les graphiques lors de l'utilisation de la régression régularisée.
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
- O (sortie): affiche le nom du modèle et la taille de l'objet dans la fenêtre de résultats.
- R (rapport): affiche un rapport récapitulatif du modèle qui comprend un résumé et des parcelles.
- I (interactif): affiche un tableau de bord des visualisations interactives pour faciliter la découverte de données et l'exploration de modèles.
L’outil Régression linéaire prend en charge le traitement en BDD Oracle, Microsoft SQL Server 2016 et Teradata. Voir Vue d’ensemble des outils En base de données pour plus d'informations sur le support et les outils de la base de données.
Si un outil Régression linéaire est placé sur le canevas avec un autre outil en BDD, l’outil bascule automatiquement vers la version en BDD. Pour changer la version de l’outil, cliquez avec le bouton droit sur l’outil, pointez le curseur sur Sélectionner la version de l’outil, puis cliquez sur une autre version de l’outil. Voir Analyse prédictive pour plus d'informations sur la prise en charge prédictive dans la base de données.
Connectez un flux de données en BDD qui inclut un champ cible d’intérêt avec un ou plusieurs champs prédicteurs possibles.
Si l'entrée provient d'un flux de données SQL Server ou Teradata, la fonction rxLinMod de Microsoft machine learning Server (à partir du package RevoScaleR ) est utilisée pour l'estimation du modèle. Cela permet de faire le traitement sur le serveur de base de données, aussi longtemps que l'ordinateur local et le serveur ont été configurés avec Microsoft machine learning Server, et peut entraîner une amélioration significative sur les performances.
Si l'entrée provient d'un flux de données Oracle in-Database, la fonction Oracle R Enterprise Ore. LM (du paquet OREmodels ) est utilisée pour l'estimation du modèle. Il est ainsi possible d’effectuer le traitement sur le serveur de base de données, à condition que la machine locale et que le serveur soient configurés avec Oracle R Enterprise, ce qui augmente considérablement les performances.
Dans le cas d’un workflow en BDD situé dans une base de données Oracle, les fonctionnalités intégrales de l’objet modèle généré en aval ne sont disponibles que si l’outil Régression linéaire est directement connecté depuis un outil Connecter en BDD avec une seule table complète sélectionnée, ou si un outil Écrire des données en BDD est utilisé directement avant l’outil Régression linéaire pour enregistrer la table de données d’estimation dans la base de données. Oracle R Enterprise utilise la table de données d’estimation pour fournir toutes les fonctionnalités d’objet modèle, comme le calcul des intervalles de prédiction.
- Nomdu modèle: chaque modèle doit être donné un nom afin qu'il puisse être identifié ultérieurement. Vous devez fournir un nom ou générer un nom automatiquement. Les noms de modèles doivent commencer par une lettre et peuvent contenir des lettres, des chiffres, ainsi que les caractères spéciaux suivants : point (« . ») et trait de soulignement (« _ »). Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
- Sélectionnez la variable cible: sélectionnez le champ dans le flux de données que vous souhaitez prédire.
- Sélectionnez les variables prédictives: choisissez les champs du flux de données que vous croyez «provoquer» les modifications de la valeur de la variable cible.
- Omettre une constantede modèle: cochez cet élément si vous souhaitez omettre une constante du modèle. À n’utiliser que si vous avez un motif explicite pour le faire.
- Utiliser les pondérations d'échantillonnage pour l'estimation du modèle: cochez la case, puis sélectionnez un champ de poids dans le flux de données pour estimer un modèle qui utilise le poids d'échantillonnage. Un champ est utilisé comme prédicteur et comme variable de pondération, puis la variable de pondération apparaît dans l’appel de modèle dans la sortie avec la chaîne « Right_ » ajoutée au début.
- Options spécifiques à Oracle: cette option permet la configuration d'options supplémentaires uniquement pertinentes pour la plate-forme Oracle.
- Enregistrez le modèle dans la base de données: provoque l'enregistrement de l'objet de modèle estimé dans la base de données et est recommandé pour que les objets de modèle et les tables d'estimation vivent ensemble dans un emplacement centralisé dans la base de données Oracle.
- Teradata configuration spécifique: Microsoft machine learning Server a besoin d'informations de configuration supplémentaires sur la plate-forme Teradata spécifique à utiliser-en particulier, les chemins sur le serveur Teradata pour les exécutables binaires de R, et l'emplacement où les fichiers temporaires utilisés par Microsoft machine learning Server peuvent être écrits. Ces informations devront être communiquées par l’administrateur Teradata local.
Les colonnes contenant des identifiants uniques, tels que les clés primaires de substitution et les clés primaires naturelles, ne doivent pas être utilisées dans les analyses statistiques. Elles ne comportent pas de valeur prédictive et peuvent entraîner des exceptions lors de l’exécution.
Connectez un outil Explorateur à chaque ancrage de sortie pour afficher les résultats.
- O (sortie): affiche le nom du modèle et la taille de l'objet dans la fenêtre de résultats.
- R (rapport): affiche un rapport récapitulatif du modèle qui comprend un résumé et des parcelles.