Outil Évaluation
L'outil score crée une estimation d'une variable cible en appliquant un modèle R à un ensemble de variables prédictives fournies. Si la variable cible est catégorique, elle fournit des probabilités qu'un enregistrement (basé sur la variable Predictor) appartient à chaque catégorie. Si la variable cible est continue, elle estime la valeur de la variable cible. Bien qu'il puisse être utilisé pour évaluer les performances du modèle, il ne le fait pas seul.
Cet outil utilise l’outil R. Allez dans Options > Télécharger les outils prédictifs et connectez-vous à la Portail Téléchargements et licences Alteryx pour installer l’outil R et les packages utilisés par ce dernier. Reportez-vous à la page Outil R. Voir Télécharger et utiliser les outils prédictifs.
Type de modèle
L’outil Score est capable d’analyser des modèles provenant de divers emplacements :
- Modèle local: le modèle est extrait dans le workflow à partir d'un ordinateur local ou est accessible dans une base de données.
- Promouvoirle modèle: le modèle est stocké dans le système de gestion de modèle de promotion.
L’outil Score peut utiliser des modèles inclus à un workflow, ou des modèles accessibles à partir de la suite en BDD.
L’outil Score utilise deux entrées :
- L’objet modèle produit par un outil prédictif compatible avec le code R.
- Un flux de données contenant les champs prédicteurs sélectionnés dans la configuration du modèle. Il peut s’agir d’un flux de données Alteryx standard ou d’un flux de métadonnées XDF.
Connectez ces entrées à celle de l’outil Score afin de démarrer la configuration.
Modèles pris en charge
L’outil Score peut utiliser un flux de données issu d’un modèle prédictif, même si l’estimation a été réalisée à l’aide d’une fonction RevoScaleR. L'outil score ne peut utiliser qu'un flux de métadonnées XDF si l'entrée de l'outil de modélisation provient soit d'un Outil Sortie XDF ou Outil Entrée XDF et le modèle a été estimé à l'aide d'une fonction RevoScaleR.
Les modèles estimés par ORE utilisant un outil prédictif en BDD connecté à une source de données Oracle ne peuvent pas être utilisés pour noter un flux de données Alteryx standard, toutefois les modèles estimés avec un flux de données Alteryx standard peuvent être utilisés pour noter des sources de données Oracle.
- Nouveau nom de champ (cible continue) ou préfixe (cible catégorique): le nom du champ ou le préfixe doit commencer par une lettre et peut contenir des lettres, des chiffres et la période des caractères spéciaux («.») et un caractère de soulignement («_»). Le code R est sensible à la casse.
- Le champ cible a une valeur suréchantillonnée: ces champs sont utilisés pour ajuster les probabilités ajustées pour correspondre aux vrais pourcentages d'échantillon. Sélectionnez l’option :
- Valeur du champ cible qui a été suréchantillonnée: nom du champ suréchantillonné.
- Le pourcentage de la valeur suréchantillonnée dans les données originales avant le suréchantillonnage: le pourcentage de valeurs qui ont été répétées pendant le suréchantillonnage.
- Options de régression linéaire non-régularisées uniquement:
- Le champ cible a été transformé en journal naturel: sélectionnez pour appliquer une transformation qui adapte les valeurs à l'échelle d'origine et pour utiliser un estimateur de frottage pour tenir compte du biais de transformation subséquente.
- Incluez un intervalle de confiancede prédiction: sélectionnez pour spécifier la valeur utilisée pour calculer les intervalles de confiance.
- Options spécifiques d'entrée XDF:
- Ajouter des scores au fichier XDF d'entrée: sélectionnez cette option pour ajouter des scores au fichier XDF d'entrée au lieu de les placer dans un flux de données Alteryx.
- Nombre d'enregistrements à marquer à la fois: sélectionnez le nombre d'enregistrements dans un groupe. Les données en entrée sont traitées groupe par groupe, afin de ne pas dépasser la limite de traitement en mémoire de R.
Ces ajustements ne sont valides que si la cible est une variable catégorielle binaire.
Modèles minerai-créés
En vue de ce calcul, si vous utilisez un modèle créé par ORE, la table des estimations d’origine doit être présente dans la base de données.
L’outil Score prend en charge le traitement en BDD Oracle, Microsoft SQL Server 2016 et Teradata. Voir Vue d’ensemble des outils En base de données pour plus d'informations sur le support et les outils de la base de données.
Pour accéder à la version en BDD de l’outil Score :
- Placez un outil en BDD dans le canevas. L’outil Score bascule automatiquement vers la version en BDD.
- Effectuez un clic droit sur l’outil Score, pointez le curseur sur Sélectionner la version de l’outil, puis sélectionnez la version en BDD.
Voir Analyse prédictive Pour plus d'informations sur la prise en charge prédictive dans la base de données.
L’outil Score utilise deux entrées :
- L’objet modèle produit par un outil prédictif compatible avec le code R.
- Un flux de données contenant les champs prédicteurs sélectionnés dans la configuration du modèle. Il peut s’agir d’un flux de données Alteryx standard ou d’un flux de métadonnées XDF.
Connectez ces entrées à celle de l’outil Score afin de démarrer la configuration.
Modèles pris en charge
L’outil Score peut utiliser un flux de données issu d’un modèle prédictif, même si l’estimation a été réalisée à l’aide d’une fonction RevoScaleR. L'outil score ne peut utiliser qu'un flux de métadonnées XDF si l'entrée de l'outil de modélisation provient soit d'un Outil Sortie XDF ou Outil Entrée XDF et le modèle a été estimé à l'aide d'une fonction RevoScaleR.
Les modèles estimés par ORE utilisant un outil prédictif en BDD connecté à une source de données Oracle ne peuvent pas être utilisés pour noter un flux de données Alteryx standard, toutefois les modèles estimés avec un flux de données Alteryx standard peuvent être utilisés pour noter des sources de données Oracle.
- Nom de la table de sortie: saisissez le nom de la table dans laquelle les résultats sont enregistrés dans la base de données.
- Nouveau nom de champ (cible continue) ou préfixe (cible catégorique): le nom du champ ou le préfixe doit commencer par une lettre et peut contenir des lettres, des chiffres et la période des caractères spéciaux («.») et un caractère de soulignement («_»).
- Le champ cible a une valeur suréchantillonnée: ces champs sont utilisés pour ajuster les probabilités ajustées pour correspondre aux vrais pourcentages d'échantillon. Ces ajustements ne sont valides que si la cible est une variable catégorielle binaire. Sélectionnez l’option :
- Valeur du champ cible qui a été suréchantillonnée: nom du champ suréchantillonné.
- Le pourcentage de la valeur suréchantillonnée dans les données originales avant le suréchantillonnage: le pourcentage de valeurs qui ont été répétées pendant le suréchantillonnage.
- Options de régression linéaire uniquement:
- Le champ cible a été transformé en journal naturel: sélectionnez pour appliquer une transformation qui adapte les valeurs à l'échelle d'origine et pour utiliser un estimateur de frottage pour tenir compte du biais de transformation subséquente.
- Incluez un intervalle de confiancede prédiction: sélectionnez pour spécifier la valeur utilisée pour calculer les intervalles de confiance.
- Teradata configuration spécifique: Microsoft machine learning Server nécessite des informations de configuration supplémentaires sur la plate-forme Teradata spécifique à utiliser. Ces informations sont généralement communiquées par un administrateur Teradata local.
- Les chemins qui, sur le serveur Teradata, mènent aux exécutables binaires de R ;
- Emplacement d'écriture de fichier temporaire utilisé par Microsoft machine learning Server.
Aucun autre caractère spécial n’est autorisé et R est sensible à la casse.
Modèles minerai-créés
En vue de ce calcul, si vous utilisez un modèle créé par ORE, la table des estimations d’origine doit être présente dans la base de données.
- Sourcedu modèle: sélectionnez la source de l'objet modèle qui est passé dans l'entrée (M) de l'outil score. Celui-ci peut se trouver :
- Dans la base de données (il s’agit de la valeur située dans le champ Nom du flux de données).
- Dans le champ Objet du flux de données.
La sortie contient les flux de données d’origine, incluant les valeurs prédictives du modèle. Dans le cas d’un modèle qui utilise une cible catégorielle, une probabilité prédite pour chaque niveau de la variable cible est indiquée dans un nom de champ. Ce dernier inclut le préfixe fourni par l’utilisateur, ainsi que le suffixe correspondant au niveau possible de la variable cible.
Promote est une plate-forme permettant le déploiement, la gestion et la mise à l’échelle des modèles prédictifs. Alteryx est capable de s’y connecter afin d’évaluer les modèles qui y sont stockés.
Établir un Alteryx promouvoir la connexion.
Connexion Alteryx Promote : liste déroulante utilisée pour faire un choix parmi les connexions de Promote enregistrées.
Ajouter une connexion : option à ajouter à la liste des connexions Promote disponibles. Le gestionnaire de connexion Promote fonctionne indépendamment des workflows.
- Cliquez sur Ajouter une connexion.
- Dans la fenêtre Ajouter une connexion, entrez une URL Alteryx Promote , qui pointe vers l’emplacement de stockage de votre modèle.
- Cliquez sur Suivant.
- Dans la fenêtre Identifiants d’Alteryx Promote, tapez votre Nom d'utilisateur et votre clé API.
- Cliquez sur Connexion.
- Si vous êtes connecté, dans la fenêtre Connexion établie, sélectionnez Terminer. La nouvelle connexion est sélectionnée et visible dans la liste déroulante.
- Sélectionnez une connexion disponible.
- Cliquez sur Supprimer la connexion.
- Dans la fenêtre de Confirmation, vérifiez que l’URL et le nom d’utilisateur sont associés à la connexion que vous voulez supprimer.
- Cliquez sur OK. La connexion n'est plus disponible dans la liste déroulante.
Accès Promote
Si vous ne savez pas si vous avez accès à la fonction Promote ou si vous avez besoin d’aide pour trouver les informations d’identification nécessaires, contactez votre administrateur local ou votre représentant de l'assistance.
Une liste des modèles auxquels vous avez accès est générée. Faites défiler cette liste ou utilisez la fonction de recherche pour localiser le modèle à utiliser, puis sélectionnez le chemin associé.
Une fois le chemin sélectionné, les informations concernant le modèle sont collectées.
- Nom: nom du modèle.
- Propriétaire: le propriétaire du modèle.
- État: état actuel du modèle, reflétant son accessibilité.
- En ligne: le modèle est à jour et prêt à traiter les données.
- Building: le modèle est actuellement mis à jour et ne peut pas traiter les données.
- Échec du test unitaire: construction du modèle fini, mais les composants n'ont pas pu être correctement construit. Le modèle n’est pas en mesure de traiter des données.
- Échec: le modèle n'a pas pu être correctement construit et ne peut pas traiter les données.
- Offline: le modèle n'a pas été généré et ne peut pas traiter les données.
- Dernière mise à jour: l'horodatage de la dernière version du modèle.
Vérifiez que le modèle est disponible pour le traitement des données et sélectionnez terminé.
Le Résumé de configuration fournit un résumé des informations d'identification utilisées et du modèle Résumé du modèle sélectionné.