Skip to main content

Microsoft Azure Data Lake Store

Type de connexion

Outil Alteryx. La version la plus récente est disponible dans Alteryx Marketplace .

Détails du pilote

Selon la méthode de connexion choisie, un administrateur peut avoir besoin de configurer l'accès au Azure Data Lake et à Azure Active Directory avant de pouvoir établir une connexion à l'aide des outils du Alteryx Azure Data Lake.

Type de prise en charge

Lecture et écriture

Version

Description

v2.5.0

  • Compatible avec Alteryx Designer et Server 2021.4.2 Correctif 6, 2022.1 Correctif 4 et versions ultérieures.

  • Nécessite AMP Engine.

  • Alteryx Server nécessite des informations d'identification stockées dans DCM pour exécuter des workflows.

  • Ajout d'une option pour télécharger des fichiers localement et les traiter ultérieurement.

  • Suppression de la prise en charge de l'authentification Gen1.

  • Correction des problèmes liés à l'authentification DCM. (TPM-2462, TPM-2176)

  • Correction des problèmes où l'outil Entrée ADLS ne pouvait pas lire correctement les valeurs nulles. (TPM-3098, TPM-2659, TPM-2229)

  • Correction des problèmes où le workflow ne pouvait pas s'exécuter si les outils ADLS étaient configurés pour commencer le traitement des données sur une ligne autre que la ligne 1. (TPM-2609, TPM-2277)

  • Correction des problèmes où l'outil Entrée ADLS ignorait les autres données après le traitement d'une seule boucle de fragment. (TPM-2781)

  • Correction d'un problème où l'outil Entrée ADLS renvoyait une erreur de fichier CSV mal formé. (TPM-2175)

  • Correction d'un problème où l'outil Sortie ADLS modifiait les valeurs de date. (TPM-1928)

v2.4.3

  • Compatible avec Alteryx Designer et Server 2021.4.2 correctif 4, 2022.1 correctif 2 et versions ultérieures.

  • Compatible avec AMP Engine uniquement.

  • Ajout du support pour DCM .

    • DCM est nécessaire pour exécuter ce connecteur sur Alteryx Server.

  • Compatible FIPS.

  • La validation SSL/TLS est désormais effectuée par rapport au magasin de certificats Windows.

  • Amélioration des performances et de la stabilité d'écriture.

  • Ajout d'une option pour ajuster la consommation de mémoire et les performances en modifiant la taille de bloc de téléchargement variable.

  • Correction d'un problème où les données XLSX étaient tronquées lorsque les cellules contenaient plus de 255 caractères.

  • Correction d'un problème avec le caractère non Unicode dans les certificats SSL.

  • Correction d'un problème avec l'outil ADLS Output ajoutant des guillemets doubles bien que le champ Guillemet soit défini sur Aucun . (TPM-1964)

  • Améliorations apportées à la sécurité.

v2.2.0

  • Permet à l'utilisateur de spécifier un délimiteur CSV personnalisé dans Sortie.

  • Correction de la vulnérabilité potentielle XXE.

v2.1.0

  • Nouvelle interface utilisateur améliorée.

  • Résolution de problèmes mineurs.

  • Compatible avec Alteryx Designer et Alteryx Server version 2021.2 et ultérieure.

v2.0

  • Mise à niveau de l'interface utilisateur et gestion améliorée des erreurs

  • Ajout de la prise en charge des stockages Gen2

  • Ajout de la prise en charge d'Azure Government, du cloud chinois et des points de terminaison personnalisés

  • Prise en charge de l'authentification par clé partagée

  • Prise en charge des applications publiques (propriétaires et Alteryx)

  • Prise en charge multi-locataire

  • Prise en charge de l'entrée et de la sortie Excel

  • Ajout de la possibilité d'utiliser des délimiteurs personnalisés pour la lecture et l'écriture de fichiers .csv

  • Compatible avec Alteryx Designer et Alteryx Server version 2019.3 et ultérieure.

v1.1.0

  • Correction des erreurs d'authentification de l'utilisateur final

  • Utilisateurs autorisés à spécifier un URI de redirection pour l'authentification de l'utilisateur final

v1.0.2

  • Mise à jour des options de page de code.

  • Distinction entre les codages avec la même langue (par exemple, « langue » -> « langue (code spécifique) ») et les encodages classés par ordre alphabétique.

  • Permet à l'utilisateur de spécifier le codage des fichiers CSV sur l'outil de sortie.

  • Amélioration du message d'erreur indiquant qu'un nom de magasin non valide est fourni.

  • Amélioration de la gestion de la conversion des données pour ne pas afficher d'avertissement au lieu d'une erreur lorsqu'une valeur est manquante dans un champ.

  • Correction d'une erreur dans laquelle les fichiers/dossiers affichés ne sont pas actualisés après que l'utilisateur a modifié le nom du magasin.

  • Correction d'un problème où les valeurs par défaut n'étaient parfois pas respectées.

  • Désactivation de la journalisation de production pour éviter les problèmes d'autorisations avec différentes installations et configurations de Designer et pour prendre en charge la fonctionnalité de planification de workflow

v1.0.1

  • Résolution du problème empêchant la bonne installation des packages

v1.0.0

  • Version initiale pour Entrée de fichier Azure Data Lake et Sortie de fichier Azure Data Lake

Outils Alteryx utilisés pour la connexion

Gestionnaire de connexions aux données

Les outils Azure Data Lake Store version 2.3.0 et ultérieure prennent en charge le Gestionnaire de connexions aux données pour un stockage plus facile et plus sûr de vos informations d'identification. Créez une connexion à Azure Data Lake Store et réutilisez facilement les informations d'identification stockées dans les workflows qui incluent les outils Azure Data Lake Store. Alteryx Server nécessite des informations d'identification stockées pour exécuter correctement les workflows publiés.

Activation d'AMP Engine

Assurez-vous que AMP Engine est activé pour les workflows qui contiennent les outils Azure Data Lake Store version 2.3.0 et ultérieure.

Authentification et autorisation

Les points de terminaison Azure Data Lake pour les stockages Gen1 et Gen2 diffèrent. Lors de l'authentification, vous devez spécifier le type de stockage auquel vous souhaitez vous connecter. Si vous n'êtes pas certain du type de stockage que vous utilisez, vous pouvez demander à votre administrateur Azure ou consulter votre portail Microsoft Azure .

CONSEILS

  • Pour la publication de workflows sur Server ou AAH, utilisez les types d'authentification Service-à-Service ou clé partagée. Vous n'aurez pas besoin de télécharger à nouveau votre workflow une fois que votre jeton d'actualisation aura expiré.

  • Comme le chargement des métadonnées peut prendre beaucoup de temps, vous pouvez désactiver le chargement des métadonnées en sélectionnant « Désactiver la configuration automatique » dans les paramètres utilisateur avancés (Options > Paramètres utilisateur > Modifier les paramètres utilisateur > Avancés).

Vous devez avoir accordé des autorisations pour lire et écrire des données dans un compte Azure Data Lake Store. Pour plus d'informations sur l'attribution et l'application de ces autorisations, reportez-vous à la documentation officielle de Microsoft.

Locataire unique vs multi-locataire

Les applications mono-propriétaires sont uniquement disponibles à l'utilisateur pour lequel elles ont été enregistrées (utilisateur principal). Votre administrateur Azure et vous-même pourrez créer des applications et un stockage Azure pour un utilisateur unique sous le compte avec lequel vous vous authentifiez dans Designer. Les applications multi-propriétaires sont disponibles aux utilisateurs du compte d'authentification ainsi qu'à d'autres utilisateurs.

Utilisateur final (de base)

L'authentification de l'utilisateur final de base est le moyen le plus pratique d'accéder à vos données ADLS dans Designer. Contactez votre administrateur Azure pour autoriser les applications Alteryx publiques dans le locataire Azure de votre organisation. Consultez la documentation Microsoft qui contient les étapes à suivre .

Locataire : commun

ID client ADLS pour l'application Gen2 Alteryx : 2584cace-63ff-47cb-96d2-d153704f4d75

Après cette configuration, vous et vos collègues pouvez utiliser vos informations d'identification Microsoft normales pour accéder aux données ADLS.

Utilisateur final (avancé)

L'authentification l'utilisateur final avancé prend en charge l'authentification unique et multi-locataire et peut être utilisée avec des applications publiques et privées.

Pour la configuration des informations d'identification, reportez-vous aux instructions de la documentation Microsoft .

Configuration de l'authentification

  • ID de locataire : vous pouvez obtenir l'ID de locataire à partir de votre portail Azure, ou vous fier au mécanisme de découverte automatique dans Azure en entrant « common » dans le champ ID de locataire. En cas d'accès à plusieurs locataires, vous pouvez spécifier l'ID de locataire. Pour plus d'informations sur les configurations multi-locataires, reportez-vous à la rubrique Locataire unique vs multi-locataire.

  • ID client : unique identifiant d'une application Azure. Le champ ID client est obligatoire.

  • Secret du client : si votre application est privée, il est obligatoire de fournir un secret du client. Si vous utilisez une application publique, veuillez laisser le champ vide.

Service-à-Service

L'authentification de service à service est adaptée à la publication de workflows sur Server et Hub.

Pour la configuration des informations d'identification, reportez-vous aux instructions de la documentation Microsoft .

Clé partagée

Note

  • L'authentification par clé partagée ne peut être utilisée qu'avec les stockages Gen2.

  • La publication sur Server ne fonctionne que pour Designer et Server 2020.4 et les versions ultérieures car cette méthode d'authentification a été introduite à partir des versions 2020.4.

Avec un compte de stockage Azure, Microsoft génère deux clés d'accès qui peuvent être utilisées pour autoriser l'accès à Azure Data Lake via une autorisation de clé partagée. Vous trouverez plus d'informations sur la clé partagée et son utilisation dans la documentation Microsoft .

Clouds nationaux Azure et points de terminaison personnalisés

À partir de la version v2.0, les connecteurs ADLS prennent en charge l'accès aux points de terminaison personnalisés. Les URL des clouds nationaux des États-Unis et de la Chine peuvent être sélectionnées sur l'écran d'authentification des connecteurs dans le champ Point de terminaison de l'autorité d'authentification.

Configuration de l'application API Microsoft Azure personnalisée

Pour configurer une application API personnalisée pour cet outil, consultez notre guide.Configuration de l'application API Microsoft Azure

Options de sélection des données et de configuration

Dans l'onglet Données, vous pouvez spécifier les données que vous souhaitez utiliser :

  1. Spécifiez le Nom du compte de stockage . Ce stockage doit être du même type (Gen1, respectivement Gen2) que celui sélectionné sur la page Authentification.

  2. Pour les stockages Gen2 , spécifiez le Nom du système de fichiers .

  3. Une fois le système de stockage et de fichiers Gen2 sélectionné, vous pouvez configurer le chemin du fichier que vous souhaitez lire ou écrire. Vous pouvez spécifier le chemin d'accès en l'entrant directement dans le champ Chemin du fichier ou en utilisant l'explorateur de fichiers. Pour l'outil Sortie de fichier Azure Data Lake, vous pouvez utiliser le même mécanisme pour créer un nouveau fichier.

  4. Pour les fichiers Excel, le nom de la feuille peut être indiqué dans le champ Feuille situé sous l'explorateur de fichiers. S'il n'est pas renseigné, la première feuille sera automatiquement sélectionnée. Dans le cas de nouveaux fichiers, le nom par défaut « Feuille » sera attribué à la feuille.

Formats de fichier et configuration

Les outils ADLS prennent en charge les formats de données suivants : .csv, .avro, .json et .xlsx.

  • Fichiers CSV

    • Lecture

    • Écrire : vous pouvez remplacer ou ajouter un fichier CSV existant.

Conseil

Pour assurer la compatibilité avec les outils d'entrée et de sortie de données, le codage doit être UTF-8 SIG .

  • Fichiers JSON

    • Lire : pour lire correctement les fichiers JSON, le codage UTF-8 sans indicateur d'ordre des octets (BOM) doit être utilisé.

    • Écrire : la conversion du type de données lors de l'écriture dans des fichiers JSON présente les limitations suivantes : les cellules Décimales, DateHeure et Heure sont sorties sous forme de chaînes .

  • Fichiers Avro

    • Lecture

    • Écriture

  • Fichiers Excel

    • Lecture  : toutes les données sont lues en tant que V_Wstrings.

    • Écriture

Détails supplémentaires

  • Si l'état est sans accès (lecture/écriture) à un certain dossier créé par un autre compte, cela est dû à des autorisations.

  • Si vous rencontrez une erreur indiquant que le jeton a peut-être été révoqué, vous devez vous déconnecter, puis vous reconnecter au panneau de configuration pour vous authentifier à nouveau.

Note

Les propriétés de durée de vie des jetons sont configurables par l'administrateur système.

Azure Data Lake Explorer doit autoriser la lecture et l'écriture de données dans un compte Azure Data Lake Store. Pour plus d'informations sur l'attribution et l'application de ces autorisations, reportez-vous à la documentation officielle de Microsoft.

Limites

À partir de la version 2.5.0 des outils Azure Data Lake Store, l'authentification Gen1 n'est plus prise en charge.

JSON et Avro sont UTF-8 uniquement.

Pour JSON, il existe une erreur de conversion silencieuse si vous essayez de stocker des numéros trop grands pour leur type de données.

L'écriture dans des fichiers Excel est actuellement limitée à un seul remplacement de fichier complet.

Les fichiers Avro avec des champs de type octets ne sont pas pris en charge et échoueront lors de l'importation.

Les valeurs des champs flottants de workflows Alteryx sont converties en doubles dans le fichier Avro de destination.

Les connecteurs Microsoft Azure Data Lake, OneDrive et Dynamics CRM prennent en charge l'authentification via les informations d'identification utilisateur Microsoft, telles que l'adresse e-mail et le mot de passe. Dans les workflows interactifs, il n'est actuellement pas possible de s'authentifier auprès de différents comptes utilisateur Microsoft sur ces connecteurs. Cette limitation n'a pas d'incidence sur les workflows planifiés. Si vous êtes authentifié avec un compte utilisateur Microsoft dans l'un de ces connecteurs et essayez de vous authentifier auprès d'un autre connecteur avec un compte utilisateur Microsoft différent, un message d'erreur s'affiche. Pour résoudre ce problème, suivez l'une des recommandations suivantes :

  • L'administrateur Azure Active Directory peut accorder les autorisations nécessaires à un compte utilisateur et s'assurer que l'utilisateur qui crée le workflow dispose d'un compte utilisateur ayant accès aux services requis dans ce workflow.

  • Déconnectez-vous de tous les connecteurs authentifiés sur un autre compte utilisateur Microsoft avant d'essayer de vous connecter.

  • Évitez d'utiliser l'authentification de l'utilisateur final lorsque cela est possible. Utilisez l'authentification de service-à-service dans les connecteurs Azure Data Lake et l'authentification par connexion à l'application dans les connecteurs Dynamics CRM.

Desktop Automation (Planificateur) n'est pas pris en charge par ce connecteur.