Apache Spark en Microsoft Azure HDInsight

Tipo de conexión	Servidor REST/HTML
Distribuciones validadas en	Microsoft Azure HDInsight
Detalles del servidor	Puedes encontrar la información de Microsoft Azure aquí.
Tipo de soporte	En base de datos
Se validó en	Spark 2.1, almacenamiento ADLS Gen 1

Herramientas de Alteryx utilizadas para establecer conexiones

Procesamiento de flujos de trabajo en base de datos

Herramienta Conexión En-BD	Herramienta Entrada de flujo de datos
Herramienta Código de Apache Spark

Detalles adicionales

Utiliza la ventana Conexión de Microsoft Azure HDInsight para crear una nueva conexión a Microsoft Azure HDInsight a través de la opción Microsoft Azure HDInsight. Sigue las instrucciones a continuación para configurar la conexión.

Configurar la ventana Conexión de Microsoft Azure HDInsight

Haz lo siguiente para conectarte a Microsoft Azure HDInsight y crear una cadena de conexión de Alteryx:

Agrega una nueva conexión En-BD. Establece la fuente de datos como Apache Spark en Microsoft Azure HDInsight. Para obtener más información sobre la configuración de una conexión En-BD, ve a la herramienta Conexión En-BD.
En la pestaña Leer, el controlador está establecido en Apache Spark en Microsoft Azure HDInsight. Selecciona la flecha desplegable Cadena de conexión y, luego, Conexión de base de datos nueva.
Configura la ventana Conexión de Microsoft Azure HDInsight.

Configuración de Microsoft Azure HDInsight

Configura la URL de Azure.
- Ingresa o pega la URL de Azure para la conexión de Microsoft Azure HDInsight. Ejemplo: https://<clustername>.azurehdinsight.net/
- Ingresa el nombre de usuario y la contraseña asociados a la conexión.
- Comunícate con el administrador para averiguar el nombre de usuario y la contraseña del usuario administrador del clúster que estableciste durante la configuración del clúster de Microsoft Azure HDInsight.
- Selecciona la versión de Apache Spark usada en tu clúster.
Selecciona Probar para probar la conexión.
Establece el modo de conexión en el lenguaje de codificación que se utilizará en la herramienta Código de Apache Spark.
Conéctate a tu cuenta de almacenamiento de Microsoft Azure.

Azure Storage

Ingresa la URL de almacenamiento del almacenamiento (ADLS Gen 1) que usarás con la conexión. El protocolo HTTPS es necesario para esta URL.
Ingresa el GUID del Id. de inquilino. Puedes encontrarlo en las propiedades de Microsoft Azure Active Directory > Propiedades > Id. de directorio.
Ingresa el Id. de cliente. En Microsoft Azure, esta información también se conoce como Id. de aplicación. Puedes encontrarlo en las propiedades de Microsoft Azure Active Directory > Registros de la aplicación. Puedes encontrar más información en la página Documentación de Microsoft > Obtener Id. de aplicación y clave de autenticación.
Ingresa el secreto de cliente. En Microsoft Azure, esta información se genera como una cadena de clave de autenticación desde el Id. de la aplicación. Puedes encontrar más información en la página Integrar aplicaciones de Microsoft Azure en Azure Active Directory.

Opciones avanzadas

Establece el intervalo de poll (ms), es decir, el tiempo transcurrido entre las verificaciones que realiza Alteryx de las solicitudes de ejecución del código de Apache Spark. El valor predeterminado es 1000 ms o 1 segundo.
Establece el tiempo de espera (ms), es decir, el tiempo que Alteryx espera para que se completen las solicitudes de ejecución. Las operaciones que tardan más que el tiempo de espera establecido dan como resultado un error de tiempo de espera. El valor predeterminado es 60 000 ms o 1 minuto.
Las opciones Configuración de Apache Spark permiten personalizar el contexto de Apache Spark creado y a los usuarios avanzados anular la configuración predeterminada de Apache Spark.

Nota

De forma predeterminada, la opción Configuración es spark.jars.packages y el valor es com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. Según la versión de Apache Spark, es posible que debas anular el valor predeterminado.

Versión de Apache Spark	Valor
2.0 - 2.1	`com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0`
2.2	`com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0`

Selecciona el ícono + para agregar otra fila a la tabla de opciones de configuración.
Selecciona el ícono Guardar para guardar la configuración avanzada actual como un archivo JSON. Se puede cargar el archivo en la configuración avanzada de otra conexión.
Selecciona el ícono Abrir para cargar un archivo JSON en la tabla de opciones de configuración.

Selecciona Aceptar para crear la conexión de Apache Spark en Microsoft Azure HDInsight.