Apache Spark en Microsoft Azure HDInsight
Utilice estas instrucciones para aprender a conectarse a Microsoft Azure HDInsight y crear una cadena de conexión Alteryx.
Herramientas Alteryx utilizadas para conectar
- Herramienta Conexión en BDD, Secuencia de datos en la herramientay Herramienta de código de chispa de Apache (procesamiento de flujo de trabajo en la base de datos)
Detalles adicionales
Mediante la ventana de conexión HDInsight de Microsoft Azure, cree una nueva conexión a Microsoft Azure HDInsight utilizando el Microsoft Azure HDInsight Opción. Utilice las siguientes instrucciones para configurar la conexión.
Configure el Microsoft Azure HDInsight Ventana de conexión
Para conectarse a Microsoft Azure HDInsight y crear una cadena de conexión Alteryx:
- Añada una nueva conexión en-dB, estableciendo el origen de datos en Apache Spark en Microsoft Azure HDInsight. Para obtener más información sobre la configuración de una conexión en-dB, consulte Herramienta Conexión en BDD.
- En la ficha Read, el controlador se establece en Apache Spark en Microsoft Azure HDInsight. Haga clic en la flecha desplegable cadena de conexión y seleccione nueva conexión de base de datos.
- Configure la ventana de conexión HDInsight de Microsoft Azure.
Configuración de HDInsight de Microsoft Azure:
- Configure la URL Azure.
- Escriba o pegue la URL Azure para su Microsoft Azure HDInsight Conexión. Ejemplo: https://. </clustername>
- Escriba el nombre de usuario y la contraseña asociados a la conexión.
- Póngase en contacto con el administrador para averiguar el nombre de usuario y la contraseña del usuario del administrador de clústeres que configuró durante la configuración de su Microsoft Azure HDInsight Clúster.
- Seleccione la versión de Apache Spark utilizada en el clúster.
- Haz clic en Prueba para probar la conexión.
- Defina el modo de conexión en el idioma de codificación que se usará en la herramienta código de chispas de Apache.
- Conéctese a su cuenta de almacenamiento de información de Microsoft Azure.
- Introduzca la dirección URL de almacenamiento del almacenamiento (por ejemplo, almacenamiento de información de Microsoft Azure BLOB, almacenamiento de datos de Microsoft Azure Data Lake u otro almacenamiento primario) que desee utilizar con la conexión. Se requiere el protocolo HTTPS para esta dirección URL.
- Ingrese el GUID de identificación del inquilino . Esto se encuentra en las propiedades bajo el ID de directorio de Microsoft Azure Active Directory >.
- Introduzca el identificador de cliente. En Microsoft Azure, esta información también se conoce como identificador de aplicación. Esto se encuentra en las propiedades bajo el registro de aplicaciones de Microsoft Azure Active Directory > app. Puede encontrar más información en la página de la clave de autenticación de Microsoft Documentation > Get Application ID y Authentication .
- Introduzca el secreto del cliente. En Microsoft Azure, esta información se genera como una cadena de claves de autenticación desde el identificador de la aplicación. Puede encontrar más información en las aplicaciones de integración de Microsoft Azure con la Página de Active Directory de Azure.
- Defina el intervalo de sondeo (MS), el tiempo entre las comprobaciones de Alteryx para las solicitudes de ejecución de código de chispa de Apache. El valor predeterminado es 1.000 MS, o 1 segundo.
- Defina el tiempo de espera (MS), el tiempo que Alteryx espera para que se completen las solicitudes de ejecución. Las operaciones que tardan más que el tiempo de espera establecido resultan en un error de tiempo fuera. El valor predeterminado es 60.000 MS, o 1 minuto.
- Las Opciones de configuración de la chispa de Apache personalizan el contexto creado de la chispa de Apache y permiten a los usuarios avanzados anular la configuración predeterminada de la chispa de Apache.
Configuración predeterminada
De forma predeterminada, la opción de configuración es Spark. jar. packages y el valor es com. brickings: Spark-csv_ 2.10:1.5.0, com. Bricks de la chispa-avro_ 2.10:2.0.1. Dependiendo de la versión de Apache Spark, es posible que tenga que anular el valor predeterminado.
Versión de Apache Spark | Valor |
---|---|
2,0-2,1 | com. Bricks: Spark-avro_ 2.11:3.2.0; com. brickings: Spark-csv_ 2.11:1.5.0 |
2,2 | com. Bricks: Spark-avro_ 2.11:4.0.0; com. brickings: Spark-csv_ 2.11:1.5.0 |
- Haga clic en (+ icono) para agregar otra fila a la tabla opciones de configuración.
- Haga clic en (Guardar icono) para guardar la configuración avanzada actual como un archivo JSON. El archivo se puede cargar en la configuración avanzada de otra conexión.
- Haga clic en (abrir icono) para cargar un archivo JSON en la tabla opciones de configuración.
- Haga clic en Aceptar para crear su chispa Apache en la conexión HDInsight de Microsoft Azure.