Apache Spark Direct
Herramientas Alteryx utilizadas para conectar
- Herramienta Conexión en BDD, Secuencia de datos en la herramientay Herramienta de código de chispa de Apache (procesamiento de flujo de trabajo en base de datos)
Detalles adicionales
Conéctese a Apache Spark arrastrando una herramienta Connect in-dB o la herramienta código de chispas de Apache en el lienzo. Cree una nueva conexión Livy usando el controlador de Apache Spark Direct. Utilice las siguientes instrucciones para configurar la conexión.
Configurar la ventana de conexión Livy
Para conectarse al servidor Livy y crear una cadena de conexión Alteryx:
Añada una nueva conexión en-dB, estableciendo el origen de datos en Apache Spark Direct. Para obtener más información sobre la configuración de una conexión en-dB, consulte Herramienta Conexión en BDD.
En la ficha Read, el controlador se bloqueará a Apache Spark Direct. Haga clic en la flecha desplegable cadena de conexión y seleccione nueva conexión de base de datos.
Configure la ventana de conexión Livy .
Configuración del servidor Livy: Seleccione su preferencia de seguridad:
Escriba o pegue la dirección IP del host o el nombre DNS del nodo Livy dentro de su clúster de chispas de Apache.
Escriba el Puerto utilizado por Livy. El puerto predeterminado es 8998.
Opcionalmente, proporcione el nombre de usuario para establecer la suplantación del usuario, el nombre que usará Apache Spark cuando ejecute trabajos.
Escriba o pegue la URL de su Gateway Knox.
Escriba el nombre de usuario y la contraseña asociados a la puerta de enlace especificada.
Pruebe la conexión opcionalmente:
- Seleccione la versión de Apache Spark utilizada en el clúster.
- Seleccione el tipo de conexión Kerberos.
- Haga clic en prueba.
Defina el modo de conexión en el idioma de codificación que se usará en la herramienta código de chispas de Apache.
Seleccione la opción de configuración del servidor que coincida con el protocolo HDFS utilizado para comunicarse con el clúster.
Escriba la dirección IP del host o el nombre DNS del nodo de nombre HDFS dentro del clúster de chispas de Apache.
Escriba el número de puerto . El puerto predeterminado se rellenará automáticamente.
Escriba la dirección IP del host o el nombre DNS del nodo de nombre HDFS dentro del clúster de chispas de Apache.
Escriba el número de puerto . El puerto predeterminado se rellenará automáticamente.
Escriba o pegue la URL de su Gateway Knox.
Opcionalmente escriba el nombre de usuario para la conexión HDFS.
Opcionalmente escriba la contraseña para la conexión HDFS.
Seleccione el protocolo Kerberos que se usará.
Defina el intervalo de sondeo (MS), el tiempo entre las comprobaciones de Alteryx para las solicitudes de ejecución de código de chispa de Apache. El valor predeterminado es 1.000 MS, o 1 segundo.
Defina el tiempo de espera (MS), el tiempo que Alteryx espera para que se completen las solicitudes de ejecución. Las operaciones que tardan más que el tiempo de espera establecido resultan en un error de tiempo fuera. El valor predeterminado es 60.000 MS, o 1 minuto.
Las Opciones de configuración de la chispa de Apache personalizan el contexto creado de la chispa de Apache y permiten a los usuarios avanzados anular la configuración predeterminada de la chispa de Apache.
Configuración predeterminada
De forma predeterminada, la opción de configuración es Spark. jar. packages y el valor es com. brickings: Spark-csv_ 2.10:1.5.0, com. Bricks de la chispa-avro_ 2.10:2.0.1. Dependiendo de la versión de Apache Spark, es posible que tenga que anular el valor predeterminado.
Versión de Apache Spark | Valor |
---|---|
2,0-2,1 | com. Bricks: Spark-avro_ 2.11:3.2.0; com. brickings: Spark-csv_ 2.11:1.5.0 |
2,2 | com. Bricks: Spark-avro_ 2.11:4.0.0; com. brickings: Spark-csv_ 2.11:1.5.0 |
Haga clic en (+ icono) para agregar otra fila a la tabla opciones de configuración.
Haga clic en (Guardar icono) para guardar la configuración avanzada actual como un archivo JSON. El archivo se puede cargar en la configuración avanzada de otra conexión.
Haga clic en (abrir icono) para cargar un archivo JSON en la tabla opciones de configuración.
Seleccione Aceptar para crear la conexión directa de Apache Spark.