Apache Spark Direct

Tipo de conexión	Servidor REST/HTML
Distribuciones validadas en	Hortonworks 2.6, Cloudera 5.7
Detalles del servidor	Puedes encontrar la información de descarga de Apache Livy aquí .
Tipo de soporte	En base de datos
Se validó en	Apache Livy 0.3, Apache Spark 1.6, 2.0, 2.1 y 2.2

Herramientas de Alteryx utilizadas para establecer conexiones

Procesamiento de flujos de trabajo en base de datos

Herramienta Conexión En-BD	Herramienta Entrada de flujo de datos
Herramienta Código de Apache Spark

Conéctate a Apache Spark arrastrando una herramienta Conexión En-BD o la herramienta Código de Apache Spark al lienzo. Crea una nueva conexión de Livy usando el controlador Apache Spark Direct. Sigue las instrucciones a continuación para configurar la conexión.

Configurar la ventana de conexión de Livy

Haz lo siguiente para conectarte al servidor Livy y crear una cadena de conexión de Alteryx:

Agrega una nueva conexión En-BD; para ello, configura la fuente de datos como Apache Spark Direct . Para obtener más información sobre la configuración de una conexión En-BD, visita la herramienta Conexión En-BD .

En la pestaña Leer , el Conductor aparecerá bloqueado en Apache Spark Direct . Haz clic en la flecha desplegable Cadena de conexión y selecciona Nueva conexión de base de datos .

Configurar la ventana de conexión de Livy .

Configuración del servidor Livy

Selecciona tu preferencia de seguridad:

Ninguno

Ingresa o pega la dirección IP del host o el nombre DNS del nodo de Livy en tu clúster Apache Spark.
Ingresa al puerto que Livy utiliza. El puerto predeterminado es 8998.
Opcionalmente, proporciona el nombre de usuario para establecer la suplantación del usuario, es decir, el nombre que Apache Spark usará al ejecutar trabajos.

Knox

Ingresa o pega la URL de Knox Gateway.
Ingresa el nombre de usuario y la contraseña asociados a la puerta de enlace especificada.

De forma opcional, prueba la conexión:

Selecciona la versión de Apache Spark usada en tu clúster.
Selecciona el tipo de conexión Kerberos .
Selecciona Probar .

Establece el modo de conexión en el lenguaje de codificación que se utilizará en la herramienta Código de Apache Spark.

Conexión HDFS

Selecciona la opción Configuración del servidor que coincida con el protocolo HDFS utilizado para comunicarse con el clúster.

HTTPFS

Ingresa la dirección IP del host o el nombre DNS del nodo del nombre de HDFS en tu clúster Apache Spark.
Ingresa el número del puerto . El puerto predeterminado se rellenará de forma automática.

WebHDFS

Ingresa la dirección IP del host o el nombre DNS del nodo del nombre de HDFS en tu clúster Apache Spark.
Ingresa el número del puerto . El puerto predeterminado se rellenará de forma automática.

Knox Gateway

Ingresa o pega la URL de Knox Gateway.

De forma opcional, ingresa el nombre de usuario de la conexión HDFS.

De forma opcional, ingresa la contraseña de la conexión HDFS.

Selecciona el protocolo Kerberos que se utilizará.

Opciones avanzadas

Establece el intervalo de poll (ms), es decir, el tiempo transcurrido entre las verificaciones que realiza Alteryx de las solicitudes de ejecución del código de Apache Spark. El valor predeterminado es 1000 ms o 1 segundo.

Establece el tiempo de espera (ms), es decir, el tiempo que Alteryx espera para que se completen las solicitudes de ejecución. Las operaciones que tardan más que el tiempo de espera establecido dan como resultado un error de tiempo de espera. El valor predeterminado es 60 000 ms o 1 minuto.

Las opciones Configuración de Apache Spark permiten personalizar el contexto de Apache Spark creado y a los usuarios avanzados anular la configuración predeterminada de Apache Spark.

Nota

De forma predeterminada, la opción Configuración es spark.jars.packages y el valor es com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. Según la versión de Apache Spark, es posible que debas anular el valor predeterminado.

Versión de Apache Spark	Valor
2.0 - 2.1	com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0
2.2	com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

Selecciona (el ícono +) para agregar otra fila a la tabla de opciones de configuración.
Selecciona (ícono Guardar) para guardar la configuración avanzada actual como un archivo JSON. Se puede cargar el archivo en la configuración avanzada de otra conexión.
Selecciona (ícono Abrir) para cargar un archivo JSON en la tabla de opciones de configuración.

Selecciona Aceptar para crear la conexión de Apache Spark Direct.

Limitaciones

En este momento, Alteryx admite Spark nativo en Cloudera Data Platform (CDP), pero no en la Distribución Hadoop de Cloudera (CDH).

Los servidores Livy habilitados para TLS/SSL no son compatibles.