Apache Spark ODBC

Tipo de soporte:	Leer y escribir; En base de datos
Validado en:	Apache Spark 1.2.0; Simba Apache Spark driver 1.02.04.1005
Tipo de conexión:	ODBC (32 y 64 bit)
Detalles del conductor:	El controlador ODBC se puede descargar aquí. El procesamiento En base de datos requiere controladores de base de datos de 64 bits.
Requisitos de configuración del controlador:	Para obtener un rendimiento óptimo, debe habilitar la opción Fast SQLPrepare dentro de las opciones avanzadas del controlador para permitir que Alteryx recupere los metadatos sin ejecutar una consulta.

Herramientas Alteryx utilizadas para conectar

Herramienta Datos de entrada y Herramienta Datos de salida (procesamiento de flujo de trabajo estándar)
Herramienta Conexión en BDD y Secuencia de datos en la herramienta (procesamiento de flujo de trabajo en base de datos)

Detalles adicionales

Para utilizar la chispa de Apache ODBC, debe tener Apache Spark SQL activado. No todas las distribuciones Hadoop soportan Apache Spark. Si no puede conectarse con Apache Spark ODBC, comuníquese con su proveedor de Hadoop para obtener instrucciones sobre cómo configurar el servidor Apache Spark correctamente.

Si tiene problemas para leer o escribir caracteres Unicode ®, acceda al controlador ODBC de Simba Impala. En opciones avanzadas, seleccione la opción "usar tipos de Unicódigo de SQL".

Soporte de Read

Instale y configure el controlador ODBC de Apache Spark:

Tipo de servidor de chispa: Seleccione el tipo de servidor adecuado para la versión de Apache Spark que esté ejecutando. Si está ejecutando Apache Spark 1,1 y posterior, seleccione Apache SparkThriftServer.
Mecanismo de autenticación: consulte la guía de instalación descargada con el controlador de chispas Simba Apache para configurar esta configuración basándose en su configuración.

Para configurar las opciones avanzadas del controlador, consulte la guía de instalación descargada con el controlador de chispas Simba Apache.

Soporte de Write

Para flujos de trabajo estándar y en base de datos, utilice el Secuencia de datos en la herramienta para escribir a Apache Spark. La ayuda de la escritura es vía HDFS.
Si está escribiendo con HDFS Avro, debe seleccionar la opción de Puerto WebHDFS (50070) predeterminada en la ventana HDFS Avro Connection Properties.

Para escribir una tabla con nombres de campo que tengan un total de más de 4000 caracteres, utilice CSV en lugar de Avro.