Apache Spark ODBC
Herramientas Alteryx utilizadas para conectar
- Herramienta Datos de entrada y Herramienta Datos de salida (procesamiento de flujo de trabajo estándar)
- Herramienta Conexión en BDD y Secuencia de datos en la herramienta (procesamiento de flujo de trabajo en base de datos)
Detalles adicionales
Para utilizar la chispa de Apache ODBC, debe tener Apache Spark SQL activado. No todas las distribuciones Hadoop soportan Apache Spark. Si no puede conectarse con Apache Spark ODBC, comuníquese con su proveedor de Hadoop para obtener instrucciones sobre cómo configurar el servidor Apache Spark correctamente.
Si tiene problemas para leer o escribir caracteres Unicode ®, acceda al controlador ODBC de Simba Impala. En opciones avanzadas, seleccione la opción "usar tipos de Unicódigo de SQL".
Soporte de Read
Instale y configure el controlador ODBC de Apache Spark:
- Tipo de servidor de chispa: Seleccione el tipo de servidor adecuado para la versión de Apache Spark que esté ejecutando. Si está ejecutando Apache Spark 1,1 y posterior, seleccione Apache SparkThriftServer.
- Mecanismo de autenticación: consulte la guía de instalación descargada con el controlador de chispas Simba Apache para configurar esta configuración basándose en su configuración.
Para configurar las opciones avanzadas del controlador, consulte la guía de instalación descargada con el controlador de chispas Simba Apache.
Soporte de Write
- Para flujos de trabajo estándar y en base de datos, utilice el Secuencia de datos en la herramienta para escribir a Apache Spark. La ayuda de la escritura es vía HDFS.
- Si está escribiendo con HDFS Avro, debe seleccionar la opción de Puerto WebHDFS (50070) predeterminada en la ventana HDFS Avro Connection Properties.
Para escribir una tabla con nombres de campo que tengan un total de más de 4000 caracteres, utilice CSV en lugar de Avro.