Apache Spark ODBC
Driver Details
For more information about the Simba Spark ODBC driver, see the Installation and Configuration Guide on Simba portal.
Ferramentas do Alteryx usadas para conectar
Processamento de fluxo de trabalho padrão
Processamento de fluxo de trabalho em base de dados
Para usar o Apache Spark ODBC, você deve ter o Apache Spark SQL habilitado. Nem todas as distribuições Hadoop suportam Apache Spark. Se você não conseguir se conectar usando o Apache Spark ODBC, contate seu fornecedor Hadoop para obter instruções sobre como configurar o servidor Apache Spark corretamente.
Se você tiver problemas com a leitura ou a gravação de caracteres Unicode ®, acesse o driver ODBC da Impala de Simba. Em opções avançadas, selecione a opção "usar tipos de Unicode SQL".
Suporte de leitura
Instale e configure o driver ODBC do Apache Spark:
- Tipo de servidor Spark: selecione o tipo de servidor apropriado para a versão do Apache Spark que você está executando. Se você estiver executando o Apache Spark 1,1 e depois, selecione Apache SparkThriftServer.
- Mecanismo de autenticação: consulte o guia de instalação baixado com o driver Simba Apache Spark para configurar essa configuração com base em sua configuração.
Para configurar as opções avançadas do driver, consulte o guia de instalação baixado com o driver Simba Apache Spark.
Suporte de gravação
- Para fluxos de trabalho padrão e no banco de dados, use a ferramenta fluxo de dados em para gravar no Apache Spark. O suporte de gravação é via HDFS.
- Se você está escrevendo com o HDFS Avro, você deve selecionar a opção de porta padrão de WebHDFS (50070) na janela de propriedades da conexão de HDFS Avro.
Para escrever uma tabela com nomes de campo que totalizam mais de 4000 caracteres, use CSV em vez de Avro.