Apache Spark ODBC
Ferramentas do Alteryx usadas para conectar
- Ferramenta Dados de entrada e Ferramenta Dados de saída (processamento de fluxo de trabalho padrão)
- Ferramenta Conectar na BD e Fluxo de trabalho na ferramenta (processamento de fluxo de trabalho no banco de dados)
Detalhes adicionais
Para usar o Apache Spark ODBC, você deve ter o Apache Spark SQL habilitado. Nem todas as distribuições Hadoop suportam Apache Spark. Se você não conseguir se conectar usando o Apache Spark ODBC, contate seu fornecedor Hadoop para obter instruções sobre como configurar o servidor Apache Spark corretamente.
Se você tiver problemas com a leitura ou a gravação de caracteres Unicode ®, acesse o driver ODBC da Impala de Simba. Em opções avançadas, selecione a opção "usar tipos de Unicode SQL".
Suporte de leitura
Instale e configure o driver ODBC do Apache Spark:
- Tipo de servidor Spark: Selecione o tipo de servidor apropriado para a versão do Apache Spark que você está executando. Se você estiver executando o Apache Spark 1,1 e depois, selecione Apache SparkThriftServer.
- Mecanismo de autenticação: consulte o guia de instalação baixado com o driver Simba Apache Spark para configurar essa configuração com base em sua configuração.
Para configurar as opções avançadas do driver, consulte o guia de instalação baixado com o driver Simba Apache Spark.
Suporte de gravação
- Para fluxos de trabalho padrão e em banco de dados, use o Fluxo de trabalho na ferramenta para escrever para Apache Spark. O suporte de gravação é via HDFS.
- Se você estiver escrevendo com HDFS Avro, você deve selecionar a opção de porta padrão WebHDFS (50070) na janela Propriedades de conexão Avro HDFS.
Para escrever uma tabela com nomes de campo que totalizam mais de 4000 caracteres, use CSV em vez de Avro.