Apache Spark ODBC

Tipo de suporte:	Leitura e gravação; no banco de dados
Validado em:	Apache Spark 1.2.0; Simba Apache Spark Driver 1.02.04.1005
Tipo de conexão:	ODBC (32 e 64 bits)
Detalhes do driver:	O driver ODBC pode ser baixado aqui. O processamento no banco de dados requer drivers de banco de dados de 64-bit.
Requisitos de configuração do driver:	Para obter um desempenho otimizado, você deve habilitar a opção rápido SQLPrepare dentro das opções avançadas do driver para permitir que o Alteryx recupere metadados sem executar uma consulta.

Ferramentas do Alteryx usadas para conectar

Ferramenta Dados de entrada e Ferramenta Dados de saída (processamento de fluxo de trabalho padrão)
Ferramenta Conectar na BD e Fluxo de trabalho na ferramenta (processamento de fluxo de trabalho no banco de dados)

Detalhes adicionais

Para usar o Apache Spark ODBC, você deve ter o Apache Spark SQL habilitado. Nem todas as distribuições Hadoop suportam Apache Spark. Se você não conseguir se conectar usando o Apache Spark ODBC, contate seu fornecedor Hadoop para obter instruções sobre como configurar o servidor Apache Spark corretamente.

Se você tiver problemas com a leitura ou a gravação de caracteres Unicode ®, acesse o driver ODBC da Impala de Simba. Em opções avançadas, selecione a opção "usar tipos de Unicode SQL".

Suporte de leitura

Instale e configure o driver ODBC do Apache Spark:

Tipo de servidor Spark: Selecione o tipo de servidor apropriado para a versão do Apache Spark que você está executando. Se você estiver executando o Apache Spark 1,1 e depois, selecione Apache SparkThriftServer.
Mecanismo de autenticação: consulte o guia de instalação baixado com o driver Simba Apache Spark para configurar essa configuração com base em sua configuração.

Para configurar as opções avançadas do driver, consulte o guia de instalação baixado com o driver Simba Apache Spark.

Suporte de gravação

Para fluxos de trabalho padrão e em banco de dados, use o Fluxo de trabalho na ferramenta para escrever para Apache Spark. O suporte de gravação é via HDFS.
Se você estiver escrevendo com HDFS Avro, você deve selecionar a opção de porta padrão WebHDFS (50070) na janela Propriedades de conexão Avro HDFS.

Para escrever uma tabela com nomes de campo que totalizam mais de 4000 caracteres, use CSV em vez de Avro.