Apache Spark no Microsoft Azure HDInsight

Tipo de conexão	Server REST/HTML
Distribuições validadas em	Microsoft Azure HDInsight
Detalhes do Server	As informações do Microsoft Azure podem ser encontradas aqui.
Tipo de suporte	No Banco de Dados
Validado em	Spark 2.1, armazenamento ADLS Gen1

Ferramentas do Alteryx usadas para conexão

Processamento de fluxos de trabalho no banco de dados

Ferramenta Conectar In-DB	Ferramenta Entrada do Fluxo de Dados
Apache Spark Code Tool

Detalhes adicionais

Use a janela Conexão do Microsoft Azure HDInsight para criar uma nova conexão com o Microsoft Azure HDInsight por meio da opção "Microsoft Azure HDInsight". Use as instruções abaixo para configurar a conexão.

Configurar a janela "Conexão do Microsoft Azure HDInsight"

Para se conectar ao Microsoft Azure HDInsight e criar uma cadeia de conexão do Alteryx...

Adicione uma nova conexão in-DB. Defina a Fonte de dados como Apache Spark no Microsoft Azure HDInsight. Para obter mais informações sobre como configurar uma conexão in-DB, acesse a ferramenta Conectar In-DB.
Na guia Leitura, o Driver é definido como Apache Spark no Microsoft Azure HDInsight. Clique na seta suspensa em Cadeia de conexão e selecione Nova conexão de banco de dados.
Configure a janela Conexão do Microsoft Azure HDInsight.

Configuração do Microsoft Azure HDInsight

Configure o URL do Azure.
- Insira ou cole o URL do Azure para a sua conexão do Microsoft Azure HDInsight. Exemplo: https://<clustername>.azurehdinsight.net/
- Insira o Nome de usuário e a Senha associados à conexão.
- Entre em contato com o administrador para saber o nome de usuário e a senha do usuário administrador de cluster que você configurou durante a configuração do cluster do Microsoft Azure HDInsight.
- Selecione a versão do Apache Spark usada em seu cluster.
Clique em Teste para testar a conexão.
Defina o "Modo de conexão" para a linguagem de codificação a ser usada na ferramenta Código do Apache Spark.
Conecte-se à sua conta de armazenamento do Microsoft Azure.

Armazenamento do Azure

Insira o URL de armazenamento para o armazenamento (armazenamento ADLS Gen1) a ser usado com sua conexão. O protocolo HTTPS é necessário para este URL.
Insira o GUID do ID do locatário. Isso é encontrado em Microsoft Azure Active Directory > Propriedades > ID do diretório.
Insira o ID do cliente. No Microsoft Azure, essas informações também são conhecidas como ID do aplicativo. Isso é encontrado em Microsoft Azure Active Directory > Registros de aplicativo. Você pode encontrar mais informações na página Documentação da Microsoft > Obter ID do aplicativo e chave de autenticação.
Insira o Segredo do cliente. No Microsoft Azure, essas informações são geradas como uma string de chave de autenticação a partir do ID do aplicativo. Você pode encontrar mais informações na página Aplicativos de integração do Microsoft Azure com o Azure Active Directory.

Opções avançadas

Defina o intervalo de sondagem (ms), o tempo entre verificações do Alteryx para solicitações de execução do código do Apache Spark. O padrão é 1.000 ms ou 1 segundo.
Defina o tempo de espera (ms), o tempo que o Alteryx espera para que as solicitações de execução sejam concluídas. Operações que demoram mais do que o tempo de espera definido resultam em um erro de tempo limite. O padrão é 60.000 ms ou 1 minuto.
As Opções de configuração do Apache Spark personalizam o contexto criado do Apache Spark e permitem que usuários avançados substituam as configurações padrão do Apache Spark.

Nota

Por padrão, a Opção de configuração é spark.jars.packages e o Valor é com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. Dependendo da sua versão do Apache Spark, talvez seja necessário substituir o valor padrão.

Versão do Apache Spark	Valor
2.0 - 2.1	`com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0`
2.2	`com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0`

Selecione o ícone "+"para adicionar outra linha à tabela de opções de configuração.
Selecione o ícone "salvar" para salvar as configurações avançadas atuais como um arquivo JSON. O arquivo pode então ser carregado nas configurações avançadas de outra conexão.
Selecione o ícone "abrir" para carregar um arquivo JSON na tabela de opções de configuração.

Clique em OK para criar sua conexão com o Apache Spark no Microsoft Azure HDInsight.