Apache Spark no Microsoft Azure HDInsight
Tipo de conexão | Server REST/HTML |
Distribuições validadas em | Microsoft Azure HDInsight |
Detalhes do Server | As informações do Microsoft Azure podem ser encontradas aqui. |
Tipo de suporte | No Banco de Dados |
Validado em | Spark 2.1, armazenamento ADLS Gen1 |
Ferramentas do Alteryx usadas para conexão
Processamento de fluxos de trabalho no banco de dados
Detalhes adicionais
Use a janela Conexão do Microsoft Azure HDInsight para criar uma nova conexão com o Microsoft Azure HDInsight por meio da opção "Microsoft Azure HDInsight". Use as instruções abaixo para configurar a conexão.
Configurar a janela "Conexão do Microsoft Azure HDInsight"
Para se conectar ao Microsoft Azure HDInsight e criar uma cadeia de conexão do Alteryx...
Adicione uma nova conexão in-DB. Defina a Fonte de dados como Apache Spark no Microsoft Azure HDInsight. Para obter mais informações sobre como configurar uma conexão in-DB, acesse a ferramenta Conectar In-DB.
Na guia Leitura, o Driver é definido como Apache Spark no Microsoft Azure HDInsight. Clique na seta suspensa em Cadeia de conexão e selecione Nova conexão de banco de dados.
Configure a janela Conexão do Microsoft Azure HDInsight.
Configuração do Microsoft Azure HDInsight
Configure o URL do Azure.
Insira ou cole o URL do Azure para a sua conexão do Microsoft Azure HDInsight. Exemplo: https://<clustername>.azurehdinsight.net/
Insira o Nome de usuário e a Senha associados à conexão.
Entre em contato com o administrador para saber o nome de usuário e a senha do usuário administrador de cluster que você configurou durante a configuração do cluster do Microsoft Azure HDInsight.
Selecione a versão do Apache Spark usada em seu cluster.
Clique em Teste para testar a conexão.
Defina o "Modo de conexão" para a linguagem de codificação a ser usada na ferramenta Código do Apache Spark.
Conecte-se à sua conta de armazenamento do Microsoft Azure.
Armazenamento do Azure
Insira o URL de armazenamento para o armazenamento (armazenamento ADLS Gen1) a ser usado com sua conexão. O protocolo HTTPS é necessário para este URL.
Insira o GUID do ID do locatário. Isso é encontrado em Microsoft Azure Active Directory > Propriedades > ID do diretório.
Insira o ID do cliente. No Microsoft Azure, essas informações também são conhecidas como ID do aplicativo. Isso é encontrado em Microsoft Azure Active Directory > Registros de aplicativo. Você pode encontrar mais informações na página Documentação da Microsoft > Obter ID do aplicativo e chave de autenticação.
Insira o Segredo do cliente. No Microsoft Azure, essas informações são geradas como uma string de chave de autenticação a partir do ID do aplicativo. Você pode encontrar mais informações na página Aplicativos de integração do Microsoft Azure com o Azure Active Directory.
Opções avançadas
Defina o intervalo de sondagem (ms), o tempo entre verificações do Alteryx para solicitações de execução do código do Apache Spark. O padrão é 1.000 ms ou 1 segundo.
Defina o tempo de espera (ms), o tempo que o Alteryx espera para que as solicitações de execução sejam concluídas. Operações que demoram mais do que o tempo de espera definido resultam em um erro de tempo limite. O padrão é 60.000 ms ou 1 minuto.
As Opções de configuração do Apache Spark personalizam o contexto criado do Apache Spark e permitem que usuários avançados substituam as configurações padrão do Apache Spark.
Nota
Por padrão, a Opção de configuração é spark.jars.packages e o Valor é com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1
. Dependendo da sua versão do Apache Spark, talvez seja necessário substituir o valor padrão.
Versão do Apache Spark | Valor |
---|---|
2.0 - 2.1 |
|
2.2 |
|
Selecione o ícone "+"para adicionar outra linha à tabela de opções de configuração.
Selecione o ícone "salvar" para salvar as configurações avançadas atuais como um arquivo JSON. O arquivo pode então ser carregado nas configurações avançadas de outra conexão.
Selecione o ícone "abrir" para carregar um arquivo JSON na tabela de opções de configuração.
Clique em OK para criar sua conexão com o Apache Spark no Microsoft Azure HDInsight.