Apache Spark No Microsoft Azure HDInsight
Versão:
2023.1
Last modified: September 30, 2021
Ferramentas do Alteryx usadas para conectar
Detalhes adicionais
Usando a janela conexão do Microsoft Azure hdinsight , crie uma nova conexão com o Microsoft Azure hdinsight usando a opção Microsoft Azure hdinsight. Use as instruções abaixo para configurar a conexão.
Configurar a janela conexão do Microsoft Azure HDInsight
Para se conectar ao Microsoft Azure HDInsight e criar uma cadeia de conexão do Alteryx:
- Adicione uma nova conexão in-DB, configurando a fonte de dados para o Apache Spark no Microsoft Azure HDInsight. Para obter mais informações sobre como configurar uma conexão in-DB, consulte conectar a ferramenta in-DB.
- Na guia leitura , o Driver é definido como Apache Spark no Microsoft Azure HDInsight. Clique na seta suspensa cadeia de conexão e selecione nova conexão de banco de dados.
- Configure a janela de conexão do Microsoft Azure HDInsight .
Configuração do Microsoft Azure HDInsight
- Configurar a URL do Azure
- Digite ou cole a URL do Azure para sua conexão do Microsoft Azure HDInsight. Exemplo: https://
. azurehdinsight.net/ - Digite o nome de usuário e a senha associados à conexão.
- Contacte o administrador para descobrir o nome de utilizador e palavra-passe para o utilizador de administrador de cluster que configurou durante a configuração do cluster do Microsoft Azure HDInsight.
- Selecione a versão do Apache Spark usada em seu cluster
- Digite ou cole a URL do Azure para sua conexão do Microsoft Azure HDInsight. Exemplo: https://
- Clique em testar para testar a conexão.
- Defina o modo de conexão para o idioma de codificação a ser usado na ferramenta Apache Spark Code.
- Conecte-se à sua conta de armazenamento do Microsoft Azure.
Armazenamento do azureazure Storage
- Insira a URL de armazenamento para o armazenamento (por exemplo, armazenamento de blob do Microsoft Azure, armazenamento do Microsoft Azure data Lake ou outro armazenamento primário) que você deseja usar com sua conexão. O protocolo HTTPS é necessário para esta URL
- Insira o GUID de ID do locatário. Isso é encontrado nas propriedades em seu Microsoft Azure Active Directory > Propriedades > diretório ID.
- Insira a ID do cliente. No Microsoft Azure, essas informações também são conhecidas como uma ID de aplicativo. Isso é encontrado nas propriedades em seus registros de aplicativos do Microsoft Azure Active Directory. Mais informações podem ser encontradas na documentação da Microsoft > obter ID do aplicativo e página de chave de autenticação .
- Insira o segredo do cliente. No Microsoft Azure, essas informações são geradas como uma chave de autenticação String da ID do aplicativo. Mais informações podem ser encontradas no Microsoft Azure integrando aplicativos com o Azure Active Directory página.
Opções avançadas
- Defina o intervalo de sondagem (MS), o tempo entre as verificações do alteryx para solicitações de execução de código do Apache Spark. O padrão é 1.000 MS, ou 1 segundo.
- Defina o tempo de espera (MS), o tempo que o alteryx aguarda para que as solicitações de execução sejam concluídas. As operações que demoram mais que o tempo de espera definido resultam em um erro de tempo. O padrão é 60.000 MS, ou 1 minuto.
- As Opções de configuração do Apache Spark personalizam o contexto do Apache Spark criado e permitem que usuários avançados substituam as configurações padrão do Apache Spark.
Por padrão, a opção de configuração é Spark. jars. Packages e o valor é com. databricks: Spark-csv_ 2.10:1.5.0, com. databricks: Spark-avro_ 2.10:2.0.1
. Dependendo da sua versão do Apache Spark, talvez seja necessário substituir o valor padrão.
Apache Spark versão | Valor |
---|---|
2,0-2,1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2,2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
- Clique em (+ icon) para adicionar outra linha à tabela opções de configuração.
- Clique em (salvar ícone) para salvar as configurações avançadas atuais como um arquivo JSON. O arquivo pode então ser carregado nas configurações avançadas de outra conexão.
- Clique (ícone aberto) para carregar um arquivo JSON na tabela opções de configuração.
Clique em OK para criar seu Spark Apache na conexão do Microsoft Azure HDInsight .