Skip to main content

Apache Spark no Microsoft Azure HDInsight

Tipo de conexão

Server REST/HTML

Distribuições validadas em

Microsoft Azure HDInsight

Detalhes do Server

As informações do Microsoft Azure podem ser encontradas aqui .

Tipo de suporte

No Banco de Dados

Validado em

Spark 2.1, armazenamento ADLS Gen1

Ferramentas do Alteryx usadas para conexão

Blue icon with database being plugged in.
Blue icon with a stream-like object flowing into a database.
Apache Spark Code Tool Icon

Detalhes adicionais

Use a janela Conexão do Microsoft Azure HDInsight para criar uma nova conexão com o Microsoft Azure HDInsight por meio da opção "Microsoft Azure HDInsight". Use as instruções abaixo para configurar a conexão.

Configurar a janela "Conexão do Microsoft Azure HDInsight"

Para se conectar ao Microsoft Azure HDInsight e criar uma cadeia de conexão do Alteryx...

  • Adicione uma nova conexão in-DB. Defina a Fonte de dados como Apache Spark no Microsoft Azure HDInsight . Para obter mais informações sobre como configurar uma conexão in-DB, acesse a ferramenta Conectar In-DB .

  • Na guia Leitura , o Driver é definido como Apache Spark no Microsoft Azure HDInsight . Clique na seta suspensa em Cadeia de conexão e selecione Nova conexão de banco de dados .

  • Configure a janela Conexão do Microsoft Azure HDInsight .

Configuração do Microsoft Azure HDInsight

  • Configure o URL do Azure .

    • Insira ou cole o URL do Azure para a sua conexão do Microsoft Azure HDInsight. Exemplo: https://<clustername>.azurehdinsight.net/

    • Insira o Nome de usuário e a Senha associados à conexão.

    • Entre em contato com o administrador para saber o nome de usuário e a senha do usuário administrador de cluster que você configurou durante a configuração do cluster do Microsoft Azure HDInsight.

    • Selecione a versão do Apache Spark usada em seu cluster.

  • Clique em Teste para testar a conexão.

  • Defina o "Modo de conexão" para a linguagem de codificação a ser usada na ferramenta Código do Apache Spark.

  • Conecte-se à sua conta de armazenamento do Microsoft Azure.

Armazenamento do Azure
  • Insira o URL de armazenamento para o armazenamento (armazenamento ADLS Gen1) a ser usado com sua conexão. O protocolo HTTPS é necessário para este URL.

  • Insira o GUID do ID do locatário . Isso é encontrado em Microsoft Azure Active Directory > Propriedades > ID do diretório.

  • Insira o ID do cliente . No Microsoft Azure, essas informações também são conhecidas como ID do aplicativo. Isso é encontrado em Microsoft Azure Active Directory > Registros de aplicativo. Você pode encontrar mais informações na página Documentação da Microsoft > Obter ID do aplicativo e chave de autenticação .

  • Insira o Segredo do cliente . No Microsoft Azure, essas informações são geradas como uma string de chave de autenticação a partir do ID do aplicativo. Você pode encontrar mais informações na página Aplicativos de integração do Microsoft Azure com o Azure Active Directory .

Opções avançadas
  • Defina o intervalo de sondagem (ms) , o tempo entre verificações do Alteryx para solicitações de execução do código do Apache Spark. O padrão é 1.000 ms ou 1 segundo.

  • Defina o tempo de espera (ms) , o tempo que o Alteryx espera para que as solicitações de execução sejam concluídas. Operações que demoram mais do que o tempo de espera definido resultam em um erro de tempo limite. O padrão é 60.000 ms ou 1 minuto.

  • As Opções de configuração do Apache Spark personalizam o contexto criado do Apache Spark e permitem que usuários avançados substituam as configurações padrão do Apache Spark.

Nota

Por padrão, a Opção de configuração é spark.jars.packages e o Valor é com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1 . Dependendo da sua versão do Apache Spark, talvez seja necessário substituir o valor padrão.

Versão do Apache Spark

Valor

2.0 - 2.1

com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0

2.2

com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

  • Selecione o ícone "+"para adicionar outra linha à tabela de opções de configuração.

  • Selecione o ícone "salvar" para salvar as configurações avançadas atuais como um arquivo JSON. O arquivo pode então ser carregado nas configurações avançadas de outra conexão.

  • Selecione o ícone "abrir" para carregar um arquivo JSON na tabela de opções de configuração.

Clique em OK para criar sua conexão com o Apache Spark no Microsoft Azure HDInsight .