Apache Spark no Microsoft Azure HDInsight
Use estas instruções para saber como conectar-se a Microsoft Azure HDInsight e criar uma seqüência de conexão Alteryx.
Tipo de suporte: |
Na base de dados |
Validado em: |
Apache Spark 2.0 + |
Distribuições validadas em: |
Microsoft Azure HDInsight
|
Tipo de conexão: |
Rest/servidor HTML |
Detalhes do servidor: |
As informações do Microsoft Azure podem ser encontradas aqui. |
Ferramentas do Alteryx usadas para conectar
Detalhes adicionais
Usando a janela de conexão HDInsight do Microsoft Azure , crie uma nova conexão para Microsoft Azure HDInsight usando o Microsoft Azure HDInsight Opção. Use as instruções abaixo para configurar a conexão.
Configure o Microsoft Azure HDInsight Janela de conexão
Para conectar-se a Microsoft Azure HDInsight e criar uma cadeia de conexão Alteryx:
- Adicione uma nova conexão em-dB, definindo a fonte de dados para Apache Spark no Microsoft Azure HDInsight. Para obter mais informações sobre como configurar uma conexão em-dB, consulte Ferramenta Conectar na BD.
- Na guia ler , o Driver é definido como Apache Spark no Microsoft Azure HDInsight. Clique na seqüência de conexão Soltar-seta suspensa e selecione nova conexão de banco de dados.
- Configure a janela de conexão HDInsight do Microsoft Azure .
Configuração do Microsoft Azure HDInsight:
URL Azure
- Digite ou cole a URL Azure para seu Microsoft Azure HDInsight Conexão. Exemplo: https://. </clustername>
- Digite o nome de usuário e a senha associados à conexão.
- Contate seu administrador para descobrir o nome de usuário e a senha do usuário do administrador de cluster que você configurou durante a configuração do seu Microsoft Azure HDInsight Cluster.
- Selecione a versão Apache Spark usada em seu cluster.
- Clique em Testar para testar a conexão.
- Defina o modo de conexão com o idioma de codificação a ser usado na ferramenta Apache Spark Code.
- Conecte-se à sua conta de armazenamento do Microsoft Azure.
Armazenamento do Azure
- Insira a URL de armazenamento do armazenamento (por exemplo, armazenamento do Microsoft Azure Blob, armazenamento do Microsoft Azure data Lake ou outro armazenamento primário) que você deseja usar com sua conexão. O protocolo HTTPS é necessário para esta URL.
- Insira o GUID ID do inquilino . Isso é encontrado nas propriedades em seu Microsoft Azure Active Directory > Propriedades > diretório ID.
- Insira a ID do cliente. No Microsoft Azure, essas informações também são conhecidas como uma ID de aplicativo. Isso é encontrado nas propriedades em seus registros de aplicativos do Microsoft Azure Active Directory. Mais informações podem ser encontradas na documentação da Microsoft > obter ID de aplicativo e página de chave de autenticação .
- Insira o segredo do cliente. No Microsoft Azure, essas informações são geradas como uma chave de autenticação String da ID do aplicativo. Mais informações podem ser encontradas nos aplicativos de integração do Microsoft Azure com a página do Active Directory Azure.
Opções avançadas
- Defina o intervalo de enquete (MS), o tempo entre verificações de Alteryx para solicitações de execução de código Apache Spark. O padrão é 1.000 MS, ou 1 segundo.
- Defina o tempo de espera (MS), o tempo que Alteryx aguarda para que as solicitações de execução sejam concluídas. As operações que demoram mais que o tempo de espera definido resultam em um erro de tempo. O padrão é 60.000 MS, ou 1 minuto.
- As Opções de configuração do Apache Spark personalizam o contexto criado pelo Apache Spark e permitem que usuários avançados substituam as configurações padrão do Apache Spark.
Padrão de configuração
Por padrão, a opção de configuração é Spark. jar. Packages e o valor é com. databricks: Spark-csv_ 2.10:1.5.0, com. databricks: Spark-avro_ 2.10:2.0.1. Dependendo da sua versão do Apache Spark, talvez seja necessário substituir o valor padrão.
- Clique em (+ icon) para adicionar outra linha à tabela opções de configuração.
- Clique em (salvar ícone) para salvar as configurações avançadas atuais como um arquivo JSON. O arquivo pode então ser carregado nas configurações avançadas de outra conexão.
- Clique (ícone aberto) para carregar um arquivo JSON na tabela opções de configuração.
- Clique em OK para criar sua faísca Apache na conexão HDInsight do Microsoft Azure .