Apache Spark Direct
Ferramentas do Alteryx usadas para conectar
- Ferramenta Conectar na BD, Fluxo de trabalho na ferramenta, e Ferramenta do código da faísca de Apache (processamento de fluxo de trabalho no banco de dados)
Detalhes adicionais
Conecte-se ao Apache Spark arrastando uma ferramenta Connect in-DB ou a ferramenta de código Apache Spark para a tela. Crie uma nova conexão de Livy usando o driver Apache Spark Direct. Use as instruções abaixo para configurar a conexão.
Configurar a janela de conexão Livy
Para se conectar ao servidor Lívio e criar uma seqüência de conexão Alteryx:
Adicione uma nova conexão em-dB, definindo a fonte de dados para Apache Spark Direct. Para obter mais informações sobre como configurar uma conexão em-dB, consulte Ferramenta Conectar na BD.
Na guia ler , o Driver será bloqueado para Apache Spark Direct. Clique na seqüência de conexão Soltar-seta suspensa e selecione nova conexão de banco de dados.
Configure a janela de conexão Livy .
Livy configuraçãodo servidor: selecione sua preferência de segurança:
Digite ou cole o endereço IP do host ou o nome DNS do nó Livy no seu cluster apache Spark.
Digite a porta usada por Livy. A porta padrão é 8998.
Opcionalmente, forneça o nome de usuário para definir a representação do usuário, o nome que o Apache Spark usará ao executar trabalhos.
Digite ou cole a URL do seu gateway Knox.
Digite o nome de usuário e a senha associados ao gateway especificado.
Opcionalmente, teste a conexão:
- Selecione a versão Apache Spark usada em seu cluster.
- Selecione o tipo de conexão Kerberos.
- Clique em testar.
Defina o modo de conexão com o idioma de codificação a ser usado na ferramenta Apache Spark Code.
Selecione a opção de configuração do servidor que corresponda ao protocolo HDFS usado para se comunicar com o cluster.
Digite o endereço IP do host ou o nome DNS do nó de nome HDFS no cluster apache Spark.
Digite o número da porta . A porta padrão será preenchida automaticamente.
Digite o endereço IP do host ou o nome DNS do nó de nome HDFS no cluster apache Spark.
Digite o número da porta . A porta padrão será preenchida automaticamente.
Digite ou cole a URL do seu gateway Knox.
Opcionalmente, digite o nome de usuário para a conexão HDFS.
Opcionalmente, digite a senha para a conexão HDFS.
Selecione o protocolo Kerberos a ser usado.
Defina o intervalo de enquete (MS), o tempo entre verificações de Alteryx para solicitações de execução de código Apache Spark. O padrão é 1.000 MS, ou 1 segundo.
Defina o tempo de espera (MS), o tempo que Alteryx aguarda para que as solicitações de execução sejam concluídas. As operações que demoram mais que o tempo de espera definido resultam em um erro de tempo. O padrão é 60.000 MS, ou 1 minuto.
As Opções de configuração do Apache Spark personalizam o contexto criado pelo Apache Spark e permitem que usuários avançados substituam as configurações padrão do Apache Spark.
Padrão de configuração
Por padrão, a opção de configuração é Spark. jar. Packages e o valor é com. databricks: Spark-csv_ 2.10:1.5.0, com. databricks: Spark-avro_ 2.10:2.0.1. Dependendo da sua versão do Apache Spark, talvez seja necessário substituir o valor padrão.
Apache Spark versão | Valor |
---|---|
2,0-2,1 | com. databricks: faísca-avro_ 2.11:3.2.0; com. databricks: Spark-csv_ 2.11:1.5.0 |
2,2 | com. databricks: faísca-avro_ 2.11:4.0.0; com. databricks: Spark-csv_ 2.11:1.5.0 |
Clique em (+ icon) para adicionar outra linha à tabela opções de configuração.
Clique em (salvar ícone) para salvar as configurações avançadas atuais como um arquivo JSON. O arquivo pode então ser carregado nas configurações avançadas de outra conexão.
Clique (ícone aberto) para carregar um arquivo JSON na tabela opções de configuração.
Selecione OK para criar sua conexão direta Apache Spark.