Apache Spark Direct
Ferramentas do Alteryx usadas para conectar
Processamento de fluxo de trabalho em base de dados
Conecte-se ao Apache Spark arrastando uma ferramenta Connect in-DB ou a ferramenta de código Apache Spark para a tela. Crie uma nova conexão de Livy usando o driver Apache Spark Direct. Use as instruções abaixo para configurar a conexão.
Configurar a janela de conexão Livy
Para se conectar ao servidor Lívio e criar uma seqüência de conexão Alteryx:
Adicione uma nova conexão in-DB, definindo a fonte de dados para o Apache Spark Direct. Para obter mais informações sobre como configurar uma conexão in-DB, consulte conectar a ferramenta in-DB.
Na guia ler , o Driver será bloqueado para Apache Spark Direct. Clique na seta suspensa cadeia de conexão e selecione nova conexão de banco de dados.
Configure a janela de conexão Livy .
Configuração do servidor Livy
Selecione sua preferência de segurança:
- Digite ou cole o endereço IP do host ou o nome DNS do nó Livy dentro do cluster do Apache Spark.
- Digite a porta usada por Livy. A porta padrão é 8998.
- Opcionalmente, forneça o nome de usuário para definir a representação do usuário, o nome que o Apache Spark usará ao executar trabalhos.
- Digite ou cole a URL do seu gateway Knox.
- Digite o nome de usuário e a senha associados ao gateway especificado.
Opcionalmente, teste a conexão:
- Selecione a versão do Apache Spark usada no cluster.
- Selecione o tipo de conexão Kerberos.
- Clique em testar.
Defina o modo de conexão como a linguagem de codificação a ser usada na ferramenta Apache Spark Code.
Conexão do HDFS
Selecione a opção de configuração do servidor que corresponda ao protocolo HDFS usado para se comunicar com o cluster.
Digite o endereço IP do host ou o nome DNS do nó de nome HDFS no cluster apache Spark.
Digite o número da porta . A porta padrão será preenchida automaticamente.
Digite o endereço IP do host ou o nome DNS do nó de nome HDFS no cluster apache Spark.
Digite o número da porta . A porta padrão será preenchida automaticamente.
Digite ou cole a URL do seu gateway Knox.
Opcionalmente, digite o nome de usuário para a conexão HDFS.
Opcionalmente, digite a senha para a conexão HDFS.
Selecione o protocolo Kerberos a ser usado.
Opções avançadas
Defina o intervalo de enquete (MS), o tempo entre verificações de Alteryx para solicitações de execução de código Apache Spark. O padrão é 1.000 MS, ou 1 segundo.
Defina o tempo de espera (MS), o tempo que Alteryx aguarda para que as solicitações de execução sejam concluídas. As operações que demoram mais que o tempo de espera definido resultam em um erro de tempo. O padrão é 60.000 MS, ou 1 minuto.
As Opções de configuração do Apache Spark personalizam o contexto criado pelo Apache Spark e permitem que usuários avançados substituam as configurações padrão do Apache Spark.
Por padrão, a opção de configuração é Spark. jar. Packages e o valor é com. databricks: Spark-csv_ 2.10:1.5.0, com. databricks: Spark-avro_ 2.10:2.0.1. Dependendo da sua versão do Apache Spark, talvez seja necessário substituir o valor padrão.
Apache Spark versão | Valor |
---|---|
2,0-2,1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2,2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
- Clique em (+ icon) para adicionar outra linha à tabela opções de configuração.
- Clique em (salvar ícone) para salvar as configurações avançadas atuais como um arquivo JSON. O arquivo pode então ser carregado nas configurações avançadas de outra conexão.
- Clique (ícone aberto) para carregar um arquivo JSON na tabela opções de configuração.
Selecione OK para criar sua conexão direta Apache Spark.