Skip to main content

Apache Spark Direct

Tipo de conexão

Server REST/HTML

Distribuições validadas em

Hortonworks 2.6, Cloudera 5.7

Detalhes do Server

As informações de download do Apache Livy podem ser encontradas aqui .

Tipo de suporte

No Banco de Dados

Validado em

Apache Livy 0.3, Apache Spark 1.6, 2.0, 2.1 e 2.2

Ferramentas do Alteryx usadas para conexão

Processamento de fluxos de trabalho no banco de dados

Conecte-se ao Apache Spark arrastando uma ferramenta Conectar In-DB ou a ferramenta Código do Apache Spark para a tela. Crie uma nova conexão do Livy usando o driver do Apache Spark Direct. Use as instruções abaixo para configurar a conexão.

Configurar a janela de conexão do Livy

Para se conectar ao servidor do Livy e criar uma cadeia de conexão do Alteryx:

Adicione uma nova conexão in-DB, definindo a Fonte de dados como Apache Spark Direct . Para obter mais informações sobre como configurar uma conexão in-DB, visite a Ferramenta Conectar In-DB .

Na guia Leitura , o Driver será bloqueado para o Apache Spark Direct . Clique na seta suspensa em Cadeia de conexão e selecione Nova conexão de banco de dados .

Configure a janela Conexão do Livy .

Configuração do servidor Livy

Selecione a sua preferência de segurança:

  • Digite ou cole o endereço IP do host ou o nome DNS do nó do Livy no cluster do Apache Spark.

  • Insira a Porta usada pelo Livy. A porta padrão é 8998.

  • Opcionalmente, forneça o Nome do usuário para definir a representação do usuário, o nome que o Apache Spark usará ao executar trabalhos.

  • Insira ou cole o URL do seu Knox Gateway.

  • Insira o Nome de usuário e a Senha associados ao gateway especificado.

Opcionalmente, teste a conexão:

  • Selecione a versão do Apache Spark usada em seu cluster.

  • Selecione o tipo de conexão Kerberos .

  • Selecione Teste .

Defina o Modo de conexão para a linguagem de codificação a ser usada na ferramenta Código do Apache Spark.

Conexão do HDFS

Selecione a opção de Configuração do Server que corresponde ao protocolo HDFS usado para se comunicar com o cluster.

  • Digite o endereço IP do host ou o nome DNS do nó do nome HDFS no cluster do Apache Spark.

  • Insira o número da Porta . A porta padrão será preenchida automaticamente.

  • Digite o endereço IP do host ou o nome DNS do nó do nome HDFS no cluster do Apache Spark.

  • Insira o número da Porta . A porta padrão será preenchida automaticamente.

Insira ou cole o URL do seu Knox Gateway.

Opcionalmente, insira o Nome de usuário para a conexão do HDFS.

Opcionalmente, insira a Senha para a conexão do HDFS.

Selecione o protocolo Kerberos a ser usado.

Opções avançadas

Defina o intervalo de sondagem (ms), o tempo entre verificações do Alteryx para solicitações de execução do código do Apache Spark. O padrão é 1.000 ms ou 1 segundo.

Defina o tempo de espera (ms), o tempo que o Alteryx espera para que as solicitações de execução sejam concluídas. Operações que demoram mais do que o tempo de espera definido resultam em um erro de tempo limite. O padrão é 60.000 ms ou 1 minuto.

As opções de configuração do Apache Spark personalizam o contexto criado do Apache Spark e permitem que usuários avançados substituam as configurações padrão do Apache Spark.

Nota

Por padrão, a opção de configuração é spark.jars.packages e o valor é com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. Dependendo da sua versão do Apache Spark, talvez seja necessário substituir o valor padrão.

Versão do Apache Spark

Valor

2.0 - 2.1

com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0

2.2

com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0

  • Selecione (ícone "+") para adicionar outra linha à tabela de opções de configuração.

  • Selecione (ícone "salvar") para salvar as configurações avançadas atuais como um arquivo JSON. O arquivo pode então ser carregado nas configurações avançadas de outra conexão.

  • Selecione (ícone "abrir") para carregar um arquivo JSON na tabela de opções de configuração.

Clique em OK para criar sua conexão com o Apache Spark Direct.

Limitações

Neste momento, o Alteryx oferece suporte ao Spark nativo na Cloudera Data Platform (CDP), mas não ao Cloudera Distributed Hadoop (CDH).

Servidores Livy habilitados para TLS/SSL não são compatíveis.