Apache Spark Direct
Tipo de conexão | Server REST/HTML |
Distribuições validadas em | Hortonworks 2.6, Cloudera 5.7 |
Detalhes do Server | As informações de download do Apache Livy podem ser encontradas aqui . |
Tipo de suporte | No Banco de Dados |
Validado em | Apache Livy 0.3, Apache Spark 1.6, 2.0, 2.1 e 2.2 |
Ferramentas do Alteryx usadas para conexão
Processamento de fluxos de trabalho no banco de dados
Conecte-se ao Apache Spark arrastando uma ferramenta Conectar In-DB ou a ferramenta Código do Apache Spark para a tela. Crie uma nova conexão do Livy usando o driver do Apache Spark Direct. Use as instruções abaixo para configurar a conexão.
Configurar a janela de conexão do Livy
Para se conectar ao servidor do Livy e criar uma cadeia de conexão do Alteryx:
Adicione uma nova conexão in-DB, definindo a Fonte de dados como Apache Spark Direct . Para obter mais informações sobre como configurar uma conexão in-DB, visite a Ferramenta Conectar In-DB .
Na guia Leitura , o Driver será bloqueado para o Apache Spark Direct . Clique na seta suspensa em Cadeia de conexão e selecione Nova conexão de banco de dados .
Configure a janela Conexão do Livy .
Configuração do servidor Livy
Selecione a sua preferência de segurança:
Digite ou cole o endereço IP do host ou o nome DNS do nó do Livy no cluster do Apache Spark.
Insira a Porta usada pelo Livy. A porta padrão é 8998.
Opcionalmente, forneça o Nome do usuário para definir a representação do usuário, o nome que o Apache Spark usará ao executar trabalhos.
Insira ou cole o URL do seu Knox Gateway.
Insira o Nome de usuário e a Senha associados ao gateway especificado.
Opcionalmente, teste a conexão:
Selecione a versão do Apache Spark usada em seu cluster.
Selecione o tipo de conexão Kerberos .
Selecione Teste .
Defina o Modo de conexão para a linguagem de codificação a ser usada na ferramenta Código do Apache Spark.
Conexão do HDFS
Selecione a opção de Configuração do Server que corresponde ao protocolo HDFS usado para se comunicar com o cluster.
Digite o endereço IP do host ou o nome DNS do nó do nome HDFS no cluster do Apache Spark.
Insira o número da Porta . A porta padrão será preenchida automaticamente.
Digite o endereço IP do host ou o nome DNS do nó do nome HDFS no cluster do Apache Spark.
Insira o número da Porta . A porta padrão será preenchida automaticamente.
Insira ou cole o URL do seu Knox Gateway.
Opcionalmente, insira o Nome de usuário para a conexão do HDFS.
Opcionalmente, insira a Senha para a conexão do HDFS.
Selecione o protocolo Kerberos a ser usado.
Opções avançadas
Defina o intervalo de sondagem (ms), o tempo entre verificações do Alteryx para solicitações de execução do código do Apache Spark. O padrão é 1.000 ms ou 1 segundo.
Defina o tempo de espera (ms), o tempo que o Alteryx espera para que as solicitações de execução sejam concluídas. Operações que demoram mais do que o tempo de espera definido resultam em um erro de tempo limite. O padrão é 60.000 ms ou 1 minuto.
As opções de configuração do Apache Spark personalizam o contexto criado do Apache Spark e permitem que usuários avançados substituam as configurações padrão do Apache Spark.
Nota
Por padrão, a opção de configuração é spark.jars.packages e o valor é com.databricks:spark-csv_2.10:1.5.0,com.databricks:spark-avro_2.10:2.0.1. Dependendo da sua versão do Apache Spark, talvez seja necessário substituir o valor padrão.
Versão do Apache Spark | Valor |
---|---|
2.0 - 2.1 | com.databricks:spark-avro_2.11:3.2.0;com.databricks:spark-csv_2.11:1.5.0 |
2.2 | com.databricks:spark-avro_2.11:4.0.0;com.databricks:spark-csv_2.11:1.5.0 |
Selecione (ícone "+") para adicionar outra linha à tabela de opções de configuração.
Selecione (ícone "salvar") para salvar as configurações avançadas atuais como um arquivo JSON. O arquivo pode então ser carregado nas configurações avançadas de outra conexão.
Selecione (ícone "abrir") para carregar um arquivo JSON na tabela de opções de configuração.
Clique em OK para criar sua conexão com o Apache Spark Direct.
Limitações
Neste momento, o Alteryx oferece suporte ao Spark nativo na Cloudera Data Platform (CDP), mas não ao Cloudera Distributed Hadoop (CDH).
Servidores Livy habilitados para TLS/SSL não são compatíveis.