Apache Spark no Databricks
Use estas instruções para saber como se conectar a databricks e criar uma cadeia de conexão Alteryx.
Ferramentas do Alteryx usadas para conectar
- Ferramenta Conectar na BD, Fluxo de trabalho na ferramenta, e Ferramenta do código da faísca de Apache (processamento de fluxo de trabalho no banco de dados)
Detalhes adicionais
Conecte-se ao Apache Spark arrastando uma ferramenta Connect in-DB ou a ferramenta de código Apache Spark para a tela. Crie uma nova conexão com databricks usando a faísca Apache no driver databricks. Use as instruções abaixo para configurar a conexão. Consulte documentação do databricks para obter mais informações.
Configurar a janela de conexão databricks
Para conectar-se a databricks e criar uma cadeia de conexão Alteryx:
- Insira sua ID de conta databricks .
- Cole o token de databricks gerado em suas configurações de usuário de databricks. Tokens podem expirar e ser revogados.
- Clique em Conectar. Designer exibe uma lista de clusters de databricks para se conectar. Se a conexão não for bem-sucedida, tente digitar suas credenciais novamente.
- Selecione um cluster de databricks para conectar-se.
- Selecione um tipo de sessão. Selecione uma das seguintes opções, dependendo do código que você está escrevendo:
- Scala
- Python
- R
- Opcionalmente, digite um nome de execução descritivo para o trabalho para que você possa identificá-lo mais tarde. Os nomes de execução ajudam os usuários a distinguir um trabalho de outro no servidor. O nome padrão é sem título se deixado em branco.
- Defina o tempo limite em número de minutos. Este é o número de minutos de não-atividade antes que o trabalho pare. Se você digitar 15 minutos, o trabalho pode ficar ocioso sem qualquer atividade por 15 minutos antes que ele vezes para fora. Consulte documentação do databricks para obter mais informações.
- Adicione bibliotecas além do conjunto de bibliotecas já fornecidas para escrever seu próprio código.
Tipo de arquivo
Descrição
Frasco
Arquivo Java
Ovo
Formato de distribuição importável de arquivo único para projetos relacionados a Python
PyPi
Python Package Index é um repositório de software para Python
Maven
um repositório para arquivos e artefatos.
Cran Pacote de arquivos R
- Na conexão databricks, clique em OK .
- Em gerenciar conexões em-dB, clique em OK para criar uma cadeia de conexão Alteryx.
Clique noícone "+" para adicionar uma linha. Clique em Salvar para salvar as configurações de configuração de biblioteca em um arquivo. Use o ícone da pasta de arquivos para localizar um arquivo de configuração salvo. Para excluir uma linha, passe o mouse sobre ela e selecione o ícone de lixo.