Apache Spark no Databricks

Use estas instruções para saber como se conectar a databricks e criar uma cadeia de conexão Alteryx.

Tipo de suporte: Na base de dados
Validado em: Apache Spark 2,0, 2,1 e 2,2
Distribuições validadas em: Databricks
Tipo de conexão: Rest/servidor HTML
Detalhes do servidor: Informações de dados de tijolos podem ser encontradas aqui.

Ferramentas do Alteryx usadas para conectar

Detalhes adicionais

Conecte-se ao Apache Spark arrastando uma ferramenta Connect in-DB ou a ferramenta de código Apache Spark para a tela. Crie uma nova conexão com databricks usando a faísca Apache no driver databricks. Use as instruções abaixo para configurar a conexão. Consulte documentação do databricks para obter mais informações.

Configurar a janela de conexão databricks

Para conectar-se a databricks e criar uma cadeia de conexão Alteryx:

  1. Insira sua ID de conta databricks .
  2. Cole o token de databricks gerado em suas configurações de usuário de databricks. Tokens podem expirar e ser revogados.
  3. Clique em Conectar. Designer exibe uma lista de clusters de databricks para se conectar. Se a conexão não for bem-sucedida, tente digitar suas credenciais novamente.
  4. Selecione um cluster de databricks para conectar-se.
  5. Selecione um tipo de sessão. Selecione uma das seguintes opções, dependendo do código que você está escrevendo:
    • Scala
    • Python
    • R
  6. Opcionalmente, digite um nome de execução descritivo para o trabalho para que você possa identificá-lo mais tarde. Os nomes de execução ajudam os usuários a distinguir um trabalho de outro no servidor. O nome padrão é sem título se deixado em branco.
  7. Defina o tempo limite em número de minutos. Este é o número de minutos de não-atividade antes que o trabalho pare. Se você digitar 15 minutos, o trabalho pode ficar ocioso sem qualquer atividade por 15 minutos antes que ele vezes para fora. Consulte documentação do databricks para obter mais informações.
  8. Adicione bibliotecas além do conjunto de bibliotecas já fornecidas para escrever seu próprio código.

    Tipo de arquivo

    Descrição

    Frasco

    Arquivo Java

    Ovo

    Formato de distribuição importável de arquivo único para projetos relacionados a Python

    PyPi

    Python Package Index é um repositório de software para Python

    Maven

    um repositório para arquivos e artefatos.

    Cran

    Pacote de arquivos R

  9. Clique noícone "+" para adicionar uma linha. Clique em Salvar para salvar as configurações de configuração de biblioteca em um arquivo. Use o ícone da pasta de arquivos para localizar um arquivo de configuração salvo. Para excluir uma linha, passe o mouse sobre ela e selecione o ícone de lixo.

  10. Na conexão databricks, clique em OK .
  11. Em gerenciar conexões em-dB, clique em OK para criar uma cadeia de conexão Alteryx.