Skip to main content

Apache Spark no Databricks

Tipo de conexão

Server REST/HTML

Distribuições validadas em

Databricks

Detalhes do Server

As informações do Databricks podem ser encontradas aqui.

Tipo de suporte

No Banco de Dados

Validado em

Versão de cliente ODBC: 2.6.23.1039

Ferramentas do Alteryx usadas para conexão

Processamento de fluxos de trabalho no banco de dados

Conecte-se ao Apache Spark arrastando uma ferramenta Conectar In-DB ou a ferramenta Código do Apache Spark para a tela. Crie uma nova conexão do Livy usando o driver do Apache Spark Direct. Use as instruções abaixo para configurar a conexão.

Configurar a janela de conexão do Databricks

Para se conectar ao Databricks e criar uma cadeia de conexão do Alteryx...

  1. Insira o seu ID de conta ou Região.

    • Para Databricks hospedado na AWS, insira o seu ID de conta do Databricks. Você pode recuperar o ID de conta no console da conta Databricks selecionando a seta para baixo ao lado do seu nome de usuário no canto superior direito.

    • Para Databricks hospedado no Azure, insira a sua Região. Região é o local do Data Center do Azure. Pode ser fornecida pelo seu administrador do Databricks.

  2. Cole o Token do Databricks que você gerou nas configurações de usuário do Databricks. Os tokens podem expirar e ser revogados.

  3. Clique em Conectar. O Designer exibe uma lista de clusters do Databricks ao quais se conectar. Se a conexão não for bem-sucedida, tente inserir suas credenciais novamente.

  4. Selecione um Cluster do Databricks ao qual se conectar.

  5. Selecione um Tipo de sessão. Selecione um destes, dependendo do código que você está gravando:

    • Scala

    • Python

    • R

  6. Opcionalmente, insira um Nome de execução descritivo para o trabalho para que você possa identificá-lo mais tarde. Os nomes de execução ajudam os usuários a distinguir um trabalho de outro no servidor. O nome é definido por padrão como "Sem título" se deixado em branco.

  7. Defina o Tempo limite em número de minutos. Este é o número de minutos de não atividade antes de o trabalho ser interrompido. Se inserir 15 minutos, o trabalho pode ficar inativo sem qualquer atividade durante 15 minutos antes de ser interrompido. Consulte a Documentação do Databricks para obter mais informações.

  8. Adicione Bibliotecas além do conjunto de bibliotecas que já é fornecido para gravar seu próprio código.

    Tipo de arquivo

    Descrição

    jar

    Arquivo Java

    egg

    Formato de distribuição importável de arquivo único para projetos relacionados ao Python.

    PyPi

    Python Package Index é um repositório de software para Python.

    Maven

    Um repositório para arquivos e artefatos.

    CRAN

    Pacote de arquivos R

    Selecione o ícone "+" para adicionar uma linha. Selecione Salvar para salvar as configurações da biblioteca em um arquivo. Use o ícone de pasta de arquivo para localizar um arquivo de configuração salvo. Para excluir uma linha, passe o mouse sobre ela e selecione o ícone de lixeira.

  9. Em Conexão do Databricks, clique em OK.

  10. Em GerenciarConexões in-DB, clique em OK para criar uma cadeia de conexão do Alteryx.