Skip to main content

Apache Spark no Databricks

Tipo de conexão

Server REST/HTML

Distribuições validadas em

Databricks

Detalhes do Server

As informações do Databricks podem ser encontradas aqui .

Tipo de suporte

No Banco de Dados

Validado em

Versão de cliente ODBC: 2.6.23.1039

Ferramentas do Alteryx usadas para conexão

Processamento de fluxos de trabalho no banco de dados

Blue icon with database being plugged in.
Blue icon with a stream-like object flowing into a database.
Apache Spark Code Tool Icon

Conecte-se ao Apache Spark arrastando uma ferramenta Conectar In-DB ou a ferramenta Código do Apache Spark para a tela. Crie uma nova conexão com o Databricks usando o driver do Apache Spark no Databricks. Use as instruções abaixo para configurar a conexão. Consulte a Documentação do Databricks para obter mais informações.

Configurar a janela de conexão do Databricks

Para se conectar ao Databricks e criar uma cadeia de conexão do Alteryx...

  1. Insira o seu ID de conta ou Região .

    • Para Databricks hospedado na AWS , insira o seu ID de conta do Databricks . Você pode recuperar o ID de conta no console da conta Databricks selecionando a seta para baixo ao lado do seu nome de usuário no canto superior direito.

    • Para Databricks hospedado no Azure , insira a sua Região . Região é o local do Data Center do Azure. Pode ser fornecida pelo seu administrador do Databricks.

  2. Cole o Token do Databricks que você gerou nas configurações de usuário do Databricks. Os tokens podem expirar e ser revogados.

  3. Clique em Conectar . O Designer exibe uma lista de clusters do Databricks ao quais se conectar. Se a conexão não for bem-sucedida, tente inserir suas credenciais novamente.

  4. Selecione um Cluster do Databricks ao qual se conectar.

  5. Selecione um Tipo de sessão . Selecione um destes, dependendo do código que você está gravando:

    • Scala

    • Python

    • R

  6. Opcionalmente, insira um Nome de execução descritivo para o trabalho para que você possa identificá-lo mais tarde. Os nomes de execução ajudam os usuários a distinguir um trabalho de outro no servidor. O nome é definido por padrão como "Sem título" se deixado em branco.

  7. Defina o Tempo limite em número de minutos. Este é o número de minutos de não atividade antes de o trabalho ser interrompido. Se inserir 15 minutos, o trabalho pode ficar inativo sem qualquer atividade durante 15 minutos antes de ser interrompido. Consulte a Documentação do Databricks para obter mais informações.

  8. Adicione Bibliotecas além do conjunto de bibliotecas que já é fornecido para gravar seu próprio código.

    Tipo de arquivo

    Descrição

    jar

    Arquivo Java

    egg

    Formato de distribuição importável de arquivo único para projetos relacionados ao Python.

    PyPi

    Python Package Index é um repositório de software para Python.

    Maven

    Um repositório para arquivos e artefatos.

    CRAN

    Pacote de arquivos R

    Selecione o ícone " + " para adicionar uma linha. Selecione Salvar para salvar as configurações da biblioteca em um arquivo. Use o ícone de pasta de arquivo para localizar um arquivo de configuração salvo. Para excluir uma linha, passe o mouse sobre ela e selecione o ícone de lixeira.

  9. Em Conexão do Databricks , clique em OK .

  10. Em Gerenciar Conexões in-DB , clique em OK para criar uma cadeia de conexão do Alteryx.