Apache Spark no Databricks
Tipo de conexão | Server REST/HTML |
Distribuições validadas em | Databricks |
Detalhes do Server | As informações do Databricks podem ser encontradas aqui. |
Tipo de suporte | No Banco de Dados |
Validado em | Versão de cliente ODBC: 2.6.23.1039 |
Ferramentas do Alteryx usadas para conexão
Processamento de fluxos de trabalho no banco de dados
Conecte-se ao Apache Spark arrastando uma ferramenta Conectar In-DB ou a ferramenta Código do Apache Spark para a tela. Crie uma nova conexão do Livy usando o driver do Apache Spark Direct. Use as instruções abaixo para configurar a conexão.
Configurar a janela de conexão do Databricks
Para se conectar ao Databricks e criar uma cadeia de conexão do Alteryx...
Insira o seu ID de conta ou Região.
Para Databricks hospedado na AWS, insira o seu ID de conta do Databricks. Você pode recuperar o ID de conta no console da conta Databricks selecionando a seta para baixo ao lado do seu nome de usuário no canto superior direito.
Para Databricks hospedado no Azure, insira a sua Região. Região é o local do Data Center do Azure. Pode ser fornecida pelo seu administrador do Databricks.
Cole o Token do Databricks que você gerou nas configurações de usuário do Databricks. Os tokens podem expirar e ser revogados.
Clique em Conectar. O Designer exibe uma lista de clusters do Databricks ao quais se conectar. Se a conexão não for bem-sucedida, tente inserir suas credenciais novamente.
Selecione um Cluster do Databricks ao qual se conectar.
Selecione um Tipo de sessão. Selecione um destes, dependendo do código que você está gravando:
Scala
Python
R
Opcionalmente, insira um Nome de execução descritivo para o trabalho para que você possa identificá-lo mais tarde. Os nomes de execução ajudam os usuários a distinguir um trabalho de outro no servidor. O nome é definido por padrão como "Sem título" se deixado em branco.
Defina o Tempo limite em número de minutos. Este é o número de minutos de não atividade antes de o trabalho ser interrompido. Se inserir 15 minutos, o trabalho pode ficar inativo sem qualquer atividade durante 15 minutos antes de ser interrompido. Consulte a Documentação do Databricks para obter mais informações.
Adicione Bibliotecas além do conjunto de bibliotecas que já é fornecido para gravar seu próprio código.
Tipo de arquivo
Descrição
jar
Arquivo Java
egg
Formato de distribuição importável de arquivo único para projetos relacionados ao Python.
PyPi
Python Package Index é um repositório de software para Python.
Maven
Um repositório para arquivos e artefatos.
CRAN
Pacote de arquivos R
Selecione o ícone "+" para adicionar uma linha. Selecione Salvar para salvar as configurações da biblioteca em um arquivo. Use o ícone de pasta de arquivo para localizar um arquivo de configuração salvo. Para excluir uma linha, passe o mouse sobre ela e selecione o ícone de lixeira.
Em Conexão do Databricks, clique em OK.
Em GerenciarConexões in-DB, clique em OK para criar uma cadeia de conexão do Alteryx.