Databricks

Para obter as opções de autenticação do Databricks, acesse Guia do Alteryx e do Databricks.

Tipo de conexão	ODBC (64 bits)
Requisitos de configuração do driver	O host deve ser um hostname do Server JDBC/ODBC do cluster do Databricks. Para um desempenho ideal, você deve habilitar a opção "Fast SQLPrepare" dentro das "Opções avançadas" do driver para permitir que o Alteryx recupere metadados sem executar uma consulta. A caixa de seleção Tradução habilitada para CTAS deve estar desmarcada no DSN. Ela vem marcada por padrão. Para usar o Construtor de consulta visual, selecione a opção "Obter tabelas com consulta" nas "Opções avançadas" do driver. Compatível com AWS e Azure.
Tipo de suporte	Leitura e gravação; no banco de dados
Validado em	Cluster do ponto de extremidade do SQL e interativo do Databricks, Driver do Simba Apache Spark 2.7.7.1017.

Ferramentas do Alteryx usadas para conexão

Processamento de fluxos de trabalho padrão

Ferramenta Dados de Entrada

Processamento de fluxos de trabalho no banco de dados

Se você tiver problemas com a leitura ou gravação de caracteres Unicode®, acesse o driver ODBC do Simba Impala. Em Opções avançadas, selecione Usar tipos Unicode SQL.

O comprimento da cadeia de caracteres é controlado pelo driver. É possível alterá-lo em "Opções avançadas para o DSN ODBC" ou em "Opções avançadas para a configuração do driver", que você pode encontrar na pasta de instalação do driver.

Importante

O driver ODBC do Databricks (o sucessor renomeado do driver ODBC do Simba Spark) atualmente não é compatível com o conector do Databricks no Alteryx Designer e não funciona com ele no momento. O suporte está planejado para uma versão futura do Alteryx Designer; o cronograma será comunicado separadamente. Até lá, continue usando o driver ODBC do Simba Spark.

Suporte à leitura

Instale e configure o driver ODBC do Apache Spark:

Tipo de servidor do Spark: selecione o tipo de servidor apropriado para a versão do Apache Spark que você está executando. Se estiver executando o Apache Spark 1.1 e posterior, selecione "Apache SparkThreptServer".
Mecanismo de autenticação: consulte o guia de instalação baixado com o driver do Simba Apache Spark para ajustar essa definição com base na configuração.

Para configurar as Opções avançadas do driver, consulte o guia de instalação baixado com o driver do Simba Apache Spark.

Suporte à gravação

Para fluxos de trabalho padrão e no banco de dados, use a ferramenta Entrada do Fluxo de Dados para gravar no Databricks. O suporte à gravação é oferecido por meio do carregador em massa do Databricks. Vá para Gerenciar conexões in-DB – Gravar.

Configurar a guia "Gravar"

Selecione o Carregador em massa do Databricks (Avro) ou Carregador em massa do Databricks (CSV). Para gravar uma tabela com nomes de campo que totalizam mais de 4.000 caracteres, use CSV em vez de Avro. O delimitador usado para CSV é o caractere de início do cabeçalho (SOH).
Selecione o menu suspenso Cadeia de conexão e, em seguida, selecione Nova conexão do Databricks.
Selecione uma fonte de dados ODBC existente ou selecione Admin ODBC para criar uma.
Insira um nome de usuário e senha. Estes campos não podem estar em branco.
Insira o URL do Databricks
https://abc-abc123-123a.cloud.databricks.com
Atenção
Incluir um "/" à direita no URL (por exemplo: https://abc-abc123-123a.cloud.databricks.com/) resultará em erro.

Conexão em massa do Databricks Delta Lake

Com a versão 2024.1 do Designer, a conexão em massa do Redshift oferece suporte à autenticação IAM (Gerenciamento de identidade e acesso) da AWS.

Siga os passos abaixo para configurar a conexão em massa do Databricks Delta Lake.

Importante

A conexão em massa do Databricks Delta Lake só está disponível no Designer versão 2022.1 e superior.

Selecione o Carregador em massa do Databricks Delta Lake (Avro) ou Carregador em massa do Databricks Delta Lake (CSV). Para gravar uma tabela com nomes de campo que totalizam mais de 4.000 caracteres.
Selecione o menu suspenso Cadeia de conexão e, em seguida, selecione Nova conexão do banco de dados.
Selecione uma fonte de dados ODBC existente ou selecione Admin ODBC para criar uma.
Insira um nome de usuário e senha. Estes campos não podem estar em branco. O Alteryx é compatível com tokens de acesso pessoais. O nome de usuário é "token". A senha é o token de acesso pessoal.
Selecione um Método de preparo (compatível com AWS e Azure):
1. Para o Amazon S3
  1. Insira a Chave de acesso da AWS e a Chave secreta para autenticar.
  2. Selecione um ponto de extremidade ou deixe como Padrão.
  3. Selecione Usar Signature V4 para autenticação.
  4. Selecione o nível de Criptografia do lado do servidor necessário; "Nenhum" é o padrão.
  5. Selecione um Nome do bucket a ser usado como local de preparo.
    Com a versão 2024.1 do Designer, o carregador em massa do Databricks oferece suporte à autenticação IAM (Gerenciamento de identidade e acesso) da AWS.
2. Para o Azure ADLS
  Importante
  O carregamento em massa para o Azure é compatível apenas com ADLS Gen 2.
  1. Selecione o Contêiner ADLS;
  2. Insira a Chave compartilhada;
  3. Insira a Conta de armazenamento;
  4. Insira um Diretório temporário opcional. Ao inserir o diretório temporário, não repita o Nome do contêiner.
    exemplo
    Se a estrutura da pasta for Container/MyTempFolder/TempTables, insira apenas "MyTempFolder/TempTables".
    Se o diretório inserido aqui ainda não existir, o Alteryx criará um.
    O Alteryx criará uma subpasta com o nome da tabela para cada tabela que for preparada.
3. Clique em OK para aplicar.
  Com a versão 2023.2 do Designer, o carregador em massa do Databricks oferece suporte à autenticação do Azure AD para a preparação do ADLS. Esse recurso melhora a segurança do carregador em massa do Databricks, permitindo que as organizações gerenciem de forma granular o acesso a contêineres individuais dentro de uma conta de armazenamento.

Parâmetros sem DSN

Os parâmetros sem DSN no DCM para Databricks habilitam a replicação de configurações seguras existentes do ODBC e a migração perfeita.

ssl=1
UseSystemTrustStore=1
ThriftTransport=2
AllowSelfSignedServerCert=1
UseUnicodeSqlCharacterTypes=1

Configurar os detalhes do proxy

Ao criar ou editar uma conexão do Databricks, você pode especificar os detalhes do servidor proxy. Essas configurações são passadas para o driver ODBC do Simba para estabelecer a conexão.

Os seguintes campos de proxy estão disponíveis:

Host do proxy: o nome de host do servidor proxy.
Porta do proxy: o número da porta usada pelo servidor proxy.
Nome de usuário do proxy: a credencial de nome de usuário para autenticação de proxy.
Senha do proxy: a credencial de senha para autenticação de proxy.

Nota

Essas configurações se aplicam apenas a conexões do Databricks. Outras fontes de dados não usam essas configurações de proxy.

Nesta secção: