Skip to main content

私有数据处理

私有数据处理是指在 AWS、Azure 或 Google Cloud Platform 中您自身的虚拟私有云 (VPC) 内运行 Alteryx One Platform 数据处理集群。您的基础架构与 Alteryx 托管的云资源和软件的这种组合通常被称为专用计算平面或私有数据处理环境。

为您的云提供商配置私有数据处理

使用以下指南,为您的云服务设置私有数据处理:

责任共担模型

在私有数据处理场景中,Alteryx One 需要明确的所有权边界。责任共担矩阵即用于体现这些所有权边界。

aac_pdp_matric.png

Alteryx 为账户级资源和 VPC 提供规范。对于私有数据处理,由您负责实施该规范。

在账户与 VPC 就绪后,Alteryx 会主动管理 VPC 内的云资源基础设施和已部署的软件。

资源

客户

Alteryx

账户/订阅/项目级资源

  • 账户/订阅/项目详细信息

  • IAM 凭证

  • IAM 角色

  • IAM 策略

规格

云网络

VPC/vNet 基础架构

  • 子网

  • 路由

  • 端点

规格

云资源

  • 对象存储

  • IAM 角色和策略

  • Kubernetes

  • 计算(虚拟机)

  • 私密密钥管理器

  • 托管 SQL

  • Redis

  • 共享文件系统

  • Spark 处理

软件

  • Kubernetes 按需作业

  • Kubernetes 长期运行服务

  • 虚拟机

账户/订阅/项目级资源

在最高层级,Alteryx 需要一组权限来运行私有数据平面。而您将拥有 AWS 账户、Azure 订阅或 GCP 项目,以及对应的 IAM 凭证和 IAM 策略。

虚拟私有云

在下一层级,Alteryx 会为 VPC 或 vNet 定义规范。其中包括多个子网、CIDR 段、路由表和端点的定义。

请务必根据该规范实施 VPC 或 vNet。

云资源

完成 AWS 账户与 VPC、Azure 订阅与 vNet 或 GCP 项目与 VPC 的设置后,登录 Alteryx One 以触发创建私有数据处理集群的预配流程。

Alteryx 代表您创建和管理这些云资源。

云应用

预配所需资源后,Alteryx 会在私有集群内部署和维护处理数据所需的软件。

云资源的完整列表取决于您在私有数据处理环境中启用的应用。如需了解详情,请访问本页的 云应用 部分。

云资源

Alteryx One 使用搭载基础设施即代码 (IaC) 的自动化预配管道,为您创建和维护这些资源。Alteryx One 使用 Terraform Cloud 进行管理。Terraform 是一款 IaC 工具,支持通过可读性强的配置文件定义和管理基础设施资源。Terraform Cloud 是 Hashicorp 提供的 SaaS 产品。私有数据处理资源通过一组 Terraform 文件、Terraform Cloud API 以及运行在 Alteryx 基础设施上的私有 Terraform Cloud 代理进行创建和管理。

云资源的完整列表取决于您在私有数据处理环境中启用的应用。这些资源可能包括…

  • 对象存储:文件的基础存储层(例如:上传的数据集、作业输出、数据样本、缓存及其他临时引擎文件)。

  • IAM 角色和策略:预配云资源和部署软件所需的必要权限。

  • Kubernetes:为数据平面中的部分 Alteryx One 服务和作业运行虚拟机实例。

  • 计算(虚拟机):运行作业和服务所需的计算资源。

  • 私密密钥管理器:用于存储基础设施私密密钥。

  • Redis:用于 VPC 内的服务间通信。

  • 共享文件系统:网络附加存储。

  • Spark 处理:(如已启用)用于处理大数据作业。

不同公有云提供商所使用的具体服务如下:

Service

AWS

Azure

GCP

对象存储

S3

Blob Storage

Google Storage

IAM 角色和策略

IAM 角色

IAM 策略

IAM 角色

IAM 策略

IAM 角色

Kubernetes

EKS

AKS

GKE

计算(虚拟机)

EC2

虚拟机

计算实例

私密密钥管理

私密密钥管理器

密钥保管库

私密密钥管理器

Redis

Amazon MemoryDB

Azure Cache

Google MemoryStore

共享文件系统

EFS

Azure Files

Google Filestore

Spark 处理

无服务器 EMR

N/A

N/A

云应用

Alteryx One 在私有数据处理环境内运行多项作业和服务。基础设施与软件的具体组合,取决于您在其中部署的 Alteryx One 应用程序。借助这些模块,您只需部署所需应用对应的云资源和软件。

每个应用都包含一个已定义的软件包,其中包括…

  • 所需权限。

  • 包含子网和 IP 地址段的必要网络设置。

  • Alteryx 托管的云资源。

  • Alteryx 托管的软件。

例如,如果您仅希望部署 Designer Cloud,需提前配置特定权限和子网(含 IP 范围)。完成设置后,您可登录 Alteryx One 并启动部署流程。

如果您仅希望部署 Cloud Execution for Desktop,在执行部署时需要配置另一组权限和子网,并在 Alteryx One 中勾选对应选项。

如果要将两个软件包部署到同一专用计算平面,请务必完成两组设置步骤,再为两者执行部署。

Designer Cloud 软件包

部署 Designer Cloud 软件包时,Alteryx One 会预配这些云资源。 

所需服务

您可在云资源部分查看各云提供商对应的准确服务名称。

  • 对象存储

  • Kubernetes

  • 计算

  • 私密密钥管理器

  • Redis

  • 共享文件系统

  • (可选)Spark 处理

节点组和类型

在 Kubernetes 集群内,Alteryx 为各云提供商预配这些计算资源。随着云提供商的演进,这些节点类型和优先级可能会发生变化。目前,Alteryx 在几个因素之间取得平衡…

  • AMD 机型的成本低于 Intel 机型。

  • 部分作业类型在内存优化型或计算优化型节点上运行效果最佳。但对于部分云提供商,这类节点成本更高,而通用型节点则更为经济实惠。

  • AWS 允许 Alteryx 指定节点类型优先级,并基于优先级按需预配。Alteryx 推荐以下顺序:内存优化型 AMD 机型优先,其次为 Intel 机型,最后为通用机型。

节点组类型

AWS

Azure

GCP

通用

t3a.2xlarge

t3.2xlarge

Standard_D2s_v3

n2d-standard-2

convert

r6a.2xlarge

r6i.2xlarge

m6a.4xlarge

m6i.4xlarge

Standard_B16as_v2

n2d-standard-16

data-system

convert 相同

convert 相同

convert 相同

file-system

convert 相同

convert 相同

convert 相同

Photon

convert 相同

convert 相同

convert 相同

convertdata-systemfile-systemphoton 节点组的最小规模为 1,最大规模为 30。

软件

在 Kubernetes 集群中,Designer Cloud 软件包同时使用按需作业和长期运行服务。

Kubernetes 按需作业

对于 Kubernetes 按需作业,Alteryx One 从缓存或中央存储中拉取容器映像,并将其部署到作业生命周期内的临时 Pod 中。所有可执行程序均使用 Java 或 Python。

  • conversion-jobs:根据工作流需要,将数据集在不同格式间进行转换。

  • connectivity-jobs:在运行时连接到外部数据系统。

  • photon-jobs:Photon 是一款内存中的数据预处理和融合运行时引擎,适用于较小的数据集。

  • amp-jobs:AMP 是一款 Alteryx 内存级数据预处理和融合运行时引擎,主要在 Designer Experience 中使用。

  • publish-jobs:将处理后的数据写入工作流中指定的输出目标。

Kubernetes 长期运行服务

Alteryx 使用 Argo CD 在 Kubernetes 集群中部署和维护长期运行服务。Argo CD 是面向 Kubernetes 的声明式 GitOps 持续交付工具。

集群中的大多数长期运行服务提供工具性功能,允许 Alteryx 监控集群健康状态、扩缩集群、在云原生私密密钥存储与 Kubernetes 私密密钥存储间导入导出私密密钥。这些服务对所有使用 Kubernetes 的软件包通用,即使指定多个需要这些服务的软件包,同一时间也只会运行一个实例。

  • teleport-agent:为 Alteryx SRE 建立安全连接以访问集群进行故障排查。Alteryx Onehttps://charts.releases.teleport.dev 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。

  • datadog-agent:从集群收集日志和指标。Alteryx Onehttps://helm.datadoghq.com 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。

  • keda:基于自定义指标并支持 Kafka,实现长期运行服务的自动扩缩容。Alteryx 不扫描该第三方映像。

  • external-secrets:在 AWS Secret Manager 或私密密钥保管库与 Kubernetes Secrets Store 之间导入/导出私密密钥。Alteryx 不扫描该第三方映像。

  • cluster-autoscaler:根据 Pod 需求对 EKS、AKS 或 GKE 节点进行扩缩容。Alteryx 不扫描该第三方映像。

  • metrics-server:为 EKS、AKS 或 GKE 提供指标 API 支持。Alteryx 不扫描该第三方映像。

  • kubernetes-reflector:在所有命名空间之间复制 dockerConfigJson 私密密钥。Alteryx 不扫描该第三方映像。

Designer Cloud 软件包还会部署长期运行的服务,以满足特定需求。

  • data-service:在设计阶段通过 JDBC API 连接外部数据系统。该服务由 Alteryx 开发。Snyk 会扫描映像以查找漏洞。

注意

随着云应用不断演进,Alteryx 偶尔需要更新所需权限或网络配置。由于这些组件由您所有,Alteryx 会将所需变更告知您。您将有 60 天时间完成更新,之后 Alteryx 会推送新版本应用。若届时您尚未完成必要操作,私有环境中的数据处理可能出现性能下降或中断。

Cloud Execution for Desktop 软件包

部署 Cloud Execution for Desktop 软件包时,Alteryx One 会预配这些云资源。 

所需服务

Cloud Execution for Desktop 软件包不使用 Kubernetes。该软件包会部署一台机器映像,包含执行 Designer Desktop 工作流所需的全部软件。因此,该软件包仅使用各云提供商的计算服务。各云提供商的具体服务名称见云资源部分

  • 计算

自动扩缩组和节点类型

Cloud Execution for Desktop 会在自动扩缩组中部署 2 台或更多虚拟机。

随着云提供商的演进,这些节点类型和优先级可能会发生变化。目前,Alteryx 在几个因素之间取得平衡…

  • AMD 机型的成本低于 Intel 机型。

  • AWS 允许 Alteryx 指定节点类型优先级,并基于优先级按需预配。Alteryx 推荐以下顺序:内存优化型 AMD 机型优先,其次为 Intel 机型,最后为通用机型。

AWS

Azure

GCP

节点类型

m5a.4xlarge

Standard_B16as_v2

n2d-standard-16

软件

在虚拟机中,Cloud Execution for Desktop 软件包会运行若干监控用工具服务,以及处理 Designer Desktop 作业的引擎工作程序。

  • cefd-worker:这些工作程序运行 Alteryx 内存引擎,发起数据源连接、处理数据并发布作业输出。作业采用容器化方式,在虚拟机内部的容器中运行。

  • consumer-service:该服务消费来自 Kafka 队列的消息,消息由控制平面中的 Alteryx One 服务提供。以下消息是运行工作流的触发器。

  • teleport-agent:为 Alteryx SRE 建立安全连接以访问集群进行故障排查。Alteryx Onehttps://charts.releases.teleport.dev 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。

  • datadog-agent:从集群收集日志和指标。Alteryx Onehttps://helm.datadoghq.com 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。

Machine Learning 软件包

部署 Machine Learning 软件包时,Alteryx One 会预配这些云资源。 

所需服务

您可在云资源部分查看各云提供商对应的准确服务名称。

  • 对象存储

  • Kubernetes

  • 计算

  • 私密密钥管理器

  • Redis

  • 共享文件系统

  • (可选)Spark 处理

节点组和类型

在 Kubernetes 集群中,我们为各云提供商配置以下计算资源。这些节点类型和优先级会随云提供商的发展而变化。目前我们在多个因素间取得平衡:

  • AMD 机型比 Intel 机型成本更低

  • 部分作业类型在内存优化型或计算优化型节点上运行效果最佳,但部分云提供商中这类节点价格更高,而通用型节点则更为经济实惠

  • AWS 允许指定节点类型优先级,并会按优先级按需分配。我们优先使用内存优化型 AMD 机型,其次是 Intel 机型,最后是通用机型。

节点组类型

AWS

Azure

GCP

通用

t3a.2xlarge

t3.2xlarge

Standard_D2s_v3

n2d-standard-2

自动学习模型工具

r6a.2xlarge

r6i.2xlarge

m6a.4xlarge

m6i.4xlarge

Standard_B16as_v2

n2d-standard-16

automl 节点组最小规模为 1,最大规模为 30。

软件

在 Kubernetes 集群中,Machine Learning 软件包同时使用按需作业和长期运行服务。

Kubernetes 按需作业

对于 Kubernetes 按需作业,Alteryx One 从缓存或中央存储中拉取容器映像,并将其部署到作业生命周期内的临时 Pod 中。

  • automl-jobs:用于模型训练与执行的作业服务。

Kubernetes 长期运行服务

Alteryx 使用 Argo CD 在 Kubernetes 集群中部署和维护长期运行服务。Argo CD 是面向 Kubernetes 的声明式 GitOps 持续交付工具。

集群中的大多数长期运行服务提供工具性功能,允许 Alteryx 监控集群健康状态、扩缩集群、在云原生私密密钥存储与 Kubernetes 私密密钥存储间导入导出私密密钥。这些服务对所有使用 Kubernetes 的软件包通用,即使指定多个需要这些服务的软件包,同一时间也只会运行一个实例。

  • teleport-agent:为 Alteryx SRE 建立安全连接以访问集群进行故障排查。Alteryx Onehttps://charts.releases.teleport.dev 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。

  • datadog-agent:从集群收集日志和指标。Alteryx Onehttps://helm.datadoghq.com 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。

  • keda:基于自定义指标并支持 Kafka,实现长期运行服务的自动扩缩容。Alteryx 不扫描该第三方映像。

  • external-secrets:在 AWS Secret Manager 或私密密钥保管库与 Kubernetes Secrets Store 之间导入/导出私密密钥。Alteryx 不扫描该第三方映像。

  • cluster-autoscaler:根据 Pod 需求对 EKS、AKS 或 GKE 节点进行扩缩容。Alteryx 不扫描该第三方映像。

  • metrics-server:为 EKS、AKS 或 GKE 提供指标 API 支持。Alteryx 不扫描该第三方映像。

  • kubernetes-reflector:在所有命名空间之间复制 dockerConfigJson 私密密钥。Alteryx 不扫描该第三方映像。

Auto Insights 软件包

部署 Auto Insights 软件包时,Alteryx One 会预配这些云资源。 

所需服务

您可在云资源部分查看各云提供商对应的准确服务名称。

  • 对象存储

  • Kubernetes

  • 计算

  • 私密密钥管理器

  • Redis

  • 共享文件系统

节点组和类型

在 Kubernetes 集群中,我们为各云提供商配置以下计算资源。这些节点类型和优先级会随云提供商的发展而变化。目前我们在多个因素间取得平衡:

  • AMD 机型的成本低于 Intel 机型。

  • 部分作业类型在内存优化型或计算优化型节点上运行效果最佳,但部分云提供商中这类节点价格更高,而通用型节点则更为经济实惠。

  • AWS 允许指定节点类型优先级,并会按优先级按需分配。我们优先使用内存优化型 AMD 机型,其次是 Intel 机型,最后是通用机型。

节点组类型

AWS

Azure

GCP

通用

t3a.2xlarge

t3.2xlarge

Standard_D2s_v3

n2d-standard-2

common-job

r6a.2xlarge

r6i.2xlarge

m6a.4xlarge

m6i.4xlarge

Standard_B16as_v2

n2d-standard-16

common-job 节点组最小规模为 1,最大规模为 30。

软件

在 Kubernetes 集群中,Auto Insights 软件包同时使用按需作业和长期运行服务。

Kubernetes 按需作业

对于 Kubernetes 按需作业,Alteryx One 从缓存或中央存储中拉取容器映像,并将其部署到作业生命周期内的临时 Pod 中。

Auto Insights 作业由 Airflow 编排。

  • data-uploader:用于将数据集从 VFS 摄取到 ClickHouse 的作业服务。

Kubernetes 长期运行服务

Alteryx 使用 Argo CD 在 Kubernetes 集群中部署和维护长期运行服务。Argo CD 是面向 Kubernetes 的声明式 GitOps 持续交付工具。

集群中的大多数长期运行服务提供工具性功能,允许 Alteryx 监控集群健康状态、扩缩集群、在云原生私密密钥存储与 Kubernetes 私密密钥存储间导入导出私密密钥。这些服务对所有使用 Kubernetes 的软件包通用,即使指定多个需要这些服务的软件包,同一时间也只会运行一个实例。

  • teleport-agent:为 Alteryx SRE 建立安全连接以访问集群进行故障排查。Alteryx Onehttps://charts.releases.teleport.dev 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。

  • datadog-agent:从集群收集日志和指标。Alteryx Onehttps://helm.datadoghq.com 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。

  • keda:基于自定义指标并支持 Kafka,实现长期运行服务的自动扩缩容。Alteryx 不扫描该第三方映像。

  • external-secrets:在 AWS Secret Manager 或私密密钥保管库与 Kubernetes Secrets Store 之间导入/导出私密密钥。Alteryx 不扫描该第三方映像。

  • cluster-autoscaler:根据 Pod 需求对 EKS、AKS 或 GKE 节点进行扩缩容。Alteryx 不扫描该第三方映像。

  • metrics-server:为 EKS、AKS 或 GKE 提供指标 API 支持。Alteryx 不扫描该第三方映像。

  • kubernetes-reflector:在所有命名空间之间复制 dockerConfigJson 私密密钥。Alteryx 不扫描该第三方映像。

Auto Insights 软件包还会部署长期运行的服务,以满足特定需求。

业务连续性

私有数据处理环境仅在至少拥有 3 个可用区的区域中提供。这使私有数据处理环境可在 2 个可用区运行,并故障切换到第三个。

私有对象存储的备份由您自行负责。

根据作业类型,数据处理作业运行在 Kubernetes 集群的临时 Pod 中,或虚拟机的容器内。如果故障影响正在运行的作业,该作业很可能会失败,需要重新运行。

支持的区域

为在特定区域运行私有数据处理环境,Alteryx One 存在以下要求…

  1. 区域必须拥有 3 个及以上可用区。

  2. 区域必须提供云资源部分所述的必要云资源。

  3. 区域必须提供云应用部分所述的必要节点类型。

以下是各云提供商的可用区域:

云全局区域

地区

AWS

Azure

GCP

非洲

南非约翰内斯堡

southafricanorth

亚太地区

印度德里

asia-south2

中国香港

ap-east-1

eastasia

asia-east2

印度尼西亚

asia-southeast2

印度孟买

ap-south-1

asia-south1

印度浦那

centralindia

日本大阪

asia-northeast2

韩国首尔

ap-northeast-2

koreacentral

asia-northeast3

新加坡

ap-southeast-1

southeastasia

asia-southeast1

澳大利亚悉尼

ap-southeast-2

australiaeast

australia-southeast1

台湾

asia-east1

日本东京

ap-northeast-1

japaneast

asia-northeast1

欧洲

比利时

europe-west1

德国柏林

europe-west10

芬兰

europe-north1

德国法兰克福

eu-central-1

germanywestcentral

europe-west3

瑞典耶夫勒

swedencentral

爱尔兰

eu-west-1

northeurope

英国伦敦

eu-west-2

uksouth

europe-west2

西班牙马德里

europe-southwest1

意大利米兰

europe-west8

荷兰

westeurope

europe-west4

挪威奥斯陆

norwayeast

法国巴黎

eu-west-3

francecentral

europe-west9

瑞典斯德哥尔摩

eu-north-1

意大利都灵

europe-west12

波兰华沙

polandcentral

europe-central2

瑞士苏黎世

switzerlandnorth

中东

卡塔尔

qatarcentral

阿联酋

uaenorth

北美洲

亚利桑那州

westus3

加利福利亚州

us-west2

爱荷华州

centralus

us-central1

加拿大蒙特利尔

ca-central-1

northamerica-northeast1

加拿大多伦多

canadacentral

内华达

us-west4

北弗吉尼亚州

us-east-1

俄亥俄州

us-east-2

us-east5

俄勒冈州

us-west-2

us-west1

南卡罗来纳州

us-east1

德克萨斯州

southcentralus

犹他州

us-west3

弗吉尼亚州

eastus

us-east4

eastus2

华盛顿

westus2

南美地区

巴西圣保罗

sa-east-1

brazilsouth

southamerica-east1