私有数据处理
私有数据处理是指在 AWS、Azure 或 Google Cloud Platform 中您自身的虚拟私有云 (VPC) 内运行 Alteryx One Platform 数据处理集群。您的基础架构与 Alteryx 托管的云资源和软件的这种组合通常被称为专用计算平面或私有数据处理环境。
为您的云提供商配置私有数据处理
使用以下指南,为您的云服务设置私有数据处理:
责任共担模型
在私有数据处理场景中,Alteryx One 需要明确的所有权边界。责任共担矩阵即用于体现这些所有权边界。

Alteryx 为账户级资源和 VPC 提供规范。对于私有数据处理,由您负责实施该规范。
在账户与 VPC 就绪后,Alteryx 会主动管理 VPC 内的云资源基础设施和已部署的软件。
资源 | 客户 | Alteryx |
|---|---|---|
账户/订阅/项目级资源 |
| 规格 |
云网络 | VPC/vNet 基础架构
| 规格 |
云资源 |
| |
软件 |
|
账户/订阅/项目级资源
在最高层级,Alteryx 需要一组权限来运行私有数据平面。而您将拥有 AWS 账户、Azure 订阅或 GCP 项目,以及对应的 IAM 凭证和 IAM 策略。
虚拟私有云
在下一层级,Alteryx 会为 VPC 或 vNet 定义规范。其中包括多个子网、CIDR 段、路由表和端点的定义。
请务必根据该规范实施 VPC 或 vNet。
云资源
完成 AWS 账户与 VPC、Azure 订阅与 vNet 或 GCP 项目与 VPC 的设置后,登录 Alteryx One 以触发创建私有数据处理集群的预配流程。
Alteryx 代表您创建和管理这些云资源。
云应用
预配所需资源后,Alteryx 会在私有集群内部署和维护处理数据所需的软件。
云资源的完整列表取决于您在私有数据处理环境中启用的应用。如需了解详情,请访问本页的 云应用 部分。
云资源
Alteryx One 使用搭载基础设施即代码 (IaC) 的自动化预配管道,为您创建和维护这些资源。Alteryx One 使用 Terraform Cloud 进行管理。Terraform 是一款 IaC 工具,支持通过可读性强的配置文件定义和管理基础设施资源。Terraform Cloud 是 Hashicorp 提供的 SaaS 产品。私有数据处理资源通过一组 Terraform 文件、Terraform Cloud API 以及运行在 Alteryx 基础设施上的私有 Terraform Cloud 代理进行创建和管理。
云资源的完整列表取决于您在私有数据处理环境中启用的应用。这些资源可能包括…
对象存储:文件的基础存储层(例如:上传的数据集、作业输出、数据样本、缓存及其他临时引擎文件)。
IAM 角色和策略:预配云资源和部署软件所需的必要权限。
Kubernetes:为数据平面中的部分 Alteryx One 服务和作业运行虚拟机实例。
计算(虚拟机):运行作业和服务所需的计算资源。
私密密钥管理器:用于存储基础设施私密密钥。
Redis:用于 VPC 内的服务间通信。
共享文件系统:网络附加存储。
Spark 处理:(如已启用)用于处理大数据作业。
不同公有云提供商所使用的具体服务如下:
Service | AWS | Azure | GCP |
|---|---|---|---|
对象存储 | S3 | Blob Storage | Google Storage |
IAM 角色和策略 | IAM 角色 IAM 策略 | IAM 角色 IAM 策略 | IAM 角色 |
Kubernetes | EKS | AKS | GKE |
计算(虚拟机) | EC2 | 虚拟机 | 计算实例 |
私密密钥管理 | 私密密钥管理器 | 密钥保管库 | 私密密钥管理器 |
Redis | Amazon MemoryDB | Azure Cache | Google MemoryStore |
共享文件系统 | EFS | Azure Files | Google Filestore |
Spark 处理 | 无服务器 EMR | N/A | N/A |
云应用
Alteryx One 在私有数据处理环境内运行多项作业和服务。基础设施与软件的具体组合,取决于您在其中部署的 Alteryx One 应用程序。借助这些模块,您只需部署所需应用对应的云资源和软件。
每个应用都包含一个已定义的软件包,其中包括…
所需权限。
包含子网和 IP 地址段的必要网络设置。
Alteryx 托管的云资源。
Alteryx 托管的软件。
例如,如果您仅希望部署 Designer Cloud,需提前配置特定权限和子网(含 IP 范围)。完成设置后,您可登录 Alteryx One 并启动部署流程。
如果您仅希望部署 Cloud Execution for Desktop,在执行部署时需要配置另一组权限和子网,并在 Alteryx One 中勾选对应选项。
如果要将两个软件包部署到同一专用计算平面,请务必完成两组设置步骤,再为两者执行部署。
Designer Cloud 软件包
部署 Designer Cloud 软件包时,Alteryx One 会预配这些云资源。
所需服务
您可在云资源部分查看各云提供商对应的准确服务名称。
对象存储
Kubernetes
计算
私密密钥管理器
Redis
共享文件系统
(可选)Spark 处理
节点组和类型
在 Kubernetes 集群内,Alteryx 为各云提供商预配这些计算资源。随着云提供商的演进,这些节点类型和优先级可能会发生变化。目前,Alteryx 在几个因素之间取得平衡…
AMD 机型的成本低于 Intel 机型。
部分作业类型在内存优化型或计算优化型节点上运行效果最佳。但对于部分云提供商,这类节点成本更高,而通用型节点则更为经济实惠。
AWS 允许 Alteryx 指定节点类型优先级,并基于优先级按需预配。Alteryx 推荐以下顺序:内存优化型 AMD 机型优先,其次为 Intel 机型,最后为通用机型。
节点组类型 | AWS | Azure | GCP |
|---|---|---|---|
| t3a.2xlarge t3.2xlarge | Standard_D2s_v3 | n2d-standard-2 |
| r6a.2xlarge r6i.2xlarge m6a.4xlarge m6i.4xlarge | Standard_B16as_v2 | n2d-standard-16 |
| 与 | 与 | 与 |
| 与 | 与 | 与 |
| 与 | 与 | 与 |
convert、data-system、file-system 和 photon 节点组的最小规模为 1,最大规模为 30。
软件
在 Kubernetes 集群中,Designer Cloud 软件包同时使用按需作业和长期运行服务。
Kubernetes 按需作业
对于 Kubernetes 按需作业,Alteryx One 从缓存或中央存储中拉取容器映像,并将其部署到作业生命周期内的临时 Pod 中。所有可执行程序均使用 Java 或 Python。
conversion-jobs:根据工作流需要,将数据集在不同格式间进行转换。
connectivity-jobs:在运行时连接到外部数据系统。
photon-jobs:Photon 是一款内存中的数据预处理和融合运行时引擎,适用于较小的数据集。
amp-jobs:AMP 是一款 Alteryx 内存级数据预处理和融合运行时引擎,主要在 Designer Experience 中使用。
publish-jobs:将处理后的数据写入工作流中指定的输出目标。
Kubernetes 长期运行服务
Alteryx 使用 Argo CD 在 Kubernetes 集群中部署和维护长期运行服务。Argo CD 是面向 Kubernetes 的声明式 GitOps 持续交付工具。
集群中的大多数长期运行服务提供工具性功能,允许 Alteryx 监控集群健康状态、扩缩集群、在云原生私密密钥存储与 Kubernetes 私密密钥存储间导入导出私密密钥。这些服务对所有使用 Kubernetes 的软件包通用,即使指定多个需要这些服务的软件包,同一时间也只会运行一个实例。
teleport-agent:为 Alteryx SRE 建立安全连接以访问集群进行故障排查。Alteryx One 从 https://charts.releases.teleport.dev 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。
datadog-agent:从集群收集日志和指标。Alteryx One 从 https://helm.datadoghq.com 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。
keda:基于自定义指标并支持 Kafka,实现长期运行服务的自动扩缩容。Alteryx 不扫描该第三方映像。
external-secrets:在 AWS Secret Manager 或私密密钥保管库与 Kubernetes Secrets Store 之间导入/导出私密密钥。Alteryx 不扫描该第三方映像。
cluster-autoscaler:根据 Pod 需求对 EKS、AKS 或 GKE 节点进行扩缩容。Alteryx 不扫描该第三方映像。
metrics-server:为 EKS、AKS 或 GKE 提供指标 API 支持。Alteryx 不扫描该第三方映像。
kubernetes-reflector:在所有命名空间之间复制
dockerConfigJson私密密钥。Alteryx 不扫描该第三方映像。
Designer Cloud 软件包还会部署长期运行的服务,以满足特定需求。
data-service:在设计阶段通过 JDBC API 连接外部数据系统。该服务由 Alteryx 开发。Snyk 会扫描映像以查找漏洞。
注意
随着云应用不断演进,Alteryx 偶尔需要更新所需权限或网络配置。由于这些组件由您所有,Alteryx 会将所需变更告知您。您将有 60 天时间完成更新,之后 Alteryx 会推送新版本应用。若届时您尚未完成必要操作,私有环境中的数据处理可能出现性能下降或中断。
Cloud Execution for Desktop 软件包
部署 Cloud Execution for Desktop 软件包时,Alteryx One 会预配这些云资源。
所需服务
Cloud Execution for Desktop 软件包不使用 Kubernetes。该软件包会部署一台机器映像,包含执行 Designer Desktop 工作流所需的全部软件。因此,该软件包仅使用各云提供商的计算服务。各云提供商的具体服务名称见云资源部分。
计算
自动扩缩组和节点类型
Cloud Execution for Desktop 会在自动扩缩组中部署 2 台或更多虚拟机。
随着云提供商的演进,这些节点类型和优先级可能会发生变化。目前,Alteryx 在几个因素之间取得平衡…
AMD 机型的成本低于 Intel 机型。
AWS 允许 Alteryx 指定节点类型优先级,并基于优先级按需预配。Alteryx 推荐以下顺序:内存优化型 AMD 机型优先,其次为 Intel 机型,最后为通用机型。
AWS | Azure | GCP | |
|---|---|---|---|
节点类型 | m5a.4xlarge | Standard_B16as_v2 | n2d-standard-16 |
软件
在虚拟机中,Cloud Execution for Desktop 软件包会运行若干监控用工具服务,以及处理 Designer Desktop 作业的引擎工作程序。
cefd-worker:这些工作程序运行 Alteryx 内存引擎,发起数据源连接、处理数据并发布作业输出。作业采用容器化方式,在虚拟机内部的容器中运行。
consumer-service:该服务消费来自 Kafka 队列的消息,消息由控制平面中的 Alteryx One 服务提供。以下消息是运行工作流的触发器。
teleport-agent:为 Alteryx SRE 建立安全连接以访问集群进行故障排查。Alteryx One 从 https://charts.releases.teleport.dev 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。
datadog-agent:从集群收集日志和指标。Alteryx One 从 https://helm.datadoghq.com 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。
Machine Learning 软件包
部署 Machine Learning 软件包时,Alteryx One 会预配这些云资源。
所需服务
您可在云资源部分查看各云提供商对应的准确服务名称。
对象存储
Kubernetes
计算
私密密钥管理器
Redis
共享文件系统
(可选)Spark 处理
节点组和类型
在 Kubernetes 集群中,我们为各云提供商配置以下计算资源。这些节点类型和优先级会随云提供商的发展而变化。目前我们在多个因素间取得平衡:
AMD 机型比 Intel 机型成本更低
部分作业类型在内存优化型或计算优化型节点上运行效果最佳,但部分云提供商中这类节点价格更高,而通用型节点则更为经济实惠
AWS 允许指定节点类型优先级,并会按优先级按需分配。我们优先使用内存优化型 AMD 机型,其次是 Intel 机型,最后是通用机型。
节点组类型 | AWS | Azure | GCP |
|---|---|---|---|
| t3a.2xlarge t3.2xlarge | Standard_D2s_v3 | n2d-standard-2 |
| r6a.2xlarge r6i.2xlarge m6a.4xlarge m6i.4xlarge | Standard_B16as_v2 | n2d-standard-16 |
automl 节点组最小规模为 1,最大规模为 30。
软件
在 Kubernetes 集群中,Machine Learning 软件包同时使用按需作业和长期运行服务。
Kubernetes 按需作业
对于 Kubernetes 按需作业,Alteryx One 从缓存或中央存储中拉取容器映像,并将其部署到作业生命周期内的临时 Pod 中。
automl-jobs:用于模型训练与执行的作业服务。
Kubernetes 长期运行服务
Alteryx 使用 Argo CD 在 Kubernetes 集群中部署和维护长期运行服务。Argo CD 是面向 Kubernetes 的声明式 GitOps 持续交付工具。
集群中的大多数长期运行服务提供工具性功能,允许 Alteryx 监控集群健康状态、扩缩集群、在云原生私密密钥存储与 Kubernetes 私密密钥存储间导入导出私密密钥。这些服务对所有使用 Kubernetes 的软件包通用,即使指定多个需要这些服务的软件包,同一时间也只会运行一个实例。
teleport-agent:为 Alteryx SRE 建立安全连接以访问集群进行故障排查。Alteryx One 从 https://charts.releases.teleport.dev 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。
datadog-agent:从集群收集日志和指标。Alteryx One 从 https://helm.datadoghq.com 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。
keda:基于自定义指标并支持 Kafka,实现长期运行服务的自动扩缩容。Alteryx 不扫描该第三方映像。
external-secrets:在 AWS Secret Manager 或私密密钥保管库与 Kubernetes Secrets Store 之间导入/导出私密密钥。Alteryx 不扫描该第三方映像。
cluster-autoscaler:根据 Pod 需求对 EKS、AKS 或 GKE 节点进行扩缩容。Alteryx 不扫描该第三方映像。
metrics-server:为 EKS、AKS 或 GKE 提供指标 API 支持。Alteryx 不扫描该第三方映像。
kubernetes-reflector:在所有命名空间之间复制
dockerConfigJson私密密钥。Alteryx 不扫描该第三方映像。
Auto Insights 软件包
部署 Auto Insights 软件包时,Alteryx One 会预配这些云资源。
所需服务
您可在云资源部分查看各云提供商对应的准确服务名称。
对象存储
Kubernetes
计算
私密密钥管理器
Redis
共享文件系统
节点组和类型
在 Kubernetes 集群中,我们为各云提供商配置以下计算资源。这些节点类型和优先级会随云提供商的发展而变化。目前我们在多个因素间取得平衡:
AMD 机型的成本低于 Intel 机型。
部分作业类型在内存优化型或计算优化型节点上运行效果最佳,但部分云提供商中这类节点价格更高,而通用型节点则更为经济实惠。
AWS 允许指定节点类型优先级,并会按优先级按需分配。我们优先使用内存优化型 AMD 机型,其次是 Intel 机型,最后是通用机型。
节点组类型 | AWS | Azure | GCP |
|---|---|---|---|
| t3a.2xlarge t3.2xlarge | Standard_D2s_v3 | n2d-standard-2 |
| r6a.2xlarge r6i.2xlarge m6a.4xlarge m6i.4xlarge | Standard_B16as_v2 | n2d-standard-16 |
common-job 节点组最小规模为 1,最大规模为 30。
软件
在 Kubernetes 集群中,Auto Insights 软件包同时使用按需作业和长期运行服务。
Kubernetes 按需作业
对于 Kubernetes 按需作业,Alteryx One 从缓存或中央存储中拉取容器映像,并将其部署到作业生命周期内的临时 Pod 中。
Auto Insights 作业由 Airflow 编排。
data-uploader:用于将数据集从 VFS 摄取到 ClickHouse 的作业服务。
Kubernetes 长期运行服务
Alteryx 使用 Argo CD 在 Kubernetes 集群中部署和维护长期运行服务。Argo CD 是面向 Kubernetes 的声明式 GitOps 持续交付工具。
集群中的大多数长期运行服务提供工具性功能,允许 Alteryx 监控集群健康状态、扩缩集群、在云原生私密密钥存储与 Kubernetes 私密密钥存储间导入导出私密密钥。这些服务对所有使用 Kubernetes 的软件包通用,即使指定多个需要这些服务的软件包,同一时间也只会运行一个实例。
teleport-agent:为 Alteryx SRE 建立安全连接以访问集群进行故障排查。Alteryx One 从 https://charts.releases.teleport.dev 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。
datadog-agent:从集群收集日志和指标。Alteryx One 从 https://helm.datadoghq.com 仓库拉取 Helm 图表。Alteryx 不扫描该第三方映像。
keda:基于自定义指标并支持 Kafka,实现长期运行服务的自动扩缩容。Alteryx 不扫描该第三方映像。
external-secrets:在 AWS Secret Manager 或私密密钥保管库与 Kubernetes Secrets Store 之间导入/导出私密密钥。Alteryx 不扫描该第三方映像。
cluster-autoscaler:根据 Pod 需求对 EKS、AKS 或 GKE 节点进行扩缩容。Alteryx 不扫描该第三方映像。
metrics-server:为 EKS、AKS 或 GKE 提供指标 API 支持。Alteryx 不扫描该第三方映像。
kubernetes-reflector:在所有命名空间之间复制
dockerConfigJson私密密钥。Alteryx 不扫描该第三方映像。
Auto Insights 软件包还会部署长期运行的服务,以满足特定需求。
clickhouse:用于存储 Auto Insights 数据集的开源列式数据库管理系统。Helm 图表由 Alteryx 开发,使用来自 https://hub.docker.com/r/clickhouse/clickhouse-server 的第三方映像。Alteryx 不扫描该第三方映像。
altinity-clickhouse-operator:用于管理 ClickHouse 部署的开源 Kubernetes Operator。Helm 图表由 Alteryx 开发,基于 https://github.com/Altinity/clickhouse-operator/blob/master/deploy/operator/clickhouse-operator-install-bundle.yaml 的 Kubernetes 资源。它使用来自 https://hub.docker.com/r/altinity/clickhouse-operator 的第三方映像。Alteryx 不扫描该第三方映像。
airflow:用于为 Auto Insights 编排按需作业的开源工作流管理服务,例如将数据集摄取到 ClickHouse。Alteryx One 从 https://github.com/apache/airflow/tree/main/chart 拉取 Helm 图表。为安装额外软件包,Alteryx 管理并扫描来自 https://hub.docker.com/r/apache/airflow 的第三方映像分支。
query-engine:用于将 Auto Insights 数据集摄取到私有数据平面,并从控制平面对这些数据集执行查询的应用程序。
业务连续性
私有数据处理环境仅在至少拥有 3 个可用区的区域中提供。这使私有数据处理环境可在 2 个可用区运行,并故障切换到第三个。
私有对象存储的备份由您自行负责。
根据作业类型,数据处理作业运行在 Kubernetes 集群的临时 Pod 中,或虚拟机的容器内。如果故障影响正在运行的作业,该作业很可能会失败,需要重新运行。
支持的区域
为在特定区域运行私有数据处理环境,Alteryx One 存在以下要求…
以下是各云提供商的可用区域:
云全局区域 | 地区 | AWS | Azure | GCP |
|---|---|---|---|---|
非洲 | 南非约翰内斯堡 | southafricanorth | ||
亚太地区 | 印度德里 | asia-south2 | ||
中国香港 | ap-east-1 | eastasia | asia-east2 | |
印度尼西亚 | asia-southeast2 | |||
印度孟买 | ap-south-1 | asia-south1 | ||
印度浦那 | centralindia | |||
日本大阪 | asia-northeast2 | |||
韩国首尔 | ap-northeast-2 | koreacentral | asia-northeast3 | |
新加坡 | ap-southeast-1 | southeastasia | asia-southeast1 | |
澳大利亚悉尼 | ap-southeast-2 | australiaeast | australia-southeast1 | |
台湾 | asia-east1 | |||
日本东京 | ap-northeast-1 | japaneast | asia-northeast1 | |
欧洲 | 比利时 | europe-west1 | ||
德国柏林 | europe-west10 | |||
芬兰 | europe-north1 | |||
德国法兰克福 | eu-central-1 | germanywestcentral | europe-west3 | |
瑞典耶夫勒 | swedencentral | |||
爱尔兰 | eu-west-1 | northeurope | ||
英国伦敦 | eu-west-2 | uksouth | europe-west2 | |
西班牙马德里 | europe-southwest1 | |||
意大利米兰 | europe-west8 | |||
荷兰 | westeurope | europe-west4 | ||
挪威奥斯陆 | norwayeast | |||
法国巴黎 | eu-west-3 | francecentral | europe-west9 | |
瑞典斯德哥尔摩 | eu-north-1 | |||
意大利都灵 | europe-west12 | |||
波兰华沙 | polandcentral | europe-central2 | ||
瑞士苏黎世 | switzerlandnorth | |||
中东 | 卡塔尔 | qatarcentral | ||
阿联酋 | uaenorth | |||
北美洲 | 亚利桑那州 | westus3 | ||
加利福利亚州 | us-west2 | |||
爱荷华州 | centralus | us-central1 | ||
加拿大蒙特利尔 | ca-central-1 | northamerica-northeast1 | ||
加拿大多伦多 | canadacentral | |||
内华达 | us-west4 | |||
北弗吉尼亚州 | us-east-1 | |||
俄亥俄州 | us-east-2 | us-east5 | ||
俄勒冈州 | us-west-2 | us-west1 | ||
南卡罗来纳州 | us-east1 | |||
德克萨斯州 | southcentralus | |||
犹他州 | us-west3 | |||
弗吉尼亚州 | eastus | us-east4 | ||
eastus2 | ||||
华盛顿 | westus2 | |||
南美地区 | 巴西圣保罗 | sa-east-1 | brazilsouth | southamerica-east1 |