Skip to main content

导入数据页面

注意

对于基于文件的数据源,Alteryx One Platform 要求导入文件中的每一行数据都以统一的换行符结尾,包括文件最后一行。

  • 对于缺少末尾换行符的单个文件,最后一条记录可能会被丢弃。

  • 对于多文件导入,如果某个文件的最后一条记录缺少换行符,该记录可能会与下一个文件的第一条记录合并,并在 Trifacta Photon 运行环境中被丢弃。

一般限制

注意

导入的数据集需要约 15 行数据,才能正确推断列数据类型(非关系型数据源),以及用作列标题的行(如有)。

文件和路径限制:

  • 冒号 (:) 不能出现在文件名或文件路径中。

  • 文件名不能以点 (.) 或下划线 (_) 等特殊字符开头。

  • 输入文件或表路径的最大长度为 1024 个字符。

基本任务

1.连接到数据源

在导入过程中,Alteryx One 会根据文件名的扩展名识别文件格式。

  • 压缩文件可被识别,并可根据扩展名导入。

  • 无扩展名的文件将被视为 TXT 文件。

上传Alteryx One 也可从本地文件系统加载文件。

提示

您可以将文件从桌面拖放以上传。

注意

可上传最大 1 GB 的文件。

注意

上传之前已上传文件的更新版本时,新文件会作为独立上传项存储。如果使用了基于旧版本导入的数据集,请务必替换为新数据集。

Trifacta:如果您已为工作区启用 Alteryx Data Storage (ADS),可访问上传到 ADS 中的文件。这些文件可用作创建导入数据集的源。

注意

如未启用,则可启用 ADS。如需了解详情,请参阅配置存储环境

请参阅 ADS 浏览器

S3:如果连接到 S3 实例,可浏览 S3 存储桶以选择源文件。

提示

对于 S3,您可以选择文件夹,这样目录内的每个文件会作为单独数据集。

请参阅外部 S3 连接

Redshift:如果连接到 S3 数据仓库,可从连接的数据库导入源数据。请参阅 Amazon Redshift 连接

数据库:如果连接到关系型数据存储,可从数据库加载表或视图。请参阅数据库浏览器

注意

对于加载耗时较长的关系型数据源,可监控摄取各阶段进度。这些数据源被摄取后,后续导入和整理数据的步骤会更快。

如需了解详情,请参阅 作业监测概述

如需了解支持的输入格式,请参阅支持的文件格式

新建/编辑:单击以创建或编辑连接。默认情况下,显示的连接支持导入。

搜索:输入搜索词以查找特定连接。

请参阅创建连接窗口

2.添加数据集

找到源目录或文件后:

  • 您可将鼠标悬停在文件名上预览内容。

    注意

    部分数据源(如 Parquet)可能不支持预览。

  • 单击目录或文件名旁的“加号”图标,将其添加为数据集。

    提示

    您可同时导入多个数据集。见下文。

  • Excel 文件:单击工作簿旁的“加号”图标,可将所有工作表作为一个数据集添加;也可将单个工作表作为独立数据集添加。

  • 如果启用了自定义 SQL 查询,选择使用 SQL 创建数据集,输入自定义 SQL 语句,在数据库内预筛选表,只保留需要的行和列。

    如需了解详情,请参阅使用 SQL 创建数据集

如果启用了参数化,您可将参数应用于数据集的源路径,以捕获更广泛的数据源。选择使用参数创建数据集。前往使用参数创建数据集页面。要显示隐藏文件或文件夹,请选择显示隐藏项

注意

隐藏文件夹名称以点 (.) 或下划线 (_) 开头。通常,这些文件夹被隐藏是有原因的。文件结构可能随时变更,不再另行通知。

3.配置所选内容

选择数据集后,屏幕右侧会显示以下字段。根据需要修改:

  • 数据集名称:该名称会显示在界面中。

  • 数据集描述:可添加可选描述,提供数据集的额外详情。该信息会在界面的部分区域显示。

提示

导入前,单击“眼睛”图标可检查数据集内容。

提示

您可选择单个或多个数据集进行导入。

4.导入所选内容

从多个文件导入带参数的数据集时,右侧面板仅显示第一个匹配的文件。

在面板中,您可查看每个数据集的预览,并按需修改。