导入数据页面
注意
对于基于文件的数据源,Alteryx One Platform 要求导入文件中的每一行数据都以统一的换行符结尾,包括文件最后一行。
对于缺少末尾换行符的单个文件,最后一条记录可能会被丢弃。
对于多文件导入,如果某个文件的最后一条记录缺少换行符,该记录可能会与下一个文件的第一条记录合并,并在 Trifacta Photon 运行环境中被丢弃。
一般限制
注意
导入的数据集需要约 15 行数据,才能正确推断列数据类型(非关系型数据源),以及用作列标题的行(如有)。
文件和路径限制:
冒号 (
:) 不能出现在文件名或文件路径中。文件名不能以点 (
.) 或下划线 (_) 等特殊字符开头。输入文件或表路径的最大长度为 1024 个字符。
基本任务
1.连接到数据源
在导入过程中,Alteryx One 会根据文件名的扩展名识别文件格式。
压缩文件可被识别,并可根据扩展名导入。
无扩展名的文件将被视为 TXT 文件。
上传:Alteryx One 也可从本地文件系统加载文件。
提示
您可以将文件从桌面拖放以上传。
注意
可上传最大 1 GB 的文件。
注意
上传之前已上传文件的更新版本时,新文件会作为独立上传项存储。如果使用了基于旧版本导入的数据集,请务必替换为新数据集。
Trifacta:如果您已为工作区启用 Alteryx Data Storage (ADS),可访问上传到 ADS 中的文件。这些文件可用作创建导入数据集的源。
注意
如未启用,则可启用 ADS。如需了解详情,请参阅配置存储环境。
请参阅 ADS 浏览器。
S3:如果连接到 S3 实例,可浏览 S3 存储桶以选择源文件。
提示
对于 S3,您可以选择文件夹,这样目录内的每个文件会作为单独数据集。
请参阅外部 S3 连接。
Redshift:如果连接到 S3 数据仓库,可从连接的数据库导入源数据。请参阅 Amazon Redshift 连接。
数据库:如果连接到关系型数据存储,可从数据库加载表或视图。请参阅数据库浏览器。
如需了解支持的输入格式,请参阅支持的文件格式。
新建/编辑:单击以创建或编辑连接。默认情况下,显示的连接支持导入。
搜索:输入搜索词以查找特定连接。
请参阅创建连接窗口。
2.添加数据集
找到源目录或文件后:
您可将鼠标悬停在文件名上预览内容。
注意
部分数据源(如 Parquet)可能不支持预览。
单击目录或文件名旁的“加号”图标,将其添加为数据集。
提示
您可同时导入多个数据集。见下文。
Excel 文件:单击工作簿旁的“加号”图标,可将所有工作表作为一个数据集添加;也可将单个工作表作为独立数据集添加。
如果启用了自定义 SQL 查询,选择使用 SQL 创建数据集,输入自定义 SQL 语句,在数据库内预筛选表,只保留需要的行和列。
如需了解详情,请参阅使用 SQL 创建数据集。
如果启用了参数化,您可将参数应用于数据集的源路径,以捕获更广泛的数据源。选择使用参数创建数据集。前往使用参数创建数据集页面。要显示隐藏文件或文件夹,请选择显示隐藏项。
注意
隐藏文件夹名称以点 (.) 或下划线 (_) 开头。通常,这些文件夹被隐藏是有原因的。文件结构可能随时变更,不再另行通知。
3.配置所选内容
选择数据集后,屏幕右侧会显示以下字段。根据需要修改:
数据集名称:该名称会显示在界面中。
数据集描述:可添加可选描述,提供数据集的额外详情。该信息会在界面的部分区域显示。
提示
导入前,单击“眼睛”图标可检查数据集内容。
提示
您可选择单个或多个数据集进行导入。
4.导入所选内容
从多个文件导入带参数的数据集时,右侧面板仅显示第一个匹配的文件。
在面板中,您可查看每个数据集的预览,并按需修改。