输入数据工具
单个工具示例
“输入数据”有一个“单个工具示例”。转至 示例工作流 以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
利用输入数据工具连接到文件或数据库以将数据添加到工作流。
注意
在 Hadoop 分布式文件系统 中使用通配符读取多个 CSV 文件会引发错误。
配置工具
“输入数据”的 配置窗口 有 2 个部分: 连接文件或数据库 和 选项 。
连接文件或数据库
以下步骤介绍在禁用数据连接管理器 (DCM) 情况下的流程。启用后, 连接文件或数据库 下拉菜单将替换为 设置连接 按钮,此按钮可以打开 数据连接 窗口,其中仅显示 DCM 支持的数据源,而如果选择”技术“将会打开 DCM。
将输入数据工具拖放到画布后,按照以下步骤操作:
在 配置 窗口中,选择 连接文件或数据库 下拉菜单。
Designer 将显示 数据连接 窗口。使用以下方式之一配置您的数据连接: 最近 、 已保存 、 文件 、 数据源 或 Server 。
最近连接 部分包含最近配置的文件和数据连接。您可以选择最近的连接,也可以选择 清空列表 以删除最近的连接。
要连接至本地或网络目录中的文件,有 4 个选项可供选择:
在 文件连接 中,选择 选择文件 以浏览至文件。
将文件拖到 文件连接 。
在 所有支持的文件类型 中,选择一个文件类型扩展名以浏览至该类型的文件。
关闭 数据连接 并将文件直接拖动到画布上。
数据源
数据源显示支持的且经常使用的数据源。
工具:如果您为一个尚未安装的工具选择快速连接,系统将会在浏览器中为您打开 Alteryx 社区页面,以便您下载并安装该工具。请仔细阅读页面上的说明。安装工具后,画布上的输入数据工具将变成您在“数据源”选项卡中所选的工具。
数据源:
Server
Server 显示已在本地计算机上添加的各 Alteryx Server UI 及其 URL。每个 Server 名称下方的列表都包含已保存的连接(存储在您可以访问的 Server 上)。
选择 + Server 以添加其他 Alteryx Server 连接。
在文件浏览窗口中,在输入的文件路径中使用通配符。
如果您拥有多个数据文件,并且
文件拥有相同的字段数量,各字段的数据类型也相同
同一目录中存在类似名称。
注意
在单个“输入数据”工具中使用通配符格式(例如 *.csv 或 2019*.csv)可以读取多个文件,前提是文件包含数量相同且每个字段的数据类型都相同的字段。Designer 根据读取的第一个文件设置字段数量和文件类型。Designer 将跳过后续任何不匹配的文件,且显示一条警告。使用 *.csv 等通配符语法时,无法控制首先读取哪个文件。将哪个文件指定为第一个文件是由系统决定的。
输入多个文件的文件名中共有的部分,并用一个 *(星号)来取代所有后续字符,或输入一个 ? 来取代 1 个字符。在指定文件名时,要包括所有文件共有的文件扩展名。
示例 1
以下路径将引入
data\datafiles
目录中的所有文件名以
ABCD
开头的 .csv 文件。
data\datafiles\ABCD*.csv
这会引入
ABCD_4.csv
和
ABCD_012.csv
。
示例 2
以下路径引入
data\datafiles
目录中包含的所有文件名以
ABCD_
开头且具有 1 个额外字符的 .csv 文件。
data\datafiles\ABCD_?.csv
在 选择 Excel 输入 中,选择以下 1 个 Excel 输入:
选择表格 以从 Excel 文件形式的工作表中选择。
选择一个范围(单元格、行或列) :或者选择工作表中单元格、行或列的范围。
选择命名范围 以从 Excel 文件形式的命名范围中选择。
仅导入工作表名称列表 以创建包含工作表名称作为列值的单列输出。选择此选项时,不会输出任何相关数据。
如果选择的 Excel 工作表处于打开状态,则会显示一条错误消息且您将无法继续。关闭工作表,选择 选择 Excel 输入 对话框中的 刷新 按钮,然后完成输入过程。
“输入数据”工具会跳过 未 定义的列。已定义的列是指包含数据或之前包含数据但被用户清空的列。要包括未定义的列,请通过 选择 Excel 输入 对话框中的 选择范围(单元格、行或列) 选项指定范围。
.cydb | |
.yxdb | |
Alteryx Spatial Zip | .sz |
.avro | |
逗号分隔值 | .csv |
dBase | .dbf |
ESRI Personal GeoDatabase | .mdb |
ESRI Shapefile | .shp |
XML(可扩展标记语言) | .xml |
.flat | |
GIS | .grc, .grd |
Google Earth/Google Maps | .kml |
.gz, .tgz | |
IBM SPSS | .sav |
.json | |
MapInfo Professional 数据交换格式 | .mif |
MapInfo Professional Table | .tab |
Microsoft Access 2000-2003 | .mdb |
Microsoft Access 2007, 2010, 2013, 2016 | .accdb |
Microsoft Excel 二进制文档 | .xlsb |
Microsoft Excel 1997-2003 | .xls |
.xlsx | |
Microsoft Excel Macro-Enabled | .xlsm |
QlikView | .qvx |
SAS | .sas7bdat |
SQLite | .sqlite |
SRC Geography | .geo |
文本 | .txt, .asc |
.zip |
选项
选择文件格式选项。选项因连接的文件或数据库而异。如需了解详情,请参阅 文件格式选项 。
预览数据布局
在 预览 窗口中预览数据布局。数据布局预览限制为 100 条记录,在加宽文件中则少于 100 条记录。如果数据包含 1500 列,则至少显示 1 条记录且最多显示 2 行。要查看所有数据,请使用 浏览工具 。
重复的列名
如果您的输入文件包含多个同名列,Designer 将根据以下规则自动重命名列名重复的列:
重复名以 1 或 9 结尾
如果重复列名中的最后一个字符为 1 或 9,Designer 会在重复列名后附加一个下划线 (_) 和一个以 2 开头的数字。
原始列名 | 重复列名(Designer 重命名为) |
---|---|
A1 | A1_2 |
A9 | A9_2 |
重复列名以 2-8(包括 2 到 8)之间的数字结尾
如果重复列名中的最后一个字符是介于 2 和 8 之间的数字(包括 2 和 8),Designer 将递增该数字以重命名重复的列名。
但是,如果倒数第二个字符也是数字,Designer 会为重复的列名附加一个下划线 (_) 和一个以 2 开头的数字。
原始列名 | 重复列名(Designer 重命名为) |
---|---|
A2 | A3 |
A5 | A6 |
A22 | A22_2 |
重复名以字母或特殊字符结尾
如果重复列名称中的最后一个字符是字母或特殊字符,Designer 将添加一个数字(以 2 开头)以重命名重复的列名称。
原始列名 | 重复列名(Designer 重命名为) |
---|---|
age | age2 |
registered? | registered?2 |
注意
Visual Query Builder 无法正确显示多字节字符。将会使用表格制表符。
将输出数据工具转换为输入数据工具
您可以将 输出数据工具 转换为输入数据工具。
右键单击要转换为 输入数据 工具的 “输出数据”工具 。
选择 转换为输入数据 。
输出数据将变为输入数据。