浏览工具
单个工具示例
“浏览”工具有一个单个工具示例。转至 示例工作流 以了解如何在 Alteryx Designer 中访问此示例和其他更多示例。
使用“浏览"工具查看连接工具的数据。用户通过整体视图可一次查看多列的 数据概要分析 信息,也可以查看单个列的数据分析。信息包括数据类型、记录计数、数据质量和各种统计数据。
当连接到空间、报告或行为分析数据类型时,在浏览工具中可看到另一个选项卡。此选项卡预览“地图”或“报告”中的实际对象。
工具组件
浏览工具有一个锚点:
输入锚点:使用输入锚点连接到要通过浏览工具显示的数据。
配置工具
将浏览工具添加至工作流中。具体操作有 3 种方式:
将浏览工具拖动到画布并将其连接到一个上游工具。
右键单击画布上的工具,然后选择 后添加浏览工具 。
选中工作流的工具,然后按下 Shift+Ctrl+B 键盘快捷键。
如需详细了解某工具的数据,将 浏览 工具连接至该工具的输出锚点。
禁用工作流中的浏览工具
如果没有使用浏览工具, 结果窗口 默认情况下最多显示一个工具 1 MB 的数据。如果不想将整个数据集存储在内存中,可以禁用浏览工具。为了禁用浏览工具:
点击画布上的任意位置以显示 工作流-配置 窗口。
在配置窗口中,选择 运行时 。
选中 禁用所有浏览工具 即可禁用工作流中的浏览工具。要启用浏览工具,取消选中 禁用所有浏览工具 。
禁用数据概要分析
默认情况下,数据概要分析已启用。要禁用数据分析功能,请转到 选项 > 用户设置 > 编辑用户设置 ,然后取消选择 收集和显示数据概要分析信息 。
查看数据概要分析
运行工作流后,选择画布上的浏览工具,在工具的 配置 窗口查看数据概要分析。你也可以通过 结果窗口 查看数据。
整体视图
默认情况下,浏览工具 配置 窗口 数据概要分析 选项卡的整体视图显示了数据的各个列(字段)。整体视图包含每列数据信息各自的容器,其中包含列名、数据质量条和列中高频值列表(如适用)。列名左侧的图标指示列的数据类型。
选择整体视图切换键(柱状图图标)以在高频值列表和数据分析图表之间切换。
高频值列表视图
默认情况下,整体视图显示每个兼容列的高频值以及用颜色编码的数据质量条。前 5 个高频值及其计数显示在每列容器中。
选择 更多 链接最多可查看所选列中频数排名前 1,000 的值。
在 唯一值 视图,选择左箭头图标以查看所选列的数据概要分析信息。
如果列的数据类型与数据分析不兼容,则出现 无可用数据概要分析 的消息。
数据分析图表视图
选择整体视图切换键以在高频率值列表和数据分析图表之间切换。此视图显示每个兼容列频数排前 50 的值以及用颜色编码的数据质量条。
除图表外,还有更多信息,具体取决于数据类型:
对于数值数据列,图表上方还显示数据范围。
对于字符串数据列,除了显示频数排前 50 的值之外还显示该列中唯一值的总数。
对于日期、时间和日期时间数据列,图表上方还显示数据范围。
无可用的数据概要分析
如果列的数据类型与数据分析不兼容,则出现 无可用数据概要分析 的消息。
仅一个值(数据分析图表)
如果列的所有行只包含一个唯一值,则出现 仅一个值 的消息。
所有值都是唯一的(数据分析图表)
如果列中每个值都是唯一的,则出现 所有值均为唯一值 的消息。
整体视图筛选
选择筛选(漏斗形)图标以访问数据概要分析整体视图的筛选选项。筛选仅适用于整体视图。如果你要筛选数据集以进行下游处理,请使用 筛选工具 。
用户可根据两个类别进行筛选:
字段 :数据集中的所有字段(列)默认选中。取消选中字段可将它们从整体视图中删除。
数据类型 :所有数据类型默认选中。取消选中数据类型可从整体视图中删除具有这些数据类型的字段。请注意,即使您的数据集不包含某些数据类型,此处也会列出所有可能的数据类型。
对以上类别进行的筛选由 AND 语句连接。例如,如果你通过 字段 选中了一个日期数据类型的字段,但在 数据类型 又取消选中了所有数据类型,整体视图则不会显示任何数据。
选择 重置筛选 链接可将整体视图重置为原始状态。用户也可以取消选择或单击工作流画布上的浏览工具以重置筛选器。
单列视图
选择一个列名,在 配置 窗口查看该列的数据概要分析。要返回整体视图,请在单列视图中选择列名称旁边的 “x” 按钮。
列的数据类型决定单列视图在 配置 窗口提供的信息。
在整体视图中选择字符串、数值、布尔值或日期时间数据类型时,单列视图的 数据概要分析 选项卡显示摘要信息、统计信息以及所选列的图表。用户也可以在 结果 选择列以查看该些列的数据概要信息。
摘要
如适用,数据概要分析 摘要 部分显示 数据类型 、 记录计数 和 数据类型大小 以及数据质量信息:
Ok :列中不存在质量问题的值数量和百分比,如不具有前导或尾随空格。
唯一 :列中唯一值的数量和百分比。使用 唯一值工具 查看唯一和重复条目的完整计数。
Null :列中 Null 值的数量和百分比,不包括空白值。
不 Ok :列中包含质量问题(如包含前导或尾随空格或嵌入换行符)的值的数量和百分比。
空白 :如果是字符串数据类型,则是列中不存在值的字符串值的数量和百分比。将字符串转换为其它数据类型时,空白会转换为 null。
字符长度和值统计
所选列的 统计数据 显示在配置窗口 摘要 的下方。所选列中的数据类型决定可用的统计数据。有关 数据类型 的列表,请参考数据类型。
字符长度和值统计数据还包括所选列的图表。显示的图表类型取决于数据类型:
Blob:显示 null 计数和非 null 计数的条形图。
布尔值:显示 true、false 和 null 计数及百分比的饼图。
数值:显示数值字段分组值计数和百分比的分布图。
日期、时间、日期时间:显示日期、时间或日期时间字段值计数的分布图。
频数分布图
字符串数据类型显示一个 频数分布图 图,可直观地展示数据列中最常出现的字符串值。此图表最多可显示 50 个值。
如果该列的所有行仅包含一个值,则显示 仅一个值 的消息。
如果该列每行的值都是唯一的,则显示 所有值均是唯一值 的消息。
高频值列表
字符串、数值和日期时间数据类型具有一个 高频值列表 ,用来反映列中数据计数最高的值。选择 更多> 链接最多可查看所选列中频数排名前 1000 的值。选择左箭头按钮以返回到列的数据概要分析。
日期时间的分组值计数
日期、时间和日期时间数据类型以直方图显示 分组值计数 。此图表是根据以下规则配置的:
如果所有值都位于 24 小时范围内,图表则以时为基轴。
如果所有值都位于 7 天范围内,图表则以日为基轴。
如果所有值都位于 12 周范围内,图表则以周为基轴。
如果所有值都位于 12 个月范围内,图表则以月为基轴。
如果所有值都位于 12 个季度范围内,图表则以季度为基轴。
否则,图表将以年为基轴。
当浏览工具连接到具有报告元素的工具时, 配置 窗口将显示两个选项卡: 报告 和 数据概要分析 。
报告
报告 选项卡将如同报告一样显示报告元素。报告元素由 报告 类别中的工具创建。如需了解详情,请访问 “报告”工具 。
报告视图选项包括:
字段 :选择“字段”下拉列表可查看在视图中显示的报告字段列表。选择“x”图标可取消选择所有报告字段,而选择选中标记图标可选择所有报告字段。
导航:使用导航箭头查看特定记录。默认情况下, 配置 窗口一次显示 10 条记录。
数据概要分析
配置窗口 的 数据概要分析 选项卡显示最精简的信息,其中包括显示的记录数、字段数和数据大小。数据概要分析可用于报告中包含的字段,但不适用于报告本身。
当浏览工具连接到具有空间数据的工具时, 配置 窗口中有两个选项卡: 地图 和 数据概要分析 。
地图
配置 窗口中的 地图 选项卡将显示使用墨卡托投影绘制的数据图。
地图视图选项包括:
字段 :选择“字段”下拉列表可查看视图中空间对象字段的列表。选择“x”图标可取消选择所有空间对象字段,而选择选中标记图标可选择所有空间对象字段。
平移 :通过将地图拖动到所需位置,平行移动地图。每次使用平移时,地图都会显示新的地图图像。
选择 :选择地图上的对象。选中地图对象时,相应的数据记录也会被选中,在“表格”和“报告”视图中表示为已选中。支持的选择方法有多种:
单击:选择单个对象。
Ctrl+单击:添加或去掉所选对象。
拖动:在对象周围拖动选择框以一次选择多个对象。
放大 :减小地图区域,生成更本地化的地图图像。
缩小 :增加地图区域,生成更广泛的地图图像。
缩放到所选对象 :缩放到指定的点或区域。
重置视图 :将地图视图重置为原始区域。
基础地图:查看并选择地图图像的参考图层。只有在计算机上安装了地图文件和图层集,它们才会显示在下拉列表中。有关详细信息,请访问 数据集默认值 。
复制:单击以将地图图像复制到剪贴板,再将其粘贴到其它应用程序中。
导出:将地图图像保存为受支持的图像文件格式:.jpeg、.png、.bmp。
数据概要分析
配置窗口 的 数据概要分析 选项卡显示最精简的信息,其中包括显示的记录数、字段数和数据大小。数据概要分析不适用于空间数据。
当浏览工具连接到具有行为分析配置文件数据的工具时, 配置 窗口中 的行为分析 选项卡在一个表格中逐行显示所选配置文件字段的 XML 内容。
行为分析视图选项包括:
配置文件 :列出数据中的配置文件字段。一次只能查看一个配置文件字段。
导航:选择导航箭头以查看特定记录。默认情况下,“配置”窗口一次显示 1 条记录,因为单个记录包含所选配置文件中 60 个群集的所有数据。
数据集:显示从配置文件中提取的数据。
类型 | 描述 |
人口统计 | 配置文件的分类级别(通常是家庭或成人)。 |
主要 | 如果选中,则指示配置文件的主要人口统计特征(通常是家庭、人口或成人)。 |
群集编号 | 识别群集。 |
计数 | 识别满足配置文件条件的人口统计数据。 |
基本 | 识别特定群集的人口统计 (household(户)或adult(成年人))。 |
avgVolume | 识别每个群集的平均值(计算方法:计数/基数)。如果未为群集提供数据,则值为 null。 |
数据网格:显示群集数据。使用“行为详情字段”工具将此选项卡中的可用数据添加到工作流。查看 行为详情字段工具 。
数据概要分析不适用于行为分析数据类型。
配置视图
查看单个数据列时, 配置 窗口中提供了以下选项:
根据用户正在查看的数据类型,最多的情况下可能显示四个选项卡: 数据概要分析 、 地图 、 报告 和 行为分析 。最多可同时查看两个选项卡。
使用视图图标在视图之间切换。
单视图图标:在单个窗口中查看所有选项卡。
左/右视图图标:通过左右窗口查看所有选项卡。在每个窗口中选择不同的选项卡以比较数据。
上、下视图图表:通过上下窗口查看所有选项卡。在每个窗口中选择不同的选项卡以比较数据。
显示 结果 窗口中选中的记录数。选择“x”图标以清除所选内容。
默认情况下,工具名称将由工具 类型 和工具 ID 组成。按照以下步骤重命名浏览工具:
选择浏览工具,然后在工具中 配置 窗口选择 注释 。
在 名称 框中,输入窗口的名称。
选择“新窗口”图标以在新未停驻的窗口中打开数据。用户可以选择 所有记录 或 已选记录 。如果在 结果 窗口中未选择任何记录,则“已选记录”将处于不可使用状态。
窗口中的数据不会发生改变。这方便用户在修改并运行工作流后对比视图和评估数据。默认情况下,窗口名称是浏览工具的工具 名称 和工具 ID 。
统计数据
所选列的统计数据显示在浏览工具 配置 窗口 数据概要分析 选项卡。所选列中的数据类型决定可用的统计数据。有关数据类型的列表,请参考 数据类型 。
如果所选列包含字符串值,则提供以下统计数据:
类型 | 描述 |
类型 | 所选列的数据类型。 |
记录计数 | 所选列的行数。 |
数据类型大小 | 为该列的每个记录保留的内存量。 |
Ok | 列中不存在质量问题的值的数量和百分比,如不具有前导或尾随空格。 |
唯一值 | 列中唯一值的数量和百分比。使用“唯一“工具查看唯一和重复条目的完整计数。查看 唯一工具 。 |
Null | 列中 Null 值的数量和百分比,不包括空白值。 |
不合格 | 列中包含质量问题(如包含前导或尾随空格或嵌入换行符)的值的数量和百分比。 |
空白 | 列中包含不存在值的字符串值的数量和百分比。 |
Min | 列中最短值的字符数。 |
Max | 列中最长值的字符数。 |
Average | 列中值的平均长度。 |
最短值 | 列中最短的值。 |
最长值 | 列中最长的值。 |
首个字母数字值 | 列中按字母顺序排序第一的字符串记录。 |
最后一个字母数字值 | 列中按字母顺序排序最后的字符串记录。 |
空白 | 空白值的数量。 |
开头存在空格的值 | |
末尾存在空格的值 | 值末尾具有空格的字符串的数量。 |
如果所选列包含数值,则提供以下统计数据(四舍五入到小数点后四位):
类型 | 描述 |
类型 | 所选列的数据类型。 |
记录计数 | 所选列的行数。 |
数据类型大小 | 为该列的每个记录保留的内存量。 |
Ok | 列中不存在质量问题的值的数量和百分比,如不具有前导或尾随空格。 |
唯一值 | 列中唯一值的数量和百分比。使用“唯一“工具查看唯一和重复条目的完整计数。查看 唯一工具 。 |
Null | 列中 Null 值的数量和百分比,不包括空白值。 |
不合格 | 列中包含质量问题(如包含前导或尾随空格或嵌入换行符)的值的数量和百分比。 |
空白 | 列中包含不存在值的字符串值的数量和百分比。 |
Max | 列中的最大值。 |
Min | 列中的最小值。 |
下四分位数 | 数据下半部分(Q1)的中位数。 |
上四分位数 | 数据上半部分(Q3)的中位数。 |
Average | 列中值的平均值。 |
标准偏差 | 衡量值在列中的离散程度。 |
总和 | 列中值的总和。 |
Median | 列中数据的中值。 |
方差 | 衡量随机一组随机数字偏离算术平均值的程度。 |
如果所选列包含日期、时间和日期时间值,则提供以下统计数据:
类型 | 描述 |
类型 | 所选列的数据类型。 |
记录计数 | 所选列的行数。 |
数据类型大小 | 为该列的每个记录保留的内存量。 |
Ok | 列中不存在质量问题的值的数量和百分比,如不具有前导或尾随空格。 |
唯一值 | 列中唯一值的数量和百分比。使用“唯一“工具查看唯一和重复条目的完整计数。查看 唯一工具 。 |
Null | 列中 Null 值的数量和百分比,不包括空白值。 |
不合格 | 列中包含质量问题(如包含前导或尾随空格或嵌入换行符)的值的数量和百分比。 |
空白 | 列中包含不存在值的字符串值的数量和百分比。 |
Max | 列中最新的日期值。 |
Min | 列中最早的日期值。 |
如果所选列包含布尔值,则提供以下统计数据:
类型 | 描述 |
类型 | 所选列的数据类型。 |
记录计数 | 所选列的行数。 |
数据类型大小 | 为该列的每个记录保留的内存量。 |
Ok | 列中不存在质量问题的值的数量和百分比,如不具有前导或尾随空格。 |
Null | 列中 Null 值的数量和百分比,不包括空白值。 |
不合格 | 列中包含质量问题(如包含前导或尾随空格或嵌入换行符)的值的数量和百分比。 |
空白 | 列中包含不存在值的字符串值的数量和百分比。 |
“数据概要分析”工具提供类似的元数据,但不带图表。使用“数据概要分析”工具输出数据概要分析信息以进行进一步分析。
数据概要分析局限
浏览工具的数据分析功能最多只能处理 300 MB 的数据。这能提高大数据集的处理速度。我们处理传入数据集中的每个记录,并将记录大小添加到计数器中。当计数器达到 300 MB 时,我们将停止处理记录。
请注意,我们不能指定处理记录的数量。由于记录大小从 1 个字节到几千字节不等,记录数量的限制会因数据集的不同而异。显示在 结果 网格和数据概要分析整体视图中的记录大小与文件大小不同。由于文件经过压缩以优化间距,文件大小通常发生变化。
换句话说,300 MB 的记录大小不等同于 300 MB 的文件大小。
将浏览工具转换为输出数据工具
将浏览工具转换为宏输出工具
要将浏览工具转换为 宏输出工具 :
右键单击工作流中的浏览工具。
选择 转换为宏输出 。
配置工具。
你现在可以将浏览工具用作 宏输出工具 。
将浏览工具转换为输出数据工具
要将浏览工具转换为 输出数据工具 :
右键单击工作流中的浏览工具。
选择 转换为输出数据 。
配置工具。
你现在可以将浏览工具用作 输出数据工具 。