Skip to main content

准备

准备数据用于下游分析。

项目

描述

自动列工具

使用“自动字段”工具自动更改列类型和大小,实现字符串数据的有效存储。

创建样本工具创建样本工具

使用创建样本将输入记录拆分为 2 个或 3 个随机样本。

Icons.png 数据清理专业工具

使用“数据清理专业版”修复常见的数据质量问题。您可以替换 null 值、移除标点符号和 HTML 标记、修改大小写等。

数据清理工具数据清理工具

使用数据清理工具修复常见的数据质量问题。用户可以替换 Null 值、移除标点符号、修改大小写等。

筛选工具筛选工具

使用筛选工具,根据条件选择数据。

公式工具公式工具

使用公式工具创建新列、对列进行更新、使用一个或多个表达式来执行各种计算和运算。

生成行工具

“生成行”使用表达式创建新的数据行。

Imputation Tool Imputation Tool

使用数值替换以清理数据中缺失的值。

Multi-Column Binning Tool Multi-Column Binning Tool

使用多列分箱工具,可对多个数据列执行平铺或分箱操作。

多列公式工具多列公式工具

使用多列公式,可利用一个表达式创建或更新多列。

Multi-Row Formula Tool

使用多行公式工具,可借助行数据构建公式,进而创建和更新数据列。

Oversample Column Tool Oversample Column Tool

使用“过采样字段”根据不平衡数据自动创建平衡采样,以便用于统计建模。

随机百分比抽样工具随机百分比抽样工具

使用“随机百分比抽样”工具可返回预期行数,从而生成传入数据流的随机样本。

排名工具

使用排名工具对数据进行排名,以进行进一步处理或输出。

“行 ID”工具“行 ID”工具

使用行 ID 在数据中创建一个新列,用于为数据中的每行分配一个按顺序递增的唯一标识符。

抽样工具抽样工具

利用样本将数据流限制为指定的数目、百分比或随机行数。此外,抽样工具还将所选配置应用于分组所依据的列。

选择工具选择工具

使用“选择”工具可对流经工作流的数据列进行添加、排除和重新排序。

“选择行”工具“选择行”工具

使用选择行工具返回指定的行和行范围,包括不连续的行范围。此工具可用于故障排除和数据抽样。

排序工具排序工具

排序工具根据指定数据字段值的字母数字顺序,对表格中的行进行排序。

分块工具分块工具

使用分块工具可根据数据范围分配一个值(分块)。该工具基于用户指定的 3 种方法之一来执行此操作。

唯一值工具唯一值工具

利用唯一值工具对一个或多个指定列进行分组,然后对这些列进行排序,从而区分行是唯一的还是重复的。