数据清理工具
使用数据清理工具修复常见的数据质量问题。用户可以替换 Null 值、移除标点符号、修改大小写等。
已知局限
超出 15 位的数字必须当成字符串处理,否则它们将失去精度。使用选择工具将列类型设置为字符串。
工具组件
![]() |
图解:带锚点的“数据清理”工具。
数据清理工具有两个锚点。
输入锚点:使用输入锚点连接要清理的数据。
输出锚点:输出锚点会输出清理后的数据。
配置工具
移除 Null 数据
使用这些选项可移除整行和整列的 null 数据:
移除 null 行
移除每列都有 null 值的所有行。
移除具有 null 值的行,但不移除具有空字符串值的行。
仅移除每列中具有 null 值的行。
选择要清理的列
勾选要清理的列。选中全选可选择所有列,取消选中则取消全部选择。
字符串数据类型
除了将 null 值替换为 0 之外,其他所有选项都适用于字符串数据类型。在工作流中使用多个数据清理工具为不同的列指定不同的选项。
替换 Null
替换为空白值(字符串列):将 null 值替换为空白字符串值。空白值指的是
" "而非[Null]。此选项默认选中。替换为 0(数值列):将 null 值替换为
0(零)。此选项默认选中。
移除不需要的字符
前导和尾随空格:删除前导和尾随空格。此选项默认选中。
制表符、换行符和重复空格:将所有出现的空格(包括换行符、制表符、多个空白字符和其他连续空白字符)替换为单个空格。
所有空格:移除所有空格。
字母:移除所有字母,包括非拉丁字母,如 A b Z À é ö。
数字 :删除所有数字。
标点符号:移除以下字符:! " # $ % & ' ( ) * + , \ - ./ : ; < = > ? @ [ / ] ^ _ ` { | } ~
修改大小写
选择修改大小写,然后从下拉菜单中选择一个选项来更改字符串数据类型的大小写:
大写:将字符串中的所有字母转换为大写。
小写:将字符串中的所有字母转换为小写。
首字母大写:将字符串中所有单词的第一个字母转换为大写。
