Skip to main content

数据清理工具

使用数据清理工具修复常见的数据质量问题。用户可以替换 Null 值、移除标点符号、修改大小写等。

已知局限

超出 15 位的数字必须当成字符串处理,否则它们将失去精度。使用选择工具将列类型设置为字符串。

工具组件

data-cleansing-with-anchors.png

图解:带锚点的“数据清理”工具。

数据清理工具有两个锚点。

  • 输入锚点:使用输入锚点连接要清理的数据。

  • 输出锚点:输出锚点会输出清理后的数据。

配置工具

移除 Null 数据

使用这些选项可移除整行和整列的 null 数据:

  • 移除 null 行

    • 移除每列都有 null 值的所有行。

    • 移除具有 null 值的行,但不移除具有空字符串值的行。

    • 仅移除每列中具有 null 值的行。

选择要清理的列

勾选要清理的列。选中全选可选择所有列,取消选中则取消全部选择。

字符串数据类型

除了将 null 值替换为 0 之外,其他所有选项都适用于字符串数据类型。在工作流中使用多个数据清理工具为不同的列指定不同的选项。

替换 Null

  • 替换为空白值(字符串列):将 null 值替换为空白字符串值。空白值指的是 " " 而非 [Null]。此选项默认选中。

  • 替换为 0(数值列):将 null 值替换为 0(零)。此选项默认选中。

移除不需要的字符

  • 前导和尾随空格:删除前导和尾随空格。此选项默认选中。

  • 制表符、换行符和重复空格:将所有出现的空格(包括换行符、制表符、多个空白字符和其他连续空白字符)替换为单个空格。

  • 所有空格:移除所有空格。

  • 字母:移除所有字母,包括非拉丁字母,如 A b Z À é ö

  • 数字 :删除所有数字。

  • 标点符号:移除以下字符:! " # $ % & ' ( ) * + , \ - ./ : ; < = > ? @ [ / ] ^ _ ` { | } ~

修改大小写

选择修改大小写,然后从下拉菜单中选择一个选项来更改字符串数据类型的大小写:

  • 大写:将字符串中的所有字母转换为大写。

  • 小写:将字符串中的所有字母转换为小写。

  • 首字母大写:将字符串中所有单词的第一个字母转换为大写。