Skip to main content

データクレンジングツール

データクレンジングツールを使用して、一般的なデータ品質の問題を修正します。null値の置換、句読点の削除、大文字の変換などを行うことができます。

既知の制限

15桁を超える数字は、精度を失うことを避けるため、文字列として扱う必要があります。セレクトツールを使用して、列のデータ型を文字列に設定します。

ツールコンポーネント

data-cleansing-with-anchors.png

図: アンカー付きデータクレンジングツール。

データクレンジングツールには 2 つのアンカーがあります。

  • 入力アンカー: 入力アンカーを使用して、クレンジングするデータに接続します。

  • 出力アンカー: 出力アンカーを使用して、クレンジングされたデータを出力します。

ツールの設定

Nullデータを削除

これらのオプションを使用して、Nullデータの行と列全体を削除します。

  • Null行を削除

    • すべての列でnull値がある行をすべて削除します。

    • Null値のみの行を削除します。空の文字列値を持つ行は削除されません。

    • すべての列でNull値がある行のみを削除します。

クレンジングする列を選択

クレンジングする列にチェックを入れます。[すべて選択]にチェックを入れると、すべての列が選択されます。このチェックを外すと、すべての列の選択が解除されます。

文字列データ型

[Nullを0に置換] 以外のすべてのオプションは、文字列データ型に適用されます。ワークフローで複数のデータクレンジングツールを使用して、列ごとに異なるオプションを指定します。

Nullの置換

  • 空白に置換 (文字列): null値を空白の文字列値に置き換えます。空白は [Null] ではなく " " として登録されます。このオプションは、既定で選択されています。

  • 0に置換 (数値列): null値を0 (ゼロ)に置き換えます。このオプションは、既定で選択されています。

不要な文字の削除

  • 先頭と末尾の空白: 先頭と末尾の空白を削除します。このオプションは、既定で選択されています。

  • タブ、改行、重複した空白: 行末、タブ、重複の空白、その他の連続する空白を含むすべての空白を単一の空白に置き換えます。

  • すべての空白: すべての空白を削除します。

  • 文字:「A b Z À é ö」のような非ラテン系のアルファベット文字を含むすべての文字を削除します。

  • 数字: すべての数値を削除します。

  • 句読点: 以下のような文字を削除します: ! " # $ % & ' ( ) * + , \ - ./ : ; < = > ? @ [ / ] ^ _ ` { | } ~

大文字小文字の変換

[大文字/小文字の変換] を選択し、ドロップダウンからオプションを選択して、文字列データ型の大文字と小文字を変更します。

  • 大文字: 文字列内のすべての文字を大文字に変換します。

  • 小文字: 文字列内のすべての文字を小文字に変換します。

  • タイトルケース: 文字列のすべての単語の最初の文字のみを大文字に変換します。