Skip to main content

データクレンジングツール

データクレンジングツールを使用して、一般的なデータ品質の問題を修正します。null値の置換、句読点の削除、大文字の変換などを行うことができます。

ヒント

このツールには「ツールごとに学習」があります。 サンプルワークフローへのアクセス を参照して、 Designer Cloud でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。

既知の制限

Numbers with more than 15 digits need to be treated as strings, or they lose precision. Set the column type to a string with the Select tool.

ツールコンポーネント

data-cleansing-with-anchors.png

図: アンカー付きデータクレンジングツール。

データクレンジングツールには 2 つのアンカーがあります。

  • 入力アンカー : 入力アンカーを使用して、クレンジングするデータに接続します。

  • 出力アンカー : 出力アンカーを使用して、クレンジングされたデータを出力します。

ツールの設定

Nullデータを削除

これらのオプションを使用して、Nullデータの行と列全体を削除します。

  • Null行を削除

    • すべての列でnull値がある行をすべて削除します。

    • Null値のみの行を削除します。空の文字列値を持つ行は削除されません。

    • すべての列でNull値がある行のみを削除します。

  • Remove Null Columns

    • Remove all columns with a null value in every row.

    • Remove columns with null values—doesn't remove columns with empty string values.

    • Only remove columns that have a null value in every row.

    • A message displays in the Results window with the number of columns that were removed.

クレンジングするフィールドを選択

クレンジングする列にチェックを入れます。[ すべて選択 ] にチェックを入れると、すべての列が選択されます。このチェックを外すと、すべての列の選択が解除されます。

文字列データ型

[ Nullを0に置換 ] 以外のすべてのオプションは、文字列データ型に適用されます。列ごとに異なるオプションを指定するには、ワークフローで複数のデータクレンジングツールを使用します。

Nullの置換

  • 空白に置換 (文字列) : null値を空白の文字列値に置き換えます。空白は [Null] ではなく " " として登録されます。このオプションは、既定で選択されています。

  • 0に置換 (数値列) : null値を 0 (ゼロ)に置き換えます。このオプションは、既定で選択されています。

不要な文字の削除

  • 先頭と末尾の空白 : 先頭と末尾の空白を削除します。このオプションは、既定で選択されています。

  • タブ、改行、重複した空白 : 行末、タブ、重複の空白、その他の連続する空白を含むすべての空白を単一の空白に置き換えます。

  • すべての空白 : すべての空白を削除します。

  • 文字 : 「A b Z À é ö」 のような非ラテン系のアルファベット文字を含むすべての文字を削除します。

  • 数字 : すべての数値を削除します。

  • 句読点 : 以下のような文字を削除します: ! " # $ % & ' ( ) * + , \ - ./ : ; < = > ? @ [ / ] ^ _ ` { | } ~

大文字小文字の変換

[ 大文字/小文字の変換 ] を選択し、ドロップダウンからオプションを選択して、文字列データ型の大文字と小文字を変更します。

  • 大文字 : 文字列内のすべての文字を大文字に変換します。

  • 小文字 : 文字列内のすべての文字を小文字に変換します。

  • タイトルケース : 文字列のすべての単語の最初の文字のみを大文字に変換します。