Skip to main content

準備

ワークフローの下流で分析を行うためのデータを準備します。

項目

説明

サンプル作成ツール

サンプル作成ツールを使用して、入力レコードを2つまたは3つのランダムサンプルに分割します。

データクレンジングツール

データクレンジングツールを使用して、一般的なデータ品質の問題を修正します。null値の置換、句読点の削除、大文字の変換などを行うことができます。

フィルターツール

フィルターツールを使用して、条件を使用してデータを選択します。

フォーミュラツール

フォーミュラツールは、式を使用して新しい列を作成し、列を更新します。また、1 つ以上の式を使用してさまざまな計算と演算を実行します。

Imputation Tool

インピュテーションを使用して、データ内の欠落値をクリーンアップします。

Multi-Column Binning Tool

複数列ビン分割ツールを使用して、複数の列をタイルまたはビン分割します。

複数列フォーミュラツール

複数列フォーミュラを使用して、単一の式に基づいて複数の列を作成または更新します。

Oversample Column Tool

オーバーサンプルコラムを使用して、不均衡なデータから均衡のとれたサンプルを自動的に作成し、統計モデリングで使用できるようにします。

ランダム%サンプリングツール

ランダム%サンプリングツールを使用して、入力データストリームのランダムサンプルをもたらすと予想される数の行を返します。

行IDツール

行IDツールは、データ内に新しい列を作成し、データ内の各行ごとに順番に増加する固有識別子を割り当てます。

サンプリングツール

サンプリングを使用して、データストリームを指定した数、割合、またはランダムな行セットに制限します。さらに、サンプリングツールでは、選択した設定をグループ化するために選択した列に適用します。

セレクトツール

セレクトツールを使用して、ワークフローを通過するデータの列を含んだり、除外したり、並べ替えたりすることができます。

行選択ツール

行選択ツールは、指定された行と行の範囲(不連続な行の範囲を含む)を返します。このツールは、トラブルシューティングとサンプリングに非常に役立ちます。

ソートツール

ソートツールを使用して、指定されたデータフィールドの値に基づいて、テーブル内の行を英数字順に整列します。

タイルツール

タイルを使用し、データの範囲に基づいて値 (タイル) を割り当てます。このツールは、3つのメソッドのうち、ユーザーが指定したメソッドに従って実行します。

ユニークツール

ユニークツールを使用すると、指定した1つ以上の列によるグルーピングによって、行がユニークであるか重複しているかを判定し、それらの列によって並べ替えられます。