準備
準備カテゴリには、下流分析用のデータを準備するツールが含まれています。
オートフィールドツール: 自動フィールドツールは入力ファイルを読み取り、列内に含まれるデータに対して可能な限り最小のサイズにフィールドタイプを設定します。
サンプル作成ツール: サンプル作成ツールは、入力レコードを2つまたは3つのランダムなサンプルに分割します。 見積もりと検証のサンプルにあるレコードの割合を指定し、合計が 100% 未満の場合は、残りのレコードが提示されたサンプルに該当します。
データクレンジングツール: データクレンジングツールは、さまざまなパラメータを使用して、一般的なデータ品質の問題を修正します。
フィルタツール: フィルタツールは、レコードのクエリーを実行し、データをTrue (データが指定された条件を満たしている) と False (ここではない)の、2つの出力に分割します。
フォーミュラツール: 数式ツールは、1つ以上の式を使用して列を作成または更新し、さまざまな計算や操作を実行します。
行生成ツール: [行の生成] ツールは、レコードレベルで新しいデータ行を creatse します。 数値、トランザクション、または日付のシーケンスを作成すると便利です。
iインピュテーションツール: 補完ツールは、数値データフィールドの特定の値を別の選択値で更新します。 そのツールは、NULL値を置き換えるのに便利です。
マルチフィールドビニングツール: マルチフィールドビン分割ツールは、特に予測分析で使用するために、複数の数値フィールドをタイルまたはビンにグループ化します。
複数フィールドフォーミュラツール: マルチフィールド式ツールを使用すると、複数のフィールドに対して1つの関数を簡単に実行できます。
複数行フォーミュラツール: 複数行の数式ツールは、後続または前の行の列を参照できる式を使用して、列を作成または更新します。 複雑なデータを解析し、実行中の合計、平均、パーセンテージ、およびその他の数学的計算を作成する場合に便利です。
オーバーサンプルフィールドツール: オーバー Field ツールは、データ値が等しく表示されるように受信データをサンプリングし、予測モデルで効果的に使用できるようにします。
ランダム%サンプルツール: ランダム% サンプルツールは、予想される数のレコードを返し、受信データストリームのランダムなサンプルを生成します。
レコード ID ツール: レコード ID ツールは、データ内に新しい列を作成し、データ内の各レコードに対して順次増加する一意の識別子を割り当てます。
サンプリングツール: サンプルツールは、データストリーム内のレコードの指定された部分を抽出します。
セレクトツール:選択ツールは、ワークフローを通過するデータの列を含み、除外し、並べ替えます。 選択ツールを使用すると、データのタイプとサイズを変更したり、列の名前を変更したり、説明を追加することもできます。
レコードツールを選択する: レコード選択ツールは、不連続範囲を含む特定のレコードまたはレコード範囲を選択します。 そのツールは、トラブルシューティングやサンプリングに役立ちます。
ソートツール: 並べ替えツールは、指定されたデータフィールドの値に基づいて、テーブル内のレコードを英数字順に整列します。
タイルツール: タイルツールは、データ内の範囲に基づいて値 (タイル) を割り当てます。
ユニークツール: 一意のツールは、データレコードが一意であるか、または1つ以上の指定されたフィールドにグループ化して重複しているかを区別し、それらのフィールドを並べ替えます。 各グループの最初のレコードはユニーク出力ストリームに送られ、残りのレコードは重複出力ストリームに送られます。