クロスバリデーションツール

クロス検証ツールは、クロス検証のプロセスを使用して、1つ以上の Alteryx で生成された予測モデルのパフォーマンスを比較します。すべての分類と回帰モデルをサポートしています。

このツールはRツールを使用します。 [オプション] > [予測ツールのダウンロード ] に進み、 Alteryxダウンロード／ライセンスポータル R とパッケージをインストールするには、 Rツール。

ギャラリーツール

このツールは、Alteryx デザイナーまたは R ツールと共に自動的にはインストールされません。このツールを使用するには、Alteryx Analytics Galleryからダウンロードしてください。

予測モデラーの中では、別のテストセットを使用する必要がなく、モデル品質のより強固な推定を生成するため、クロスバリデーションは他のモデル評価メソッドよりも頻繁に優先されます。

すべての分類モデルについて、このツールは、全体的な精度、クラスごとの精度、および一連の混乱行列 (モデルごとに1つ) を提供します。さらに、このツールは、バイナリ分類モデルのF1スコアとパフォーマンス診断プロット（リフトカーブ、ゲインチャート、精度対リコールカーブ、ROCカーブ）のコレクションを報告します。回帰モデルの場合、このツールは一般に、予測値と実数値の間の相関、平方根二乗誤差(RMSE)、平均絶対値誤差 (メー)、平均百分率誤差(MPE)、および平均絶対値を提供します。各モデルの予測のパーセンテージエラー (MAPE)。しかし、少なくとも1つの目標値が0に近い場合、MPEとMAPEは定義されません。その場合、MPEは実際の値の合計に対する誤差の合計で置き換えられ、絶対誤差の合計を実際の値の合計で除算した値（つまり、重み付き絶対パーセント誤差）がMAPEに置き換わります。さらに、このツールは、回帰の場合に実際の値と予測値のプロットを常に提供します。

入力を接続する

クロスバリデーションツールには2つの入力が必要です。

Mアンカー: 1 つの Alteryx によって生成された予測モデル、または2つ以上のそのようなモデルのユニオン。これらのモデルは、すべて同じデータセットを使用して生成されている必要があります。
Dアンカー: 上記のモデルを生成するために使用されるデータセット。

ツールを設定する

試行回数: クロス検証手順を繰り返したい回数を入力します。少数の試行回数を選択するとツールのスピードは上がりますが、数値が大きいほどモデルの品質のより強固な推定を提供します。
フォールド数: データを分割するサブセットの数を入力します。試験の数に類似のトレードオフもひだの数のために存在します。
モデルのタイプを選択します。
- 分類: これらのモデルは、yes/no のようなカテゴリを予測します。
- 回帰: これらのモデルは、売上合計のような数値を予測します。
層状相互検証を使用する必要がありますか。: 階層化されたクロス検証は、大きなデータセットと同じ確率分布を持つフォールドを作成する特別なタイプのクロス検証です。例えば、ターゲット値の80％が "いいえ" で、20％が "はい" であるデータセットでは、各フォールドで約80％が "いいえ"、20％が "はい" になります。ターゲット変数が不均衡な場合は、階層化されたクロスバリデーションが頻繁に推奨されています。
正のクラスの名前: (省略可能) この構成オプションは、バイナリ (2 クラス) 分類にのみ関連します。 F1スコアなどのバイナリ分類で報告されている測定値の中には、正のクラス（"はい" など）と負のクラス（"いいえ" など）の区別が必要なものもあります。ただし、この構成オプションは必須ではありません。バイナリ分類モデルでツールを使用するときに空白のままにすると、ツールはクラスの1つを正のクラスとして選択します。
シード値: 再現性のある結果を作成するには、どのレコードがどのフォールドにソートされるかを指定する乱数ジェネレータが使用するシードを選択します。シードを変更すると、フォールドの組成が変更されます。

出力を見る

Dアンカー: この出力は、実際のデータ値だけでなく、その予測も提供します。
Fアンカー: この出力は、モデルの種類に応じてさまざまなモデルフィットのメジャーを報告します。
Rアンカー: 各試験の平均フィットメジャーと、各モデルに対して1つのカーブが表示されるグラフを含むサマリーレポート。