シミュレーションサンプリングツールは分布から、入力データから、または分散に最適な組み合わせとしてパラメトリックにデータをサンプリングします。分布のパラメーターが不明で、データが不足している場合は、データを「描画」することもできます。
このツールはRツールを使用します。[オプション] > [予測ツールのダウンロード]に移動し、[Alteryxダウンロードとライセンス]ポータルにサインインして、Rツールで使用するパッケージとRツールをインストールします。詳細については、予測ツールのダウンロードと使用を参照してください。
Dアンカー(オプション): サンプルデータ。この入力は、生データまたはビニングされたデータからサンプリングする場合に必要です。
Sアンカー(オプション): シミュレーションデータ。以前のシミュレーションツールを使用した場合は、それらのツールのデータをこの入力に接続してデータを付加し、繰り返し回数とシードを取得することができます。
サンプリングメカニズムを選択: モンテカルロ/シンプルサンプリングまたはラテン超方挌/階層化サンプリング。データからの層別サンプリングの場合、最大層サイズはチャンクサイズの選択によって決まります。
チャンクサイズ: 一度に評価するデータの最大サイズ。これは、Rのインメモリ処理の制限を回避するために使用できます。データからの層別サンプリングの場合、これは層の最大サイズでもあります。
シード: サンプリングに使用されるランダムなシード。このオプションは、シードフィールドを含むデータセットがS入力に接続されている場合、そのシードがインクリメントされて代わりに使用されるため、使用できません。
反復回数: 選択するサンプルの数。このオプションは、データセットがS入力に接続されている場合、このデータセットのサイズによって反復回数が決まるため、使用できません。
サンプリングモードを選択:
パラメトリック手法によるサンプリング
パラメトリックサンプリングの場合、データストリームをD入力に接続しないでください。
出力データの名前を入力: 出力フィールドのフィールド名を指定します。
分布を選択: サポートされている分布のリストから選択します。パラメーターとともに、図示した累積密度/質量関数のプロットを決定します。
パラメーターと境界を入力: 分布のパラメーターを定義するには、スライダーまたは上/下矢印を使用して値を調整するか、手動で値を入力します。選択された分散に沿って、図示された累積密度/質量関数のプロットが決定されます。必要に応じて、分散の境界を指定することができます。境界が指定されている場合、拒否サンプリングが使用され、抽出されたサンプルが下限と上限の間となるようにします。範囲は包括的です。
データからサンプリング
D入力にデータストリームを接続するか、手動入力でサンプリングします。
復元サンプリング: 復元によるサンプリングには、このオプションを選択します。
データの種類を指定: データオプションの1つを選択します。
生データ(ビニングされていない): サンプリングするフィールドとサンプリング戦略を選択します(下記参照)。
ビニングされたデータ: IDフィールドと等間隔のビンを持つ値フィールドが必要です。IDは等間隔の数字です。出力データの名前(出力フィールド名)、サンプリング戦略(下記参照)、ビニングされたデータのIDフィールド、ビニングされたデータの値フィールドを指定します。
手動入力: ルーレットウィジェットを介して手動でデータを入力します。出力データの名前(出力フィールド名)とルーレットウィジェットのパラメーターを入力します。下方、上方、高さ、および数値ビンオプションを使用して、グリッドのサイズを構成します。グリッドをクリックしてビンの高さを指定します。
サンプリングするフィールドを選択: データをサンプリングする列を選択します。
サンプリング戦略を選択: データのサンプリング方法を選択します。行全体か各列を別々に、または最も適合する分布からサンプリングできます。最も適合する分散からサンプリングすることを選択した場合、データに適合する分布を選択します。
出力アンカーに閲覧ツールを接続して、結果を表示します。
Dアンカー: データ出力。これはシミュレーションの結果です。