シミュレーションサンプリングツール
シミュレーションサンプリングツールは分布から、入力データから、または分散に最適な組み合わせとしてパラメトリックにデータをサンプリングします。 分布のパラメータが不明で、データが不足している場合は、データを「描画」することもできます。
このツールはRツールを使用します。 [オプション] > [予測ツールをダウンロード ] に進み、 Alteryx ダウンロード & ライセンスポータル R と R ツールが使用されるパッケージをインストールするには 。 参照: 予測ツールのダウンロードとご利用にアクセスしてください。
入力を接続する
- Dアンカー: オプション。 サンプルデータ。 この入力は、生データまたはビニングされたデータからサンプリングする場合に必要です。
- Sアンカー: オプション。 シミュレーションデータ。 以前のシミュレーションツールを使用した場合は、それらのツールのデータをこの入力に接続してデータを付加し、繰り返し回数とシードを取得することができます。
ツールを設定する
- サンプリングメカニズムを選択: モンテカルロ/単純サンプリングまたはラテンハイパーキューブ/層状サンプリング。 データからの層別サンプリングの場合、最大層サイズはチャンクサイズの選択によって決まります。
- チャンクサイズ: 一度に評価するデータの最大サイズ。 これは、Rのインメモリ処理の制限を回避するために使用できます。 データからの層別サンプリングの場合、これは層の最大サイズでもあります。
- シード: サンプリングに使用されるランダムシード。 このオプションは、シードフィールドを含むデータセットがS入力に接続されている場合、そのシードがインクリメントされて代わりに使用されるため、使用できません。
- 反復回数: 選択するサンプルの数。 データセットがS入力に接続されている場合、このデータセットのサイズによって反復回数が決まるため、このオプションは使用できません。
- サンプリングモードの選択:
- 送信データの名前を入力: 出力フィールドのフィールド名を指定します。
- [ディストリビューションの選択]: サポートされているディストリビューションの一覧から選択します。 パラメーターとともに、図示した累積密度/質量関数のプロットを決定します。
- パラメータと境界を入力: 分布のパラメータを定義するには、スライダまたは上向き/下向き矢印を使用して値を調整するか、手動で値を入力します。 選択された分散に沿って、図示された累積密度/質量関数のプロットが決定されます。 必要に応じて、分散の境界を指定することができます。 境界が指定されている場合、拒否サンプリングを使用して、描画されたサンプルが下限と上限の間にあることを確認し ます。 範囲は包括的です。
- 置換を使用したサンプル: 置換を使用してサンプルする場合は、このオプションを選択します。
- データの種類を指定: いずれかのデータオプションを選択します。
- 生データ (ビニングではありません): サンプルするフィールドを選択し、次にサンプリング戦略 (後述)をクリックします。
- ビニングデータ: ID フィールドと等間隔のビンを持つ値フィールドが必要です。 (id は等間隔の数字です)。送信データの名前 (出力フィールド名)、サンプリング戦略 (以下を参照)、ビニングデータの ID フィールド、およびビニングデータの値フィールドを指定します。
- 手動入力: ルーレットウィジェットを使用して手動でデータを入力します。 送信データの名前 (出力フィールド名) とルーレットウィジェットのパラメータを入力します。 下方、上方、高さ、および数値ビンオプションを使用して、グリッドのサイズを構成します。 グリッド内をクリックして、ビンの高さを指定します。
- サンプルするフィールドを選択: サンプルデータの列を選択します。
- サンプリング戦略の選択: データのサンプル方法を選択します。 行全体、各列を個別に、または最適な分布からサンプリングします。 最も適合する分散からサンプリングすることを選択した場合、データに適合する分布を選択します。
パラメーター的にサンプリング
パラメトリックサンプリングの場合、データストリームをD入力に接続しないでください。
データからサンプリング
D入力または手動入力経由のサンプルにデータストリームを接続します。
出力を見る
結果を表示するには、参照ツールを出力アンカーに接続します。
- Dアンカー: データ出力。 これはシミュレーションの結果です。