Skip to main content

サンプリングツール

サンプリングを使用して、データストリームを指定した数、割合、またはランダムな行セットに制限します。さらに、サンプリングツールでは、選択した設定をグループ化するために選択した列に適用します。

ヒント

このツールには「ツールごとに学習」があります。 サンプルワークフローへのアクセス を参照して、 Designer Cloud でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。

ツールコンポーネント

Sample Data anchors.png

図: アンカーのあるサンプリングツール

サンプリングツールには、2つのアンカーがあります。

  • 入力アンカー: 入力アンカーを使用して、サンプリングするデータを選択します。

  • 出力アンカー: サンプリングされたデータを出力します。

ツールの設定

  1. サンプリング方法を選択します。サンプリング方法に従いテキストボックスを使用してNが選択され、16文字に制限されています。オプションは、次のとおりです。

    • 最初のN行 : データの最初からN行まで、すべての行を返します。

    • 最後のN行 : データの最後のN行から末尾まで、すべての行を返します。

    • Skip 1st N Rows: Returns all rows in the data starting after row N.

    • N行毎に1行 : N行のすべてのグループの最初の行を返します。

    • 最初の N%の行 : 行のN%を返します。このオプションでは、ツールでデータが2回処理されます。1回目は行数を計算し、2回目は指定された割合の行を返します。

    • N分の1の確率で各行を含む : 各行がサンプルに含まれているかどうかは、他の行に含まれるかに関係なくランダムに決定されます。

      注記

      [ N分の1の確率で各行を含む ] オプションは、近似値を返します。たとえば、1,000行ある場合、ランダムなサンプリングを選択し、Nを10と指定すると、100行が返されるはずです。しかし、75から150までの間の行数が返される場合もあります。

  2. Nの値を指定するには、 N= に数値を入力します。

  3. 入力順で レコードサンプルを抽出 : サンプリングする [ ] と [ 順序 ] を選択します。

  4. グループ化する列 : 複数のグループが指定されている場合は、グループごとにN行が返されます。このオプションは、[ N分の1の確率で各行を含む ] サンプリング方法では使用できません。

    注記

    「City」という列名でグループ化する場合、Nを2と指定し、[最初のN行] を選択すると、 Designer Cloud が各City列の最初の2行を返します。