Skip to main content

抽样工具

利用样本将数据流限制为指定的数目、百分比或随机行数。此外,抽样工具还将所选配置应用于分组所依据的列。

工具组件

Sample Data anchors.png

图解:具有锚点的“抽样”工具。

“抽样”工具有两个锚点。

  • 输入锚点:使用输入锚点选择要抽样的数据。

  • 输出锚点:输出已抽样的数据。

配置工具

  1. 选择抽样方法。N 是按照抽样方法使用文本框选择的,并限制为 16 个字符。选项包括:

    • 前 N 行:返回数据中第一行至第 N 行中的每一行。

    • 后 N 行:返回数据中第 N 行至最后一行中的每一行。

    • 跳过前 N 行:返回数据中从第 N 行之后开始的所有行。

    • 每 N 行中的第一行:每 N 行为一组,返回每组中的第一行。

    • 前百分之N行:返回百分之 N 的行。此选项需要数据通过该工具两次:第一次计算行计数,第二次按指定百分比返回行。

    • 每行有 N 分之一的机会被抽取:随机确定是否将每行包含在样本中,与是否包含任何其他行无关。

      注意

      选项每行有 N 分之一的机会被抽取返回的是近似值。例如,如果您有 1,000 行,选择一个随机样本,并将 N 指定为 10,那么您可能预计工具会返回 100 行。然而,它可能返回 75 到 150 行。

  2. N= 中输入数字以指定 N 的值。

  3. 分组列(可选):如果指定了分组,则每组返回 N 行。此选项不适用于每行有 N 分之一的机会被抽取抽样方法。

    注意

    如果选择按名为 City 的列进行分组,将 N 指定为 2,并选择“前 N 行”,则 将返回每个 City 的前 2 行。