Herramienta de muestreo de simulación
La herramienta de muestra de simulación muestrea los datos de forma paramétrica desde una distribución, desde los datos de entrada o como una combinación que se ajusta mejor a una distribución. Los datos también pueden ser "dibujados" si no está seguro de los parámetros de una distribución y faltan datos.
Esta herramienta utiliza la herramienta R. Ve a Opciones > Descargar herramientas predictivas e inicia sesión Portal de licencias y descargas de Alteryx para instalar R y los paquetes utilizados por la Herramienta R. Consulta Descargar y usar herramientas predictivas.
Conectar entradas
- D ancla: opcional. Datos de muestra. Esta entrada es requerida si usted está probando de datos crudos o desechado.
- S ancla: opcional. Datos de simulación. Si se han utilizado herramientas de simulación anteriores, los datos de ellos se pueden conectar a esta entrada para anexar los datos y obtener un conteo de iteraciones y una semilla.
Configurar la herramienta
- Seleccione el mecanismo de muestreo: Monte Carlo/muestreo simple o hipercubo Latina/muestreo estratificado. Para el muestreo estratificado de los datos, el tamaño máximo de estratos se determina por la elección del tamaño del trozo.
- Tamaño del fragmento: el tamaño máximo de los datos a evaluar a la vez. Esto se puede utilizar para evitar la limitación de procesamiento en memoria de R. Para el muestreo estratificado de los datos, éste es también el tamaño máximo de los estratos.
- Semilla: la semilla aleatoria utilizada para el muestreo. Esta opción no está disponible si un conjunto de datos que contiene un campo de semilla está conectado a la entrada S, ya que la semilla se incrementará y se usará en su lugar.
- Número de iteraciones: número de muestras que se seleccionarán. Esta opción no está disponible si un DataSet está conectado a la entrada S, ya que el tamaño de ese conjunto de datos determina el número de iteraciones.
- Seleccione el modo de muestreo:
- Escriba el nombre de los datos salientes: especifique un nombre de campo para el campo de salida.
- Seleccione distribución: seleccione de la lista de distribuciones soportadas. Junto con los parámetros, esto determina la trama de la función acumulativa representada de la densidad/de la masa.
- Introducir parámetros y límites: para definir los parámetros de la distribución, utilice los deslizadores o las flechas arriba/abajo para ajustar los valores o introducir valores manualmente. Junto con la distribución seleccionada, esto determina la trama de la función acumulativa representada de la densidad/de la masa. Opcionalmente, puede especificar límites para la distribución. Si se especifican límites, el muestreo de rechazo se utiliza para asegurar que las muestras dibujadas se encuentren entre el límite inferior y el límite superior. Los límites son inclusivos.
- Muestra con reemplazo: Seleccione esta opción para probar con el reemplazo.
- Especificar tipo de datos: Seleccione una de las opciones de datos.
- Datos RAW (no desechado): seleccione los campos que desea muestrear y, a continuación, una estrategia de muestreo (ver más abajo).
- Datosde desechado: requiere un campo de ID y un campo de valor con bins igualmente espaciados. (los IDS son números igualmente espaciados.) Especifique un nombre para los datos salientes (nombre del campo de salida), estrategia de muestreo (véase más abajo), campo ID para los datos desechado y el campo valor para los datos desechado.
- Entrada manual: introduzca manualmente los datos a través de un widget de ruleta. Introduzca un nombre para los datos salientes (nombre del campo de salida) y los parámetros del widget de la ruleta. Utilice las opciones de bins inferior, superior, alto y numérico para configurar el tamaño de la cuadrícula. Haga clic en la cuadrícula para proporcionar la altura de los contenedores.
- Seleccione campos para muestrear: seleccione columnas para probar datos de.
- Seleccione la estrategiade muestreo: elija cómo probar sus datos. Muestrear filas completas, cada columna de forma independiente o desde la distribución de mejor ajuste. Si elige probar desde la distribución de mejor ajuste, seleccione las distribuciones a las que se ajustarán los datos.
Para el muestreo paramétrico, no conecte una secuencia de datos a la entrada D.
Conecte una secuencia de datos a la entrada D o a la muestra a través de la entrada manual.
Ver la salida
Conecte una herramienta de exploración al anclaje de salida para ver los resultados.
- D ancla: la salida de datos. Este es el resultado de la simulación.