Count Regression Tool Icon

ポアソン回帰ツール

バージョン:
2021.3
Last modified: August 31, 2021

ツールごとに学習

ポアソン回帰には、「ツールごとに学習」が用意されています。サンプルワークフロー を参照して、Alteryx Designer でこのサンプルやその他の多くのサンプルに直接アクセスする方法を確認してください。

ポアソン回帰ツールは、非負の整数値 (0、1、2、3など) の対象のフィールド (目標変数) と、その目標変数に影響を与えると予想され、しばしば予測変数と呼ばれる 1 つ以上のフィールドの関連についての回帰モデルを作成します。

一般的な使用ケースの例を挙げると、ある人が所定の月に特定のレストランに来店した回数、あるいは特定の携帯電話アカウントに関連付けられた電話番号の数といったものです。これらの使用ケースでは、線形モデルを使用すると偏りのある推定値が得られます。最も有名なモデルとして、ポアソン* と負の二項モデル** の 2 つがあります。ポアソン回帰モデルでは、予測変数を 1 組与えると、予測フィールドを 1 組持つ観測ユニット (例えば、顧客) のイベント予測数 (例えば、店舗訪問回数) の推定値を得ることができます。

ポアソン回帰モデルは、ターゲットフィールドの平均値と分散値の間の関係についての(特にそれらが互いに等しいこと)を強く仮定します。これを説明するために、準ポアソンモデルが開発されています。疑似ポアソンモデルは、平均とは異なるが、情報基準尺度(AICなど)が定義されないことと引き換えに変数を許容するため、疑似ポアソンモデルをステップワイズ変数選択の出発点として使用することはできません。負の二項回帰モデルは、情報基準が明確に定義されており、基礎となる分布の平均と分散の差が許容されているため、通常は優先されます。平均および分散が互いに異なるデータを使用して推定されたポアソン回帰モデルは、互いとは異なる平均と分散が、平均および対応するモデル係数の不偏推定を提供する一方で、統計的有意性の検定には偏りがあることに注意する必要があります。

このツールでは、入力データが通常の Alteryx データストリームに由来する場合は、オープンソースの R glm 関数がモデル推定に使用されます。入力が XDF 入力ツール または XDF 出力ツール のいずれかに由来する場合は、Revo ScaleR rxGlm 関数がモデル推定に使用されます。Revo ScaleR ベースの関数を使用する利点は、より大きな (メモリ不足の) データセットを分析できることですが、XDF ファイルを作成するための追加のオーバーヘッドを犠牲にし、オープンソースの R 関数で利用可能なモデル診断出力の一部を作成できず、ポアソン回帰モデルしか生成できません。

このツールはRツールを使用します。オプション > 予測ツールの ダウンロード に移動し、Alteryx ダウンロードとライセンス ポータルにサインインして、R ツール で使用する R ツールとパッケージをインストールします。予測ツールのダウンロードと使用 を参照してください。

入力を接続

対象のターゲットフィールドと1つ以上の予測フィールドになり得るフィールドを含む、AlteryxデータストリームまたはXDFメタデータストリームを接続します。

ツール設定

ポアソン回帰 - [設定] タブ

  • モデル名: 各モデルには後で識別できるように名前を付ける必要があります。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
  • ターゲット変数を選択: 予測するデータストリームからフィールドを選択します。
  • 予測変数を選択: ターゲット変数の値が変更される「原因」と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
  • モデルのタイプ: ポアソン準ポアソン、または 負の二項 を選択します。負の二項を選択した場合は、シータの値を指定できます (モデルの分散と密接に関連します)。シータの最良値は、デフォルトの "自動" オプションが使用されている場合、データから推定できます。
  • モデル推定にサンプリングの重み付けを使用しますか? (オプション): チェックボックスを選択し、データストリームから重みフィールドを選択して、サンプリングの重みを使用するモデルを推定します。このオプションは、モデルのタイプとして負の二項を選択し、シータの値を 自動 オプションで決定する場合には機能しませんが、シータの特定の値を指定する場合は使用できます (サンプリングの重みを使用していないモデルの最初の実行に基づく場合があります)。

[グラフィックオプション] タブ

グラフの解像度: グラフの解像度を 1 インチあたりのドット数で選択します: 1x (96 dpi)2x (192 dpi)3x (288 dpi)

  • 解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
  • 解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。

出力の表示

  • O アンカー: シリアル化されたモデルのテーブルとそのモデル名で構成されます。
  • R アンカー: 統計サマリー、逸脱度のタイプII分析 (ANOD)、および基本診断プロットなど、ポアソン回帰ツールが生成するレポートスニペットで構成されます。モデル入力がXDF出力またはXDF入力ツールからのものである場合、逸脱度のタイプII分析テーブルおよび基本診断プロットは生成されません。

*en.wikipedia.org/wiki/Poisson_regression
**en.wikipedia.org/wiki/Negative_binomial_distribution

役に立ちましたか?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support. Can't submit this form? Email us.