ポアソン回帰ツール

ポアソン回帰ツールは、非負の整数値(0、1、2、3など)の関心のあるフィールド(目標変数)を、その目標変数に影響を与えると予想され、しばしば予測変数と呼ばれる1つ以上のフィールドに関連付ける回帰モデルを作成します。 一般的な使用ケースの例は、顧客が所定の月に特定のレストランに行った訪問数、または特定の携帯電話アカウントに関連付けられた電話番号の数です。 これらの使用ケースでは、線形モデルを使用すると偏りのある推定値が得られます。 最も良く知られている2つのポアソン回帰モデルは、ポアソン*と負の2項モデルです**。 1組の予測変数が与えられれば、カウントデータ回帰モデルにより、ユーザーはプレディクタフィールドのセットを与えられた観測ユニット(例えば、顧客)の予想されるイベント数(例えば、店舗訪問)の推定値を得ることができます。

ポアソン回帰モデルは、ターゲットフィールドの平均値と分散値の間の関係についての(特にそれらが互いに等しいこと)を強い仮定を行います。 これを説明するために、準ポアソンモデルが開発されています。 準ポアソンモデルは、平均とは異なるが、情報基準尺度(AICなど)が定義されないことを犠牲として変数を許容するため、擬ポアソンモデルを段階的な変数選択の出発点として使用することはできません。 負の二項回帰モデルは、情報基準が明確に定義されており、基礎となる分布の平均と分散の差が許容されるため、通常は優先されます。 平均および分散が互いに異なるデータを使用して推定されたポアソン回帰モデルは、互いとは異なる平均と分散が、平均および対応するモデル係数の不偏推定を提供するが、統計的有意性の検定には偏りがあることに注意する必要があります。

このツールでは、入力データが通常のAlteryxデータストリームからのものであれば、オープンソースのR glm関数がモデル推定に使用されます。 入力がいずれかから来る場合  XDF入力ツール または XDF出力ツール、モデル推定には Revo スカラー rxGlm 関数が使用されます。 Revo ScaleRベースの機能を使用する利点は、より大きな(メモリ不足の)データセットを分析できることですが、XDFファイルを作成するための追加のオーバーヘッドを犠牲にし、オープンソースのR関数で利用可能なモデル診断出力の一部を作成できず、ポアソン回帰モデルしか生成できません。

このツールはRツールを使用します。 [オプション] > [予測ツールをダウンロード ] に進み、 Alteryx ダウンロード & ライセンスポータル R と R ツールが使用されるパッケージをインストールするには Rツール。 参照: 予測ツールをダウンロードして使用する

入力を接続する

1つ以上の可能なプレディクタフィールドとともに関心のあるターゲットフィールドを含むAlteryxデータストリームまたはXDFメタデータストリーム。

ツールを設定する

  • モデル名: 後で識別できるように、各モデルに名前を指定する必要があります。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲット変数を選択: 予測したいデータストリームからフィールドを選択します。
  • 予測変数を選択: ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。
  • サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。

  • モデルタイプ:ポアソン準ポアソン、または負の二項を選択します。 負のニ項が選択されている場合、ユーザーはシータの値を指定できます(これはモデルの分散と密接に関連しています)。 シータの最良値は、デフォルトの "自動" オプションが使用されている場合、データから推定できます。
  • モデル推定でサンプリングウェイトを使用するオプション: チェックボックスをクリックし、データストリームからウェイトフィールドを選択して、サンプリングウェイトを使用するモデルを推定します。 このオプションは、選択されたモデルタイプが負のニ項であり、"自動" オプションを使用してシータの値が決定される場合には使用できませんが、シータの特定の値が提供される場合には動作します(サンプリングの重みを使用していないモデルの最初の実行に基づく場合があります)。

グラフィックオプション

グラフ解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。

出力を見る

  • Oアンカー: モデル名を持つシリアル化されたモデルのテーブルから成ります。
  • Rアンカー: カウント回帰ツールによって生成されるレポートスニペット (統計サマリー、逸脱のタイプ II 分析 (ANOD)、および基本的な診断プロット) から成ります。 モデル入力がXDF出力またはXDF入力ツールからのものである場合、逸脱度のタイプII分析テーブルおよび基本診断プロットは生成されません。

*en.wikipedia.org/wiki/Poisson_regression
* *en.wikipedia.org/wiki/Negative_binomial_distribution