Count Regression Tool Icon

ポアソン回帰ツール

バージョン:
Current
Last modified: September 25, 2020

回帰カウント ツールを使用して、負でない整数値 (0、1、2、3 など) の対象フィールド (ターゲット変数) を、ターゲット変数に影響を与えることが予想される 1 つ以上のフィールドに関連付ける回帰モデルを作成します。

一般的な使用例としては、特定の月に顧客が特定のレストランを訪れる回数や、特定の携帯電話アカウントに関連付けられた電話番号の数が挙げられます。 これらの使用ケースでは、線形モデルを使用すると偏りのある推定値が得られます。 最も良く知られている2つのポアソン回帰モデルは、ポアソン*と負の2項モデルです**。 一連の予測変数を指定すると、カウント データ回帰モデルを使用すると、予測フィールドのセットを指定した観測単位 (たとえば、顧客) の予想されるイベント数 (たとえば、店舗訪問) の推定値を取得できます。

ポアソン回帰モデルは、ターゲットフィールドの平均値と分散値の間の関係についての(特にそれらが互いに等しいこと)を強い仮定を行います。 これを説明するために、準ポアソンモデルが開発されています。 準ポアソンモデルは、平均とは異なるが、情報基準尺度(AICなど)が定義されないことを犠牲として変数を許容するため、擬ポアソンモデルを段階的な変数選択の出発点として使用することはできません。 負の二項回帰モデルには、情報基準が明確に定義されており、基になる分布の平均と分散の差が可能であるため、通常は好ましい方法です。 平均および分散が互いに異なるデータを使用して推定されたポアソン回帰モデルは、互いとは異なる平均と分散が、平均および対応するモデル係数の不偏推定を提供するが、統計的有意性の検定には偏りがあることに注意する必要があります。

このツールを使用すると、入力データが通常の Alteryx データ ストリームからの入力データである場合、モデル推定にオープンソースの R glm 関数が使用されます。 入力がXDF 入力ツール または XDF 出力ツールから取得される場合、モデル推定には Revo ScaleR rxGlm 関数が使用されます。 Revo ScaleR ベースの関数を使用すると、はるかに大きな (メモリ不足の) データセットを分析できますが、XDF ファイルを作成するオーバーヘッドが増えるため、オープン ソース R 関数で使用できるモデル診断出力の一部を作成できず、ポアソン回帰モデルしか生成できないことがあります。

このツールはRツールを使用します。 [オプション] > [予測ツールダウンロード] に移動し、Alteryx のダウンロードとライセンスのポータルにサインインして、R とR ツールで使用するパッケージをインストールします。 参照: 予測ツールのダウンロードとご利用

入力を接続する

1つ以上の可能性のある予測フィールドと共に、関心のあるターゲットフィールドを含むAlteryxデータストリームまたはXDFメタデータストリームを接続します。

ツール設定

回帰のカウント - 設定タブ

  • モデル名: 後で識別できるように、各モデルに名前を指定する必要があります。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲット変数を選択: 予測したいデータストリームからフィールドを選択します。
  • 予測変数を選択: ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。 サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
  • モデルタイプ: ポアソン準ポアソン、 または 負の二項を選択します。 負の二項を選択した場合は、(モデル分散に密接にリンクされている)theta の値を指定できます。 シータの最良値は、デフォルトの "自動" オプションが使用されている場合、データから推定できます。
  • モデル推定にサンプリング加重を使用しますか? (任意) : チェック ボックスをオンにし、データ ストリームからウェイト フィールドを選択して、サンプリング ウェイトを使用するモデルを推定します。 このオプションは、選択したモデルタイプが負の二項であり 、autoオプションを使用して theta の値が決定される場合には使用できませんが、特定の値に対しては機能します (サンプリングウェイトを使用しなかったモデルの初期実行に基づいて使用できます)。

[グラフィックス オプション] タブ

グラフ解像度: 1x (96 dpi) 、2x (192 dpi)、または3x (288 dpi)の点/インチでグラフの解像度を選択します。 2x (192 dpi)

  • 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。
  • 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。

出力の表示

  • アンカー : モデル名を持つシリアル化されたモデルのテーブルで構成されます。
  • R アンカー: 集計回帰ツールによって生成されたレポート スニペットで構成されます:統計サマリー、逸脱のタイプ II 分析 (ANOD)、および基本診断プロット。 モデル入力がXDF出力またはXDF入力ツールからのものである場合、逸脱度のタイプII分析テーブルおよび基本診断プロットは生成されません。

*en.wikipedia.org/wiki/Poisson_regression
**en.wikipedia.org/wiki/Negative_binomial_distribution

役に立ちましたか?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support. Can't submit this form? Email us.