ポアソン回帰ツール

ユーザーロール要件

ユーザーロール*	ツール/機能へのアクセス
フルユーザー	✓
ベーシックユーザー	X

*Alteryx Oneプロフェッショナルエディションおよびエンタープライズエディションをご契約中で、Designerバージョン2025.1以降をお使いのお客様に適用されます。

ポアソン回帰ツールは、対象となっている負でない整数値(0、1、2、3など)のフィールド(ターゲット変数)と、そのターゲット変数に影響を与えると予想される(予測変数と呼ばれることもある)1つ以上のフィールドの関係性を表す回帰モデルを作成します。

一般的な使用ケースの例を挙げると、ある人が所定の月に特定のレストランに来店した回数、あるいは特定の携帯電話アカウントに関連付けられた電話番号の数といったものです。これらの使用ケースでは、線形モデルを使用すると偏りのある推定値が得られます。最も有名なモデルとして、ポアソン* と負の二項モデル** の 2 つがあります。ポアソンデータ回帰モデルでは、予測変数を 1 組与えると、予測フィールドを 1 組持つ観測ユニット (例えば、顧客) のイベント予測数 (例えば、店舗訪問回数) の推定値を得ることができます。

ポアソン回帰モデルは、ターゲットフィールドの平均値と分散値の間の関係(特にそれらが互いに等しいこと)について強く仮定します。これを説明するために、準ポアソンモデルが開発されています。準ポアソンモデルは、平均と異なる変数を情報基準尺度(AICなど)が定義されないことと引き換えに許容するため、準ポアソンモデルをステップワイズ変数選択の出発点として使用することはできません。負の二項回帰モデルは、情報基準が明確に定義されており、基礎となる分布の平均と分散の差が許容されているため、通常好まれます。平均および分散が互いに異なるデータを使用して推定されたポアソン回帰モデルは、互いとは異なる平均と分散が、平均および対応するモデル係数の不偏推定を提供する一方で、統計的有意性の検定には偏りがあることに注意する必要があります。

このツールでは、入力データが通常の Alteryx データストリームに由来する場合は、オープンソースの R glm 関数がモデル推定に使用されます。入力がXDF入力ツールまたはXDF出力ツールのいずれかに由来する場合は、Revo ScaleR rxGlm関数がモデル推定に使用されます。Revo ScaleRベースの関数を使用する利点は、より大きな(メモリ外の)データセットを分析できることですが、XDFファイルを作成するための追加のオーバーヘッドがかかり、オープンソースのR関数で利用可能なモデル診断出力の一部を作成できず、ポアソン回帰モデルしか生成できません。

重要

Designerでは、このツールは自動的にインストールされません。このツールを使用するには、ご使用中のDesignerのバージョンに対応するAlteryx予測ツールをダウンロードしてインストールします。Alteryxアカウントの種類に応じて、次の2つのダウンロードオプションを利用できます。

Alteryx Oneからダウンロード。
Alteryxライセンス&ダウンロードポータルからダウンロード。

詳細については、予測ツールのダウンロードと使用を参照してください。

ツールごとに学習

このツールには「ツールごとに学習」があります。サンプルワークフローをご覧いただき、Designerからこのサンプルやその他の多くのサンプルに直接アクセスする方法をご確認ください。

入力を接続

対象のターゲットフィールドと1つ以上の予測フィールドになり得るフィールドを含む、AlteryxデータストリームまたはXDFメタデータストリームを接続します。

ツールの設定

ポアソン回帰 - [設定] タブ

モデル名: 各モデルには、後で識別できるように名前を付ける必要があります。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド (".") とアンダースコア ("_") を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
ターゲット変数を選択: 予測するデータストリームからフィールドを選択します。
予測変数を選択: ターゲット変数の値が変更される原因と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
モデルのタイプ: ポアソン、準ポアソン、または 負の二項 を選択します。負の二項を選択した場合は、シータの値を指定できます(モデルの分散と密接に関連します)。シータの最良値は、デフォルトの "自動" オプションが使用されている場合、データから推定できます。
モデル推定にサンプリング重み付けを使用しますか? (オプション): チェックボックスを選択し、データストリームから重みフィールドを選択して、サンプリングの重みを使用するモデルを推定します。このオプションは、モデルのタイプとして負の二項を選択し、シータの値を[auto (自動)]オプションで決定する場合には機能しませんが、シータの特定の値が指定されている場合には機能します(そうなるかどうかは、サンプリングの重み付けを使用していないモデルを最初に実行したときの状態で決まります)。

[グラフィックオプション] タブ

グラフの解像度: グラフの解像度を 1 インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)

解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。

出力の表示

O アンカー: シリアル化されたモデルのテーブルとそのモデル名で構成されます。
R アンカー: 統計サマリー、逸脱度のタイプII分析 (ANOD)、および基本診断プロットなど、ポアソン回帰ツールが生成するレポートスニペットで構成されます。モデル入力がXDF出力またはXDF入力ツールからのものである場合、タイプII逸脱度分析テーブルおよび基本診断プロットは生成されません。

*en.wikipedia.org/wiki/Poisson_regression

**en.wikipedia.org/wiki/Negative_binomial_distribution

このセクションの内容: