ロジスティック回帰
[ロジスティック回帰]ツールは、ターゲットバイナリ変数(はい/いいえ、通過/失敗など)を1つ以上のプレディクタ変数に関連付けるモデルを作成し、ターゲット変数、共通ロジスティック回帰モデルに対する2つの可能な応答の推定確率を取得します。共通ロジスティック回帰モデルにはロジット、プロビット、および補のログログが含まれます。 ロジスティック回帰を参照してください。
このツールはRツールを使用します。 [オプション] > [予測ツールをダウンロード ] に進み、 Alteryx ダウンロード & ライセンスポータル R と R ツールが使用されるパッケージをインストールするには Rツール。 参照: 予測ツールをダウンロードして使用する。
1つ以上の可能性のある予測フィールドと共に、関心のあるターゲットフィールドを含むAlteryxデータストリームまたはXDFメタデータストリームを接続します。
入力データが Alteryx データストリームからのものである場合、オープンソース R glm 関数と glmnet と glmnet 関数 ( glmnet パッケージから) がモデル推定に使用されます。
入力データが XDF出力ツール または XDF入力ツール、RevoScaleR rxLogit 関数はモデル推定に使用されます。 Revo ScaleRベースの関数の使用には、大量の(メモリ不足の)データセットを解析することができるというメリットがありますが、XDFファイルを作成するために追加のオーバーヘッドがかかり、オープンソースのR関数で利用可能なモデル診断出力の一部を作成できないというデメリットもあり、ロジットリンク関数の使用のみ許可されます。
- タイプモデル名: 他のツールで参照されているモデルを識別するモデルの名前を入力します。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド(.)と下線(_)を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
- [ターゲット変数の選択]: 予測するデータを選択します。 ターゲット変数は、応答または従属変数とも呼ばれます。
- [予測変数の選択]: ターゲット変数の値に影響を与えるために使用するデータを選択します。 予測変数は、機能または独立変数とも呼ばれます。 任意の数の予測変数を選択できますが、ターゲット変数も予測変数にしてはなりません。
サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
[カスタマイズ] をクリックして、モデル、クロス検証、およびプロットの設定を変更します。
- モデル推定でのサンプリングウェイトの使用: モデル推定の作成時に各レコードに配置する重要度を決定する変数を選択します。 値が予測変数と重み変数の両方として使用されている場合、重み変数は、レポート出力のモデル呼び出しに文字列「Right_」が付加されて表示されます。
- 正規化回帰を使用: 係数のサイズにペナルティの項で二乗誤差の合計の同じ最小化のバランスをとるために選択し、単純なモデルを生成します。
- アルファ値を入力: 0 (リッジ回帰) から 1 (なげなわ) までの値を選択し、係数に与えられる強調の量を測定します。
- 予測変数の標準化: 使用するアルゴリズムに基づいてすべての変数を同じサイズにする場合に選択します。
- クロス検証を使用してモデルパラメータを決定する: クロス検証を実行し、さまざまなモデルパラメータを取得する場合に選択します。
- フォールド数: データを分割するフォールドの数を選択します。 折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- モデルのタイプ: 係数を決定するモデルのタイプを選択します。
- より簡易なモデル
- より低いサンプル標準誤差があるモデル
- [シードの設定]: 選択してクロス検証の再現性を確認し、レコードをフォールドに割り当てるために使用するシードの値を選択します。 ワークフローが実行されるたびに同じシードを選択すると、毎回同じレコードが同じ折り畳みになることが保証されます。値は正の整数でなければなりません。
- モデルタイプの選択: ターゲット変数の予測に使用するモデルのタイプを選択します。
- ロジット
- プロビット
- 相補log-log
- クロス検証を使用してモデル品質の見積もりを決定する: クロス検証を実行し、さまざまなモデル品質のメトリックスとグラフを取得する場合に選択します。 一部のメトリックとグラフは静的なR出力に表示され、他のメトリックとグラフは相互作用I出力に表示されます。
- フォールド数: データを分割するフォールドの数を選択します。 折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- 試行回数: クロス検証手順を繰り返す回数を選択します。 フォールドは、各試験で異なる選択され、全体的な結果は、すべての試験で平均化されます。 折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- ターゲット変数の正のクラスを入力: バイナリ分類ケースでツールによって報告されたメジャーの一部 (真陽性率など) には、正のクラスを指定する必要があります。 バイナリ分類を実行するには、ターゲット変数の2つの正のクラスのいずれかを入力します。 空白のままにすると、クラスの1つが正のクラスとして自動的に決定されます。 このオプションは、分類モデルでのみ使用できます。
- 階層化されたクロス検証の使用: 各フォールドには、データセット全体に存在する各クラスの割合が同じになるように選択します。 このオプションは、分類モデルでのみ使用できます。
- [シードの設定]: 選択してクロス検証の再現性を確認し、レコードをフォールドに割り当てるために使用するシードの値を選択します。 ワークフローが実行されるたびに同じシードを選択すると、毎回同じレコードが同じ折り畳みになることが保証されます。値は正の整数でなければなりません。
-
グラフ解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
各出力アンカーに閲覧ツールを接続して、結果を表示します。
- O (出力): 結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。
- R (レポート): サマリーとプロットを含むモデルのサマリレポートを表示します。
- I (対話型): ズーム、ホバー、およびクリックを可能にするビジュアルをサポートする対話型ダッシュボードを表示します。
[ロジスティック回帰]ツールは、Oracle、Microsoft SQL Server 2016、およびTeradataのインデータベース処理をサポートします。 参照: インデータベースの概要 インデータベース内のサポートとツールの詳細については。
ロジスティック回帰ツールを別の in-db ツールを使用してキャンバスに配置すると、ツールは自動的に db 内バージョンに変更されます。 ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。 参照: 予測分析 データベース内の予測サポートの詳細については
関心のあるターゲットフィールドを含むインデータベースデータストリームを、1つ以上の可能性のある予測フィールドと共に接続します。
入力が SQL server またはデータベース内のデータストリームからのものである場合、Microsoft マシンラーニングサーバー rxLogit 関数 ( RevoScaleR パッケージから) がモデル推定に使用されます。 これにより、ローカルマシンとサーバーの両方が Microsoft machine ラーニングサーバーで構成されている限り、データベースサーバー上で処理を実行できるようになり、パフォーマンスが大幅に向上する可能性があります。
入力が oracle データベース内のデータストリームからのものである場合、OREmodels パッケージからの oracle R エンタープライズ鉱石 lm 関数がモデル推定に使用されます。 これにより、ローカルマシンとサーバーの両方がOracle R Enterpriseで構成されている限り、データベースサーバー上で処理が実行され、パフォーマンスが大幅に向上します。
Oracleデータベースのインデータベースワークフローの場合、[ロジスティック回帰]ツールが[接続(In-DB)]ツールから1つのフルテーブルを選択して直接接続されている場合、または、データベースに推定データテーブルを保存するために[線形回帰]ツールの直前で[書き込みデータ(In-DB)]ツールが使用される場合のみ、結果として生じるモデルオブジェクトダウンストリームの完全な機能が生じます。 Oracle R Enterpriseは、予測データ表を使用して、予測間隔の計算などの完全なモデルオブジェクト機能を提供します。
- モデル名: 後で識別できるように、各モデルに名前を指定する必要があります。 名前を提供するか、名前を自動的に生成させるかのいずれかを選択できます。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
- ターゲット変数を選択: 予測したいデータストリームからフィールドを選択します。
- 予測変数を選択: ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。
- モデル定数を省略する: モデルから定数を省略する場合は、この項目をチェックします。 これは相する明示的な理由がある場合に行う必要があります。
- oracle 固有のオプション: このオプションは、oracle プラットフォームにのみ関連する追加オプションの設定を可能にします。
- モデルタイプ: ターゲット変数の予測に使用するモデルのタイプを選択します。
- ロジット
- プロビット
- 相補log-log
- モデルをデータベースに保存する: 推定モデルオブジェクトがデータベースに保存されるようにし、モデルオブジェクトと推定テーブルが Oracle データベース内の一元的な場所に一緒に住むようにすることをお勧めします。
- モデル推定にサンプリングウェイトを使用する: このチェックボックスをオンにし、データストリームからウェイトフィールドを選択して、サンプリングウェイトを使用するモデルを推定します。 フィールドは予測と重み変数の両方として使用され、重み変数はモデルコールの出力に「Right_」という文字列が付加された形で表示されます。
- テラビット固有の構成: Microsoft マシンラーニングサーバーでは、使用する特定のテラデータプラットフォームに関する追加の構成情報 (特に、テラサーバ上の R のバイナリ実行可能ファイルへのパス、および場所) が必要です。Microsoft マシンラーニングサーバーによって使用される一時ファイルを書き込むことができます。 この情報は、Teradataのローカル管理者が提供する必要があります。
サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
各出力アンカーに閲覧ツールを接続して、結果を表示します。
- Oアンカー: 出力。 「結果」ウィンドウにオブジェクトのモデル名とサイズを表示します。
- Rアンカー: レポート。 要約とプロットを含むモデルの要約レポートを表示します。