線形回帰ツール

ツールごとに学習

線形回帰には、「ツールごとに学習」が用意されています。サンプルワークフローを参照して、このサンプルを含むさまざまなサンプルをAlteryx Designerで直接利用する方法をご確認ください。

線形回帰ツールは、値を推定するため、または線形関係に基づいて変数間の関係を評価するための、シンプルなモデルを作成します。

線形回帰の2つの主要なタイプは、非正則化と正則化です。

非正則化線形回帰は、トレーニングデータのターゲット変数の実際の値と予測値との間の二乗和誤差を最小にする線形モデルを生成します。
正則化線形回帰は、同じ二乗和誤差の最小化と、係数のサイズに対するペナルティ項とのバランスを取り、過学習を起こしにくいより単純なモデルを生成する傾向があります。

重要

このツールは、Designerでは自動的にインストールされません。使用するには、Alteryxライセンス&ダウンロードポータルからお使いのAlteryx DesignerのバージョンのAlteryx予測ツールセットをダウンロードしてインストールします。

詳細については、予測ツールセットのダウンロードと使用を参照してください。

線形回帰で使用されるRパッケージ

Rパッケージ	タイプ	パッケージの説明
AlteryxPredictive	カスタム	このパッケージはカスタム関数を提供し、CRANとカスタムRパッケージを呼び出します。
AlteryxRDataX	カスタム	このパッケージは、AlteryxとR間の接続機能や、AlteryxとR間の連携を容易にするための多数の機能を提供します。
AlteryxRviz	カスタム	このパッケージは廃止されています。Alteryx(時系列、ネットワーク分析)の予測ツールセットのインタラクティブな視覚化を実行する機能を提供します。
flightdeck	カスタム	このパッケージでは、予測モデルの出力をレポートするためのインタラクティブなダッシュボードを簡単に作成できます。

標準処理のためのツール設定

入力を接続

対象のターゲットフィールドと1つ以上の予測フィールドになり得るフィールドを含む、AlteryxデータストリームまたはXDFメタデータストリームを接続します。

注記

XDFはMRC/MMLS形式です。

入力データがAlteryxデータストリームから取り込まれた場合、オープンソースR lm関数およびglmnetとcv.glmnet関数(glmnetパッケージから)がモデル推定に使用されます。

入力データがXDF出力ツールまたはXDF入力ツールから取り込まれた場合、RevoScaleR rxLinMod関数がモデル推定に使用されます。Revo ScaleRベースの関数の使用には、大量の(メモリ外の)データセットを解析することができるというメリットがありますが、XDFファイルを作成するために追加のオーバーヘッドがかかり、オープンソースのR関数で利用可能なモデル診断出力の一部を作成できないというデメリットもあります。

ツールの設定

モデル名: モデルが他のツールで参照されているとき、そのモデルを識別するモデル名を入力します。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド(.)とアンダースコア(_)を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
ターゲット変数を選択: 予測するデータを選択します。ターゲット変数は、応答変数または従属変数とも呼ばれます。
予測変数を選択: ターゲット変数の値に影響を与えるために使用するデータを選択します。予測変数は、機能または独立変数とも呼ばれます。任意の数の予測変数を選択できますが、ターゲット変数は予測変数にしてはなりません。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。

[カスタマイズ]を選択し、モデル、クロスバリデーション、およびプロット設定を変更します。

モデルのカスタマイズ

モデル定数を省略する: 定数を省略し、最適な適合線が原点を通過するように選択します。
重み付き最小二乗に重み変数を使用する: 変数を選択して、最小二乗モデルを作成するときに各レコードに配置する重要度を決定します。
正則化回帰を使用する: 二乗和誤差の最小化と係数のサイズに関するペナルティ項のバランスをとるために選択し、より単純なモデルを生成します。
- アルファの値を入力: 係数に与えられた強調の量を測定するには、0(リッジ回帰)と1(ラッソ)間の値を選択します。
- 予測変数を標準化する: 使用するアルゴリズムに基づいて、すべての変数を同じサイズにする場合に選択します。
- クロスバリデーションを使用して、モデルのパラメーターを決定する: クロスバリデーションを実行し、さまざまなモデルパラメーターを取得する場合に選択します。
  - フォールド数: データを分ける折り畳みの数を選択します。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールが高速で実行されます。
  - モデルのタイプ: 係数を決定するモデルのタイプを選択します。
    より簡易なモデル
    より低いサンプル内二乗平均エラーがあるモデル
  - シードを設定: クロスバリデーションの再現性を確実にするために選択し、レコードを折り畳みに割り当てるために使用されるシードの値を選択します。ワークフローが実行されるたびに同じシードを選択すると、毎回同じレコードが同じ折り畳みになることが保証されます。値は正の整数でなければなりません。

クロスバリデーションのカスタマイズ

クロスバリデーションを使用して、モデル品質の推定を判断する: クロスバリデーションを実行して、さまざまなモデル品質メトリクスとグラフを取得する場合に選択します。一部のメトリックとグラフは静的なR出力に表示され、他のメトリックとグラフは相互作用I出力に表示されます。
- フォールド数: データを分ける折り畳みの数を選択します。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- トライアル数: クロスバリデーション手順を繰り返す回数を選択します。各試行において折り畳みが異なるように選択され、全体の結果はすべての試行にわたって平均化されます。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- シードを設定: クロスバリデーションの再現性を確実にするために選択し、レコードを折り畳みに割り当てるために使用されるシードの値を選択します。ワークフローが実行されるたびに同じシードを選択すると、毎回同じレコードが同じ折り畳みになることが保証されます。タイムスタンプは正の整数でなければなりません。

プロットのカスタマイズ

グラフの解像度: グラフの解像度を 1 インチあたりのドット数で選択します: 1x (96 dpi)、2x (192 dpi)、3x (288 dpi)
- 解像度を低くするとファイルサイズが小さくなり、モニターでの表示に最適です。
- 解像度を高くするとファイルサイズが大きくなり、印刷品質が向上します。
グラフを表示する: 正則化回帰を使用しているとき、グラフを表示する場合に選択します。

出力の表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

O (出力): 結果ウィンドウにオブジェクトのモデル名とサイズを表示します。
R (レポート): サマリーとプロットを含むモデルのサマリーレポートを表示します。
I (インタラクティブ): さらなるデータ検出とモデル探索をサポートするためのインタラクティブな視覚化のダッシュボードを表示します。

インデータベース処理のためのツール設定

線形回帰ツールは、Oracle、Microsoft SQL Server 2016、およびTeradataのインデータベース処理をサポートします。インデータベースのサポートとツールの詳細については、インデータベースの概要を参照してください。

線形回帰ツールが別のインデータベースツールと一緒にキャンバスに配置されると、ツールは自動的にインデータベースバージョンに変更されます。ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンを選択]をポイントして、別のバージョンのツールをクリックします。予測インデータベースのサポートについては、予測分析を参照してください。

入力を接続

関心のあるターゲットフィールドを含むインデータベースデータストリームを、1つ以上の可能性のある予測フィールドと共に接続します。

入力がSQL ServerまたはTeradataインデータベースのデータストリームに由来する場合、Microsoft Machine Learning ServerのrxLinMod関数(RevoScaleRパッケージから)がモデル推定に使用されます。これにより、ローカルマシンとサーバーの両方が Microsoft Machine Learning Server で設定されている場合、データベースサーバー上で処理が実行され、パフォーマンスが大幅に向上します。

入力がOracleのインデータベースデータストリームに由来する場合、(OREmodelsパッケージからの)Oracle R Enterpriseのore.lm関数がモデル推定に使用されます。これにより、ローカルマシンとサーバーの両方がOracle R Enterpriseで構成されている場合、データベースサーバー上で処理が実行され、パフォーマンスが大幅に向上します。

Oracleデータベースのインデータベースワークフローの場合、結果として生じるモデルオブジェクトが下流で完全な機能を発揮するには、線形回帰ツールが[接続In-DB]ツールから1つのフルテーブルを選択して直接接続されているか、または、データベースに推定データテーブルを保存するために[線形回帰]ツールの直前で[データ書込In-DB]ツールが使用されている必要があります。Oracle R Enterpriseは、予測データ表を使用して、予測間隔の計算などの完全なモデルオブジェクト機能を提供します。

設定

モデル名: 各モデルには後で識別できるように名前を付ける必要があります。名前を指定するか、名前を自動的に生成するかを選択できます。モデル名は文字で始まる必要があり、文字、数字、および特殊文字ピリオド(.)とアンダースコア(_)を含むことができます。その他の特殊文字は使用できず、またRは大文字と小文字を区別します。
ターゲット変数を選択: 予測するデータストリームからフィールドを選択します。
予測変数を選択: ターゲット変数の値が変更される「原因」と考えられるフィールドをデータストリームから選択します。サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、実行時の例外処理を引き起こす可能性があります。
モデル定数を省略する: モデルから定数を省略したい場合は、この項目にチェックマークを入れてください。これはそのようにする明示的な理由がある場合に行います。
モデル推定にサンプリング重み付けを使用する: チェックボックスをオンにしてデータストリームから重み付けフィールドを選択し、サンプリング重み付けを使用するモデルを推定します。フィールドは予測と重み変数の両方として使用され、重み変数はモデルコールの出力に「Right_」という文字列が付加された形で表示されます。
Oracle固有のオプション: このオプションを使用すると、Oracleプラットフォームにのみ関連する追加オプションを構成できます。
- モデルをデータベースに保存する: 選択すると、推定モデルオブジェクトがデータベースに保管されるようになり、推定テーブルとあわせてOracleデータベース内で一元管理できるようになるため、推奨される方法です。
Teradata固有の設定: Microsoft Machine Learning Serverは、使用する特定のTeradataプラットフォーム、特にRのバイナリ実行可能ファイルに対するTeradataサーバー上のパス、およびMicrosoft Machine Learning Serverで使用される一時ファイルが書き込まれる場所に関する追加の構成情報を必要とします。この情報は、Teradataのローカル管理者が提供する必要があります。

出力の表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

O (出力): 結果ウィンドウにオブジェクトのモデル名とサイズを表示します。
R (レポート): サマリーとプロットを含むモデルのサマリーレポートを表示します。

線形回帰ツール

線形回帰で使用されるRパッケージ

標準処理のためのツール設定

入力を接続

ツールの設定

モデルのカスタマイズ

クロスバリデーションのカスタマイズ

プロットのカスタマイズ

出力の表示

インデータベース処理のためのツール設定

入力を接続

設定

出力の表示

検索結果