Linear Regression Tool Icon

線形回帰ツール

Version:
Current
Last modified: May 02, 2020

線形回帰ツールは、単純なモデルを作成して値を推定したり、線形リレーションシップに基づいて変数間の関係を評価したりします。

線形回帰の2つの主なタイプは、非正規化と正規化です:

  • 非正規化線形回帰は、訓練データターゲット変数の実際の値と予測値との間の誤差の平方和を最小にする線形モデルを生成します。
  • 正規化線形回帰は、係数のサイズに対するペナルティ項による二乗誤差の合計の同じ最小化をバランスさせ、オーバーフィット回避になりにくいモデルを生成する傾向があります。

このツールはRツールを使用します。オプション > 予測ツールのダウンロードに移動し、Alteryx ダウンロードとライセンスポータルにサインインして、R ツールで使用されるパッケージと R ツールをインストールします。参照: 予測ツールのダウンロードとご使用

線形回帰で使用される R パッケージ

R パッケージ データ型 パッケージの説明
AlteryxPredictive カスタム このパッケージはカスタム関数を提供し、クランとカスタム R パッケージを呼び出します。
AlteryxRDataX カスタム 本パッケージは、Alteryx と r 間の相互作用を容易にするために、Alteryx と r との間の接続性と多数の機能を提供します。
AlteryxRviz カスタム このパッケージは廃止されています。Alteryx (時系列、ネットワーク分析) の予測ツールの対話型の視覚化機能を作動させる機能を提供します。
flightdeck カスタム このパッケージを使用すると、予測モデルの出力をレポートするための対話型ダッシュボードを簡単に作成できます。

標準処理のためのツールを構成する

入力を接続する

1つ以上の可能性のある予測フィールドと共に、関心のあるターゲットフィールドを含むAlteryxデータストリームまたはXDFメタデータストリームを接続します。

XDF は MRC/MMLS フォーマットです。

入力データが Alteryx データストリームからのものである場合、モデル推定には、オープンソースの R lm 関数と glmnet と glmnet 関数 ( glmnet パッケージから) が使用されます。

入力データがXDF 出力ツールまたは XDF 入力ツールのいずれかである場合モデル推定には RevoScaleR rxLinMod 関数が使用されます。Revo ScaleRベースの関数の使用には、大量の(メモリ不足の)データセットを解析することができるというメリットがありますが、XDFファイルを作成するために追加のオーバーヘッドがかかり、オープンソースのR関数で利用可能なモデル診断出力の一部を作成できないというデメリットもあります。

ツールを設定する

  • モデル名: 他のツールで参照されているモデルを識別するモデルの名前を入力します。モデル名は文字で始まり、文字、数字、および特殊文字ピリオド(.)と下線(_)を含む必要があります。その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲット変数を選択: 予測するデータを選択します。ターゲット変数は、応答変数または従属変数とも呼ばれます。
  • 予測変数を選択: ターゲット変数の値に影響を与えるために使用するデータを選択します。予測変数は、機能または独立変数とも呼ばれます。任意の数の予測変数を選択できますが、ターゲット変数も予測変数にしてはなりません。
    サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。

[カスタマイズ]クリックして、[モデル]、[クロス検証]、および [印刷] の設定を変更します。

モデルをカスタマイズする

  • モデル定数を省略する: 定数を省略し、原点を通過する最適な適合線を持つ場合に選択します。
  • 重み付き最小二乗法に重み変数を使用する: 最小二乗モデルを作成するときに各レコードに配置する重要度を決定する変数を選択します。
  • 正規化回帰の使用: 係数のサイズに対するペナルティ項で、二乗誤差の合計の最小化のバランスをとり、より単純なモデルを生成するように選択します。
    • アルファ値を入力: 0 (リッジ回帰) から 1 (なげなわ) までの値を選択し、係数に与えられる強調の量を測定します。
    • 予測変数の標準化: 使用するアルゴリズムに基づいて、すべての変数を同じサイズにすることを選択します。
    • クロス検証を使用してモデルパラメータを決定する: クロス検証を実行し、さまざまなモデルパラメータを取得する場合に選択します。
      • フォールド数: データを分割するフォールドの数を選択します。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
      • モデルのタイプ: 係数を決定するモデルのタイプを選択します。
        • より簡易なモデル
        • より低いサンプル標準誤差があるモデル
      • シードの設定: クロス検証の再現性を確保し、レコードを折り目に割り当てるために使用するシードの値を選択します。ワークフローが実行されるたびに同じシードを選択すると、毎回同じレコードが同じ折り畳みになることが保証されます。値は正の整数でなければなりません。

クロス確認のカスタマイズ

  • クロス検証を使用してモデル品質の見積もりを決定する: クロス検証を実行し、さまざまなモデル品質のメトリックスとグラフを取得する場合に選択します。一部のメトリックとグラフは静的なR出力に表示され、他のメトリックとグラフは相互作用I出力に表示されます。
    • フォールド数: データを分割するフォールドの数を選択します。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
    • 試行回数: クロス検証手順を繰り返す回数を選択します。各試行において折り畳みが異なるように選択され、全体の結果はすべての試行にわたって平均化されます。折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
    • シードの設定: クロス検証の再現性を確保し、レコードを折り目に割り当てるために使用するシードの値を選択します。ワークフローが実行されるたびに同じシードを選択すると、毎回同じレコードが同じ折り畳みになることが保証されます。値は正の整数でなければなりません。

プロットをカスタマイズする

  • グラフ解像度 : グラフの解像度を1インチあたりのドット数: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) で選択します。解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
  • グラフの表示: 正規化回帰を使用する場合は、グラフを表示する場合に選択します。

出力を表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • O (出力): 結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。
  • R (レポート): サマリーとプロットを含むモデルのサマリレポートを表示します。
  • 私は(対話型): 対話型ビジュアライゼーションのダッシュボードを表示し、さらなるデータ探索とモデル探索をサポートします。

インデータベース処理のためのツールの設定

[線形回帰]ツールは、Oracle、Microsoft SQL Server 2016、およびTeradataのインデータベース処理をサポートします。In-DB のサポートとツールの詳細については、In-DB の概要を参照してください。

[線形回帰]ツールがキャンバス上に別の[In-DB]ツールを使用して配置されると、ツールはIn-DBバージョンに自動的に変更されます。ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。予測 In-DB のサポートの詳細については、予測分析を参照してください。

入力を接続する

関心のあるターゲットフィールドを含むインデータベースデータストリームを、1つ以上の可能性のある予測フィールドと共に接続します。

入力が SQL server またはデータベース内のデータストリームからのものである場合、Microsoft マシンラーニングサーバー rxLinMod 関数 ( RevoScaleR パッケージから) がモデル推定に使用されます。これにより、ローカルマシンとサーバーの両方が Microsoft machine ラーニングサーバーで構成されている限り、データベースサーバー上で処理を実行できるようになり、パフォーマンスが大幅に向上する可能性があります。

入力がOracleデータベース内データストリームからの場合、Oracle R Enterprise ore.lm関数(OREmodelsパッケージから)がモデル推定に使用されます。これにより、ローカル・マシンとサーバの両方が Oracle R Enterprise で構成されている限り、データベース・サーバー上で処理を実行でき、パフォーマンスが大幅に向上する可能性があります。

Oracle データベース内のデータベース内ワークフローの場合、結果のモデル オブジェクトダウンストリームの完全な機能は、線形回帰ツールが単一のフル テーブルが選択された Connect In-DB ツールから直接接続されている場合、またはデータイン DB の書き込みツールが線形回帰ツールの直前に使用され、推定データ テーブルをデータベースに保存します。Oracle R Enterpriseは、予測データ表を使用して、予測間隔の計算などの完全なモデルオブジェクト機能を提供します。

設定

  • モデル名: 後で識別できるように、各モデルに名前を指定する必要があります。名前を提供するか、名前を自動的に生成させるかのいずれかを選択できます。モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
  • ターゲット変数を選択: 予測したいデータストリームからフィールドを選択します。
  • 予測変数を選択: ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。
    サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
  • モデル定数を省略する: モデルから定数を省略する場合は、この項目をチェックします。これは相する明示的な理由がある場合に行う必要があります。
  • モデル推定にサンプリングウェイトを使用する: このチェックボックスをオンにし、データストリームからウェイトフィールドを選択して、サンプリングウェイトを使用するモデルを推定します。フィールドは予測と重み変数の両方として使用され、重み変数はモデルコールの出力に「Right_」という文字列が付加された形で表示されます。
  • oracle 固有のオプション: このオプションは、oracle プラットフォームにのみ関連する追加オプションの設定を可能にします。
    • モデルをデータベースに保存する: 推定モデルオブジェクトがデータベースに保存されるようにし、モデルオブジェクトと推定テーブルが Oracle データベース内の一元的な場所に一緒に住むようにすることをお勧めします。
  • テラビット固有の構成: Microsoft マシンラーニングサーバーでは、使用する特定のテラデータプラットフォームに関する追加の構成情報 (特に、テラサーバ上の R のバイナリ実行可能ファイルへのパス、および場所) が必要です。Microsoft マシンラーニングサーバーによって使用される一時ファイルを書き込むことができます。この情報は、Teradataのローカル管理者が提供する必要があります。

出力を表示

各出力アンカーに閲覧ツールを接続して、結果を表示します。

  • O (出力): 結果ウィンドウにオブジェクトのモデル名とサイズが表示されます。
  • R (レポート): サマリーとプロットを含むモデルのサマリレポートを表示します。
Was This Helpful?

Running into problems or issues with your Alteryx product? Visit the Alteryx Community or contact support.