
線形回帰ツール
線形回帰ツールは、単純なモデルを作成して値を推定したり、線形リレーションシップに基づいて変数間の関係を評価したりします。
線形回帰の 2 つの主な種類は、非規則化および正規化です。
- 非正規化線形回帰は、訓練データターゲット変数の実際の値と予測値との間の誤差の平方和を最小にする線形モデルを生成します。
- 正規化線形回帰は、係数のサイズに対するペナルティ項による二乗誤差の合計の同じ最小化をバランスさせ、オーバーフィット回避になりにくいモデルを生成する傾向があります。
このツールはRツールを使用します。 オプション > 予測ツールをダウンロード の順に進み、Alteryx Downloads and Licenses ポータルにサインインして、R と R ツール で使用されるパッケージをインストールします。 参照: 予測ツールのダウンロードとご利用
線形回帰で使用される R パッケージ
R パッケージ | 種類 | パッケージの説明 |
---|---|---|
AlteryxPredictive | カスタム | このパッケージはカスタム関数を提供し、クランとカスタム R パッケージを呼び出します。 |
AlteryxRDataX | カスタム | 本パッケージは、Alteryx と r 間の相互作用を容易にするために、Alteryx と r との間の接続性と多数の機能を提供します。 |
AlteryxRviz | カスタム | このパッケージは廃止されています。 Alteryx (時系列、ネットワーク分析) の予測ツールの対話型の視覚化機能を作動させる機能を提供します。 |
flightdeck | カスタム | このパッケージを使用すると、予測モデルの出力をレポートするための対話型ダッシュボードを簡単に作成できます。 |
標準処理用のツールの構成
入力を接続する
1つ以上の可能性のある予測フィールドと共に、関心のあるターゲットフィールドを含むAlteryxデータストリームまたはXDFメタデータストリームを接続します。
XDF は MRC/MMLS 形式です。
入力データが Alteryx データ ストリームからのデータである場合、モデル推定には、オープン ソースの R lm 関数 と glmnet 関数と cv.glmnet 関数 (glmnet パッケージから) が使用されます。
入力データが XDF 出力ツール または XDF 入力ツールから取得される場合、モデル推定には RevoScaleR rxLinMod 関数が使用されます。 Revo ScaleRベースの関数の使用には、大量の(メモリ不足の)データセットを解析することができるというメリットがありますが、XDFファイルを作成するために追加のオーバーヘッドがかかり、オープンソースのR関数で利用可能なモデル診断出力の一部を作成できないというデメリットもあります。
ツール設定
- モデル名: モデルが他のツールで参照されたときにモデルを識別する名前を入力します。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド(.)と下線(_)を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
- ターゲット変数を選択: 予測するデータを選択します。 ターゲット変数は、応答変数または従属変数とも呼ばれます。
- 予測変数を選択: ターゲット変数の値に影響を与えるために使用するデータを選択します。 予測変数は、機能または独立変数とも呼ばれます。 任意の数の予測変数を選択できますが、ターゲット変数も予測変数にしてはなりません。 サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
[カスタマイズ] を選択して、[ モデル]、[ クロス検証]、[ 印刷] の各設定を変更します。
モデルのカスタマイズ
- モデル定数を省略する: 定数を省略し、原点を通る最適な線を使用します。
- 重み付け最小二乗の重み変数を使用する: 最小二乗モデルを作成する際に各レコードに配置する重要度を決定する変数を選択します。
- 正規化回帰を使用: 係数のサイズに対するペナルティ項を持つ平方誤差の合計の同じ最小化と、より単純なモデルを生成する場合に選択します。
- αの値を入力: 係数に与えられた強調の量を測定するために0(リッジ回帰)と1(投げ縄)の間の値を選択します。
- 予測変数の標準化: 使用するアルゴリズムに基づいてすべての変数を同じサイズにする場合に選択します。
- クロス検証を使用してモデル パラメータを決定する : クロス検証を実行し、さまざまなモデル パラメータを取得する場合に選択します。
- 折り目の数: データを分割する折り返しの数を選択します。 折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- モデルの種類: 係数を決定するモデルのタイプを選択します。
- より単純なモデル
- より低いサンプル標準誤差があるモデル
- シードの設定: クロス検証の再現性を確保し、レコードをフォールドに割り当てるシードの値を選択します。 ワークフローが実行されるたびに同じシードを選択すると、毎回同じレコードが同じ折り畳みになることが保証されます。 タイムスタンプは正の整数でなければなりません。
クロス検証のカスタマイズ
- クロス検証を使用してモデル品質の推定値を決定する: クロス検証を実行し、さまざまなモデル品質メトリックとグラフを取得する場合に選択します。 一部のメトリックとグラフは静的なR出力に表示され、他のメトリックとグラフは相互作用I出力に表示されます。
- 折り目の数: データを分割する折り返しの数を選択します。 折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- 試行回数: クロス検証手順を繰り返す回数を選択します。 各試行において折り畳みが異なるように選択され、全体の結果はすべての試行にわたって平均化されます。 折り畳み数が多いほどモデルの品質はより強固に推定されますが、折り畳みが少ない方がツールは高速に実行されます。
- シードの設定: クロス検証の再現性を確保し、レコードをフォールドに割り当てるシードの値を選択します。 ワークフローが実行されるたびに同じシードを選択すると、毎回同じレコードが同じ折り畳みになることが保証されます。 タイムスタンプは正の整数でなければなりません。
プロットのカスタマイズ
- グラフ解像度: 1x (96 dpi)、2x (192 dpi)、または 3x (288 dpi) の点/インチでグラフの解像度を選択します。
- 解像度を低くするとファイルサイズが小さくなり、モニタでの表示に最適です。
- 解像度を高くするとファイルサイズが大きくなり、印刷品質は向上します。
- グラフの表示: 正規化回帰を使用する場合にグラフを表示する場合に選択します。
出力の表示
各出力アンカーに閲覧ツールを接続して、結果を表示します。
- O( 出力):結果ウィンドウにオブジェクトのモデル名とサイズを表示します。
- R (レポート): 集計とプロットを含むモデルのサマリー レポートを表示します。
- I (対話型): さらにデータ探索とモデル探索をサポートする対話型の視覚エフェクトのダッシュボードを表示します。
データベース内処理用ツールの構成
[線形回帰]ツールは、Oracle、Microsoft SQL Server 2016、およびTeradataのインデータベース処理をサポートします。 データベース内サポートとツールの詳細については、「データベース内の概要」を参照してください。
[線形回帰]ツールがキャンバス上に別の[In-DB]ツールを使用して配置されると、ツールはIn-DBバージョンに自動的に変更されます。 ツールのバージョンを変更するには、ツールを右クリックし、[ツールバージョンの選択]をポイントして、別のバージョンのツールをクリックします。 データベース内の予測サポートの詳細については、「予測分析」をご参照ください。
入力を接続する
関心のあるターゲットフィールドを含むインデータベースデータストリームを、1つ以上の可能性のある予測フィールドと共に接続します。
入力が SQL Server またはデータベース内の Teradata データ ストリームからの入力である場合、モデル推定に Microsoft マシン ラーニング サーバー rxLinMod 関数 (RevoScaleR パッケージから) が使用されます。 これにより、ローカル マシンとサーバーの両方が Microsoft Machine Learning Server で構成されている限り、データベース サーバーで処理を実行でき、パフォーマンスが大幅に向上します。
Oracle データベース内データ ストリームからの入力の場合は、モデル推定に Oracle R エンタープライズ ore.lm 関数 (OREmodels パッケージから) が使用されます。 これにより、ローカル マシンとサーバーの両方が Oracle R Enterprise で構成されている限り、データベース サーバ上で処理を実行でき、パフォーマンスが大幅に向上します。
Oracle データベース内のデータベース内ワークフローの場合、結果のモデル オブジェクトダウンストリームの完全な機能は、線形回帰ツールが単一のフル テーブルが選択された Connect In-DB ツールから直接接続されている場合、またはデータイン DB の書き込みツールが線形回帰ツールの直前に使用され、推定データ テーブルをデータベースに保存します。 Oracle R Enterpriseは、予測データ表を使用して、予測間隔の計算などの完全なモデルオブジェクト機能を提供します。
設定
- モデル名: 後で識別できるように、各モデルに名前を指定する必要があります。 選択は、名前を指定するか、名前を自動的に生成することです。 モデル名は文字で始まり、文字、数字、および特殊文字ピリオド( ".")とアンダースコア( "_")を含む必要があります。 その他の特殊文字は使用できず、Rは大文字と小文字を区別します。
- ターゲット変数を選択: 予測したいデータストリームからフィールドを選択します。
- 予測変数を選択: ターゲット変数の値が "原因" であると考えられるデータストリームのフィールドを選択します。 サロゲート主キーやナチュラル主キーなどの固有識別子を含む列は、統計分析で使用しないでください。 これらの列は予測値がなく、ランタイム系例外を引き起こす可能性があります。
- モデル定数を省略する: モデルから定数を省略する場合は、この項目をチェックします。 これは相する明示的な理由がある場合に行う必要があります。
- モデル推定にサンプリングウェイトを使用する: チェックボックスをオンにして、データストリームからウェイトフィールドを選択し、サンプリングウェイトを使用するモデルを推定します。 フィールドは予測と重み変数の両方として使用され、重み変数はモデルコールの出力に「Right_」という文字列が付加された形で表示されます。
- Oracle固有のオプション: このオプションを使用すると、Oracleプラットフォームにのみ関連する追加オプションを構成できます。
- モデルをデータベースに保存する : 推定モデル オブジェクトをデータベースに保存し、モデル オブジェクトと推定テーブルが Oracle データベースの一元的な場所に配置されるようにすることをお勧めします。
- Teradata 固有の構成: Microsoft 機械学習サーバーには、使用する Teradata プラットフォームに関する追加の構成情報が必要です 。 この情報は、Teradataのローカル管理者が提供する必要があります。
出力の表示
各出力アンカーに閲覧ツールを接続して、結果を表示します。
- O( 出力):結果ウィンドウにオブジェクトのモデル名とサイズを表示します。
- R (レポート): 集計とプロットを含むモデルのサマリー レポートを表示します。