重回帰法

pirika.comで化学
>チャピエモン-3rd Pirika Origin (CPO)
> ハンセン溶解度パラメータ (HSP)
> 化学全般
>
情報化学  >物性化学 >高分子化学 >化学工学 >その他の化学 >昔のもの
>情報化学ツール >MAGICIAN養成講座 >STEAM
>Pirika ツール群
ブログ
業務案内
お問い合わせ

情報化学 > 情報化学ツール > 重回帰法

[1. 概要]

重回帰法とは、目的変数を複数の説明変数で表すことだ。

=α1x1+α2x2αnxn+Const.  αx物性 = α1*x1 + α2*x2 ・・・αn*xn + Const.   α:係数、x:説明変数

化学の分野では古くから原子団寄与法[*1, *2]を使った低分子の物性推算法[*3]があった。ガラスの物性値を構成する酸化物のmol%から推算するAppen法[*11]やポリマーの物性を推算するVan Krevelen法[*4]があった。原子団の種類、酸化物の種類などの説明変数から分子の物性、ガラス物性などの目的変数が推算される。式の意味は明快だ。どの原子団がどれだけ沸点を上昇させるか、屈折率を上げる酸化物はどれか、を定量的に理解できる。重回帰法の計算アルゴリズムとしては、最小二乗法 (Ordinary Least Squares: OLS) 勾配降下法 (Gradient Descent)が一般的だ。

[2. 重回帰法の問題点]

  • 多重共線性[*10]:
    入力された「説明変数間に極めて高い相関がある場合には共線性の問題」が出てくるので、重回帰法では解けない[*1]。「ある2つの説明変数の線形和が、別の線形和とほぼ等しい」という言い方もある。極めてとかほぼとか曖昧な定義になる。そこで注意していても多重共線性に引っかかり、正しいモデルが構築できない事がある。特に処方設計の際には一つの成分を他の成分で置き換え、その総和が100であるので多重共線性が現れやすい。多重共線性が出る系では主成分分析[*5]やPLS解析[*6]を行うように言う教科書があるが、式の意味の明快性は失われる。
  • 非線形性を記述できない:
    原子団寄与法で沸点の推算[*1]を行おうとする。CH2という原子団は何度も使われている。平均的な係数(α)は重回帰計算で求まる。しかし現実的には分子が大きい時の係数と小さい時の係数は同一ではない。非線形性を導入しない単純な重回帰法では精度の高い予測式は得られない。目的変数、説明変数のlogやルートをとる。1/変数を取る。これは重回帰法に非線形性を導入する最も簡単な方法である。
  • 説明変数間に相互作用がある場合:
    単純な重回帰法は説明変数間に相互作用が無い事を前提にしている。そこで式の意味が明瞭になる特徴を持つ。しかし物性によっては、アミノ基(NH2)とカルボキシル基(COOH)を両方持つ化合物や、TiO2とLi2Oを両方持つガラスの物性など説明変数間に強い相互作用がある場合がある。
  • 過学習・予測性の欠如
    もとのデータ・セットの構造にも強く依存する。利用頻度の少ない説明変数で過学習を起こす事がある。つまり、他の説明変数だけで計算された値と目的変数の差分を頻度の少ない説明変数の係数に押し込んでしまう。過学習を起こし、見掛けの記述性は非常に高くなるが予測性能は低くなる。

[3. Pirikaが提供する重回帰法]

普通の重回帰法であればExcelの分析ツールにも搭載されている。ソルバーを使えば勾配降下法も使う事ができる。多くのフリーウエアーも利用できる。
先にこんな事がしたいがあればいくらでも生成AIがプログラミングをやってくれる。
pirikaのものはPirika Pro for MI[*8]に搭載している。

  • クロスターム重回帰法
    クロスターム(CT)重回帰の計算法としては、逆行列法とGauss-Jordan(Pivot)法を使っている。重回帰法は目的変数と複数の説明変数の組みを解析する。この説明変数ペアに目的変数を大きく変える相互作用が存在する事がある。クロスタームの特定には遺伝的アルゴリズム(GA)法を使う。
  • 変数選択重回帰法
    変数選択重回帰法の計算方法は逆行列法やGauss-Jordan(Pivot)法を使う。多くの識別子の中から重要な識別子を特定する解析法になる。逐次法と遺伝的アルゴリズム(GA)法がある。
  • GROVE法
    勾配降下法 (Gradient Descent)法を使った重回帰法だ。GROVE とはGene-based Regression Offering Valuable Equationsの略だ 学生に作ってもらった。
  • LASSDGE法
    ラッソ回帰 (Lasso Regression): 罰則項(L1正則化)を加え、不要な説明変数の係数を0にすることでモデルの選択を行う手法[*9]。
    リッジ回帰 (Ridge Regression): 最小二乗法に罰則項(L2正則化)を加え、係数が大きくならないように調整し、過学習を防ぐ手法[*9]。
    この方法を使うと教師値と推算値の誤差も減らし、回帰係数の最適化も図られる。Lasso係数、Ridge係数の設定は難しい。そこで、まずはGROVE法を用いて誤差を小さくした後にLasso係数、Ridge係数を入れ最適化する。
    イメージ的に言うと、教師値と推算値の相関係数を多少悪くしても、重相関係数を合理的にしたい。多少とか合理的とかは研究者の主観に依存してしまう。AIにはその感覚が理解できないので人間の研究者の独自性を出せる研究になる。

[4. 重回帰法の利用分野]

[5. Pirika内リンク]

*1: 原子団寄与法を使った物性推算
*2: 原子団寄与法を再定義する
*3: 物性推算法基礎
*4: ポリマー物性の推算
*5: Web版主成分分析(PCA)法の解説
*6: Web版PLS計算方法
*7: 配合処方設計
*8: Pirikaツール群
*9: リッジ回帰とLasso回帰をOffice Scriptで
*10 多重共線性
*11 拡張Appen式によるガラス物性推算法

Copyright pirika.com since 1999- 
Mail: yamahiroXpirika.com (Xを@に置き換えてください) メールの件名は[pirika]で始めてください。