重回帰法 – http://www.pirika.com/wp/

pirika.comで化学
>チャピエモン-3rd Pirika Origin (CPO)
> ハンセン溶解度パラメータ (HSP)
> 化学全般
> 情報化学 　>物性化学　>高分子化学　>化学工学　>その他の化学　>昔のもの
>情報化学ツール　>MAGICIAN養成講座　>STEAM
>Pirika ツール群
ブログ
 業務案内
 お問い合わせ

情報化学 > 情報化学ツール >　重回帰法

[1. 概要]

重回帰法とは、目的変数を複数の説明変数で表すことだ。

物性 = α1*x1 + α2*x2 ・・・αn*xn + Const.　　 α：係数、x：説明変数

化学の分野では古くから原子団寄与法[*1, *2]を使った低分子の物性推算法[*3]があった。ガラスの物性値を構成する酸化物のmol%から推算するAppen法[*11]やポリマーの物性を推算するVan Krevelen法[*4]があった。原子団の種類、酸化物の種類などの説明変数から分子の物性、ガラス物性などの目的変数が推算される。式の意味は明快だ。どの原子団がどれだけ沸点を上昇させるか、屈折率を上げる酸化物はどれか、を定量的に理解できる。重回帰法の計算アルゴリズムとしては、最小二乗法 (Ordinary Least Squares: OLS) と勾配降下法 (Gradient Descent)が一般的だ。

[2. 重回帰法の問題点]

多重共線性[*10]：
入力された「説明変数間に極めて高い相関がある場合には共線性の問題」が出てくるので、重回帰法では解けない[*1]。「ある2つの説明変数の線形和が、別の線形和とほぼ等しい」という言い方もある。極めてとかほぼとか曖昧な定義になる。そこで注意していても多重共線性に引っかかり、正しいモデルが構築できない事がある。特に処方設計の際には一つの成分を他の成分で置き換え、その総和が100であるので多重共線性が現れやすい。多重共線性が出る系では主成分分析[*5]やPLS解析[*6]を行うように言う教科書があるが、式の意味の明快性は失われる。
非線形性を記述できない：
原子団寄与法で沸点の推算[*1]を行おうとする。CH2という原子団は何度も使われている。平均的な係数(α)は重回帰計算で求まる。しかし現実的には分子が大きい時の係数と小さい時の係数は同一ではない。非線形性を導入しない単純な重回帰法では精度の高い予測式は得られない。目的変数、説明変数のlogやルートをとる。1/変数を取る。これは重回帰法に非線形性を導入する最も簡単な方法である。
説明変数間に相互作用がある場合：
単純な重回帰法は説明変数間に相互作用が無い事を前提にしている。そこで式の意味が明瞭になる特徴を持つ。しかし物性によっては、アミノ基(NH2)とカルボキシル基(COOH)を両方持つ化合物や、TiO2とLi2Oを両方持つガラスの物性など説明変数間に強い相互作用がある場合がある。
過学習・予測性の欠如
もとのデータ・セットの構造にも強く依存する。利用頻度の少ない説明変数で過学習を起こす事がある。つまり、他の説明変数だけで計算された値と目的変数の差分を頻度の少ない説明変数の係数に押し込んでしまう。過学習を起こし、見掛けの記述性は非常に高くなるが予測性能は低くなる。

[3. Pirikaが提供する重回帰法]

普通の重回帰法であればExcelの分析ツールにも搭載されている。ソルバーを使えば勾配降下法も使う事ができる。多くのフリーウエアーも利用できる。
先にこんな事がしたいがあればいくらでも生成AIがプログラミングをやってくれる。
pirikaのものはPirika Pro for MI[*8]に搭載している。

クロスターム重回帰法
クロスターム(CT)重回帰の計算法としては、逆行列法とGauss-Jordan(Pivot)法を使っている。重回帰法は目的変数と複数の説明変数の組みを解析する。この説明変数ペアに目的変数を大きく変える相互作用が存在する事がある。クロスタームの特定には遺伝的アルゴリズム(GA)法を使う。
変数選択重回帰法
変数選択重回帰法の計算方法は逆行列法やGauss-Jordan(Pivot)法を使う。多くの識別子の中から重要な識別子を特定する解析法になる。逐次法と遺伝的アルゴリズム(GA)法がある。
GROVE法
遺伝的アルゴリズム(GA)法を使った重回帰法だ。GROVE とはGene-based Regression Offering Valuable Equationsの略だ　学生に作ってもらった。
教師データに誤差が含まれる場合、勾配自体に誤差が生じ正しい係数が求まらないことがある。誤差を戻さないフィードフォワード法の方がデータのクレンジング性能は高い。
LASSDGE法
ラッソ回帰 (Lasso Regression): 罰則項（L1正則化）を加え、不要な説明変数の係数を0にすることでモデルの選択を行う手法[*9]。
リッジ回帰 (Ridge Regression): 最小二乗法に罰則項（L2正則化）を加え、係数が大きくならないように調整し、過学習を防ぐ手法[*9]。
この方法を使うと教師値と推算値の誤差も減らし、回帰係数の最適化も図られる。Lassoλ係数、Ridgeλ係数の設定は難しい。そこで、まずはGROVE法を用いて誤差を小さくした後にLasso、Ridgeλ係数を入れ最適化する。
イメージ的に言うと、教師値と推算値の相関係数を多少悪くしても、重相関係数を合理的にしたい。多少とか合理的とかは研究者の主観に依存してしまう。AIにはその感覚が理解できないので人間の研究者の独自性を出せる研究になる。

[4. 遺伝的アルゴリズム(GA)法を使う事のメリット]

分子量を原子団の数から求めたい場合、原子団の係数は構成する原子の原子量の和になってほしい。定数はゼロであるべきだ。化学には化学特有の制限がある。反応収率は0％以下も100％以上もない。重回帰法の計算結果が化学の制限を超えてはならない。重回帰の解法が逆行列法やGauss-Jordan(Pivot)法であった場合、制限を加えるのは難しい。遺伝的アルゴリズム法は重回帰の係数を遺伝子とみなす。

No	f1	f2	・・・	fn
Gene-1	α11	α21	・・・	αn1
・	・	・	・・・	・
Gene-m	α1m	α2m	・・・	αnm

原子団の数(n)だけ重回帰係数(α1-αn)を発生させる。これを遺伝子とみなす。この遺伝子(gene)をm個作る。各Geneを使って重回帰計算を行う。教師データと計算値の差分のトータルが各Geneの評価になる。差分に２乗誤差を使うか、絶対値誤差を使うかは自由に設定できる。係数が負になったら評価値を下げる事も簡単だ。上限、下限設定も簡単に行える。ラッソ回帰、リッジ回帰の罰則項も簡単に導入できる。
計算には時間がかかるが、得られた重回帰係数の有用性は桁違いだ。

[5. Pirika内リンク]

*1: 原子団寄与法を使った物性推算
*2: 原子団寄与法を再定義するDGC(Dynamic Group Contribution)法
*3: 物性推算法基礎
*4: ポリマー物性の推算
*5: Web版主成分分析(PCA)法の解説
*6: Web版PLS計算方法
*7: 配合処方設計
*8: Pirikaツール群
*9: リッジ回帰とLasso回帰をOffice Scriptで
*10 多重共線性
*11 拡張Appen式によるガラス物性推算法

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

[1. 概要]

[2. 重回帰法の問題点]

[3. Pirikaが提供する重回帰法]

[4. 遺伝的アルゴリズム(GA)法を使う事のメリット]

[5. Pirika内リンク]

共有: