クロスターム重回帰法

pirika.comで化学
>チャピエモン-3rd Pirika Origin (CPO)
> ハンセン溶解度パラメータ (HSP)
> 化学全般
>
情報化学  >物性化学 >高分子化学 >化学工学 >その他の化学 >昔のもの
>情報化学ツール >MAGICIAN養成講座 >STEAM
>Pirika ツール群
ブログ
業務案内
お問い合わせ

情報化学 > 情報化学ツール > 重回帰法 >クロスターム重回帰法

[1. 概要]

重回帰法は説明変数間に相互作用がある場合には精度の高い推算式は構築できない。
相互作用がどのくらい重要かについては一概には言えない。加味する相互作用の数を増やしていけば記述性能は高くなる(相関係数は高くなる)。化学系の推算式の構築で一番難しい点は、相互作用で推算値がおかしいのか、実験値の測定誤差なのか、実際に研究を行っている研究者以外には判断がつかない事だ。安易にクロスターム(CT)を導入すれば、推算式の予測性能はかえって悪くなる。

[2. クロスターム(CT)重回帰法のアルゴリズム]

ある説明変数2つの間に相互作用があるかどうかを調べるのは簡単である。説明変数が50種類あるのであれば、51番目の変数としてxi*xj (i, jは1−50)の列を入れる。
同じものの列を含め50*50種類の重回帰式を評価して相関係数の最も高くなるi,jを求めれば良い。相互作用の数を1以上にする場合にはいろいろな考え方が存在する。数多くの重回帰計算を行うので最小二乗法 (Ordinary Least Squares: OLS) をつかう。

  • 逐次法(相互作用を1つずつ増やす)
    相互作用の列を指定した数まで順番に増やしていく。説明変数に一番相関係数の高くなるxi*xj を加える。次には説明変数とxi*xj は固定して次に相関係数係数の高くなるペアを探索する。その際にすでに決定したxi*xj と元の説明変数との相互作用まで含めるかどうかは選択できる。計算自体は早いが、初期に選ばれたxi*xj が最後まで残ってしまう。特に、相互作用数を大きく指定した場合には、初期のペアが残り続けるのは好ましく無い事もある。
  • 一括法(自分の考える相互作用数を最初に指定する)
    説明変数が50個あれば、ペアの相互作用は50*50種ある。そこからn個を選び出すには2500Cnの組み合わせがある。非常に多くの組み合わせになるので遺伝的アルゴリズム法を使う。もとの説明変数とランダムに選んだn個の相互作用項を遺伝子に見立てる。多くの遺伝子を発生させ、適者生存の法則で相関係数が一番高くなる相互作用項の組みを特定する。nの数は慣れないと指定しにくい。逐次法でおおよその見当をつけ、最後に一括法で計算する。
  • 相互作用項のみの計算
    実験値から通常の重回帰による計算値を引く。差分の値のみを相互作用から評価する
    相互作用を一つずつ増やしながら相関係数の変化を検討する。

[3. CT重回帰法のプログラム]

このようなプログラムが世の中に存在するかどうかは不勉強で知らない。生成AIがコードを作る時代に世の中にあるかどうかを考えること自体意味がない。
山本の作ったプログラムはHSPiPソフトウエアー[*1]のQSARとPirika Pro[*3]に搭載されている。
山本が作ったYMB[*2]が作り出した識別子からCTを考慮して精度の高い推算式を構築することはMIの分野では一般的になってきている。

[4. CT重回帰法の応用]

計算速度の観点からCT重回帰法は、逆行列法とGauss-Jordan(Pivot)法を用いている。
クロスタームを導入すると言うことは、非線形性と相互作用性を重回帰法に導入すると言うことでもある。求まった重回帰係数は過学習を起こして予測性能が低い可能性がある。クロスタームをもとの説明変数に加え、GROVE法[*4]やLASSDGE法[*5]で係数最適化を図った方が良い。

[5. CT重回帰法の効果]

ガラスの誘電率推算法[*6]を例に選択されたクロスタームの意味を考察する。

図1 クロスターム導入の効果

図1に示すように通常の重回帰法[a]に比べ、クロスタームを20個導入した[b]は明らかに精度が高くなっている。

ペアfactor(*104)
Na2O*PbO-4.0 
Na2O*K2O-3.4 
ZnO*BaO-2.4 
PbO*CaO-2.4 
BaO*PbO-2.0 
K2O*PbO-1.7 
PbO*ZnO-1.2 
PbO*PbO-1.1 
B2O3*Bi2O31.0 
SiO2*Bi2O31.1 
K2O*K2O1.2 
K2O*B2O31.3 
SiO2*K2O1.8 
P2O5*CaO1.9 
K2O*MgO2.8 
Al2O3*Li2O3.3 
Na2O*Al2O35.0 
Na2O*Nb2O57.4 
ZnO*CdO32.3 
Li2O*TiO272.1 
表1 クロスタームで選ばれた酸化物ペアとそのファクター

クロスターム法で選ばれた酸化物ペアを表1に示す。
重回帰法とは、目的変数を複数の説明変数で表すことだ。

=α1x1+α2x2αnxn+Const.  αx物性 = α1*x1 + α2*x2 ・・・αn*xn + Const.   α:係数、x:説明変数

CT重回帰法は通常の重回帰式にクロスタームが加わる。

物性=α1*x1 +・・αn*xn -1.7E-4*K2O*PbO -1.2E-4*PbO*ZnO・・32.3E-4*ZnO*CdO +72.1E-4*Li2O*TiO2 +Const.

このクロスタームのファクターを見る事によって、非線形に誘電率を増減させるペアの理解が進む。PbOはどのペアでも誘電率を下げる。CaOはPbOとのペアでは誘電率を下げるが、P2O5とのペアでは誘電率を上げる。Li2O*TiO2は特異的に誘電率を高くする。
こうした酸化物ペアとファクターを得ることで、ガラスの組成を逆設計することが可能になる。
再構築学習法で求まったネットワークとCTで選ばれたペアの関係は再構築学習法ニューラルネットワーク[*7]に記載する。

[6. Pirika内リンク]

*1: HSPiPの概要
*2: YMBシミュレータ物性推算機能
*3: Pirikaツール群
*4 GROVE法
*5 LASSDGE法
*6 ガラスの誘電率の推算法
*7 再構築学習法ニューラルネットワーク

Copyright pirika.com since 1999- 
Mail: yamahiroXpirika.com (Xを@に置き換えてください) メールの件名は[pirika]で始めてください。