DGC(Dynamic Group Contribution)法

2025.7.9

pirika.comで化学
>チャピエモン-3rd Pirika Origin (CPO)
> ハンセン溶解度パラメータ (HSP)
> 化学全般
>
情報化学  >物性化学 >高分子化学 >化学工学 >その他の化学 >昔のもの
>情報化学ツール >MAGICIAN養成講座 >STEAM
>Pirika ツール群
ブログ
業務案内
お問い合わせ


情報化学ツール > 原子団寄与法>
原子団寄与法の基礎
Dynamic Group Contribution
 DGCの応用例
 DGCの原子団拡張

[1. 概要]

原子団寄与法(Group Contribution method)の問題点は切断することによる情報の欠落だ。CH3CH2CF2CF3とCH3CF2CH2CF3で原子団の数は同じになってしまう。物性値によってはこの違いはとても大きい。より大きな原子団を定義すれば解決できるが原子団を増やすと必要なデータ数も多くなる。原子団を増やさず結合情報を保つ、Joback法の改良法をDr. Jobackの来日記念講演会で発表した。用いた原子団はJoback法の原子団をベースにしたので、JBDGC(Joback Base Dynamic Group Contribution)と名付けた。JBDGC法は、CH3がどのような原子団と結合するかによってCH3の数え方をダイナミックに変える。JBDGCは原子団寄与法の良いところと、結合情報の保持を併せ持つ方法である。この方法を使うと、pKaや誘電率など結合情報が物性に影響を与える物性の推算精度を精度よく予測することができる。

JBDGC: Joback Base Dynamic Group Contribution

JOBACKの元の原子団に新たに19原子団(灰色)を加え、=NHを消去した。

どんなデータセットを使うにしてもJBDCGではこの59官能基を使う。実際には環の情報も使うので60だ。
172官能基と比べるととても少ない官能基で物性推算することになる。

JBDGC、Basicの計算

「The properties of Gases and Liquids 3rd 」という書籍には400化合物のデータが記載されている。これを原子団の数だけから重回帰計算を行う。

定期されている原子団の数が少なければ表現できる分子も少ない。アミド基が定義されていないと、C=O(ケトン)とNH(アミン)で表現するしかない。

JBDGC計算の1番目のオプション

JBDGCでは、メインの59原子団がどんな原子団と接続しているかを調べる。相手によって原子団の数え方を変える。相手によっては分子そのものになる。
CH3NH2の場合、CH3は0.9250個と数える。
結合相手、係数は解析したDataSetに依存する(Dynamicに変化してしまう)。

JBDGC計算の2番目のオプション

このオプションは、データセットの大きさに依存する。大きなDataSetに適用するとオプション2はあまり効かない。

JBDGC計算の3番目のオプション

オプション2まで使いテーブルが作成されている。そのテーブルに対して、各mainFGが相互作用していると仮定した時に、どのようなFGペアの効果が高いか探索する。

JBDGC法の全体像

見ようによっては1種のニューラルネットワークになるがニューロンの結合を強く制限することによって予測性能が飛躍的に向上させ、過学習を抑制する。

JBDGCを使った沸点推算

59官能基しか使っていないが、決定係数0.9937で沸点を推算することができる。
ただし、内部的には各FGの結合情報によって原子団の個数の数え方を変えているので、ある意味官能基を1000種以上定義したのと変わらないかもしれない。

JBDGCのFitting性能

一つの官能基は色々な分子で使われている。普通の原子団寄与法では、官能基のファクターは多くの分子での平均になる。結果として、例えばCH3(平均) + NH2(平均)のような単純な分子では誤差が大きくなる。

JBDGCでは結合相手によって官能基の数え方を変える。CH3-NH2ではCH3は0.925個
あると考える。

JBDGC予測性能

例えば、CH3-CH3という化合物がデータセットに無い場合、subFGにCH3は無い。その場合、Factorは1.0を使う。最悪予測性能は第一世代のJOBACK法と同じになる。

実験値があれば、簡単にファクターを決めることができる
BP(184.55K)= 123.8928*Factor(CH3_CH3)*2+…..*0….*0
Factor(CH3_CH3)=0.7448
既に出来上がったものに付け加えても良いし、あらたに計算し直しても良い。

JDDGCの精度

JBDGCの利点と欠点

あるFGにあるFGが結合している。相手によってもとの原子団の個数の数え方が変わる。フッ素が付いたときはどうかわるか? それがヨウ素だったら? 水酸基だったら? 結果を見ているだけで楽しい。

pKaをSmilesの構造式から推算する

今回(2025年)新たな適用例としてpKaのデータを解析してみた。
SMILESの構造式があれば、Jobackタイプの59種類(2014年バージョン)は自動的に生成できる。

原子団の数だけからpKaを推算すると、結果はとても悪いものであった。
誰が考えてもpKaを分割した原子団の数だけから推算できるとは思わないだろう。

結合相手によって個数の数え方を変える

DGCを使って原子団の数え方を変えても、ほとんど効果はない。
これはとても大事なポイントだ。

重回帰の係数を最適化(GROVE、LASSDGE)

通常の重回帰は二乗誤差を一番小さくするように動作する。
実験データが正しくない場合、誤差がとても大きくなる。その大きな誤差を小さくするように重回帰は動作する。
そこで実験データに誤差が含まれる場合には、通常の解析では正しい答えにならない。

pirikaのGROVE法では合うものはますます合うように、合わないものは大きく外れても許すので結果の解釈が容易になる。

メイン原子団同志の相互作用

さらにFG同志の相互作用を加味すると今まで困難であったpKaもかなり精度良く推算することができる。
これはR-CH(NH2)COOHのアミノ酸とNH2-CH2CH2-COOHを考えてみればわかるだろう。CHの数え方CH(NH2, COOH)で一つの炭素にアミンとカルボン酸が付くことの補正は行われる。NH2-CH2とCH2-COOHの補正は行われる。でも一つの分子にNH2とCOOHの両方を持った時にどうなるかは、原子団の数え方では補正できない。



Copyright pirika.com since 1999-
Mail: yamahiroXpirika.com (Xを@に置き換えてください)
メールの件名は[pirika]で始めてください。

そこでSMILESの構造式から自動的に官能基に分割するプログラムを作った。
データベースにはSMILESだけを持たせる。
分割はその時の最先端のもので行われる。

HSP関連の仕事を始め、最終的(2014年)に官能基数は172になった。それ以降データの種類は増えたが官能基数は増えていない。でも、その口頭発表だけだし、その後は話していない。たまたまS-Projectで結合情報が大事な物性値の推算が必要になって、昔やった気がしてHDをひっくり返していた。