2025.7.9
pirika.comで化学 > 化学全般
> 次世代HSP2, YMB Pro for MI > 原子団寄与法を再定義する
> ハンセン溶解度パラメータ (HSP) Doc
注意:HSPiPの機能ではありません
原子団寄与法の官能基
これまでに色々な物性推算式を構築してきた。
書籍や論文にも色々な原子団を使ったパラメータが公開されている。
その官能基セットは著者独自のものであるし、分子を官能基セット向けに分割するプログラムを作るのは、実はめんどくさい。

当初はJoback法で使われていた原子団40に継ぎ足した57原子団を使っていた。
本業は代替フロンの分子設計だったので、ハロゲン用の原子団セットは43個定義した。
1999年に代替フロンのプロジェクトを離れた後は、個人で開発を進めた。問題は化合物と官能基テーブルの紐付けだ。テーブル自体は例えばExcelで管理する。
芳香族の官能基を増やすと、それまでのテーブルは意味がなくなる。
昔作ったテーブルがすぐに使えなくなる。
ものすごく混乱する。
そこでSMILESの構造式から自動的に官能基に分割するプログラムを作った。
データベースにはSMILESだけを持たせる。
分割はその時の最先端のもので行われる。
HSP関連の仕事を始め、最終的(2014年)に官能基数は172になった。それ以降データの種類は増えたが官能基数は増えていない。原子団寄与法の問題点は切断することによる情報の欠落だ。CH3CH2CF2CF3とCH3CF2CH2CF3で原子団の数は同じになってしまう。物性値によってはこの違いはとても大きい。より大きな原子団を内部的に自動的に定義して使っていく。それによって官能基は増やさずに済んでいる。その時の基本的な考え方を、分離技術会で発表した。それはDr. Jobackの来日記念講演会だったので、私もそれに合わせてJoback法の改良を発表した。でも、その口頭発表だけだし、その後は話していない。たまたまSophia-Projectで結合情報が大事な物性値の推算が必要になって、昔やった気がしてHDをひっくり返していた。
今回はその話だ。
JBDGC: Joback Base Dynamic Group Contribution
JOBACKの元の原子団に新たに19原子団(灰色)を加え、=NHを消去した。

どんなデータセットを使うにしてもJBDCGではこの59官能基を使う。
172官能基と比べるととても少ない官能基で物性推算することになる。
JBDGC、Basicの計算
「The properties of Gases and Liquids 3rd 」という書籍には400化合物のデータが記載されている。これを原子団の数だけから重回帰計算を行う。
定期されている原子団の数が少なければ表現できる分子も少ない。アミド基が定義されていないと、C=O(ケトン)とNH(アミン)で表現するしかない。
JBDGC計算の1番目のオプション

JBDGCでは、メインの59原子団がどんな原子団と接続しているかを調べる。相手によって原子団の数え方を変える。相手によっては分子そのものになる。
CH3NH2の場合、CH3は0.9250個と数える。
結合相手、係数は解析したDataSetに依存する(Dynamicに変化してしまう)。
JBDGC計算の2番目のオプション

このオプションは、データセットの大きさに依存する。大きなDataSetに適用するとオプション2はあまり効かない。
JBDGC計算の3番目のオプション

オプション2まで使いテーブルが作成されている。そのテーブルに対して、各mainFGが相互作用していると仮定した時に、どのようなFGペアの効果が高いか探索する。
JBDGC法の全体像
見ようによっては1種のニューラルネットワークになるがニューロンの結合を強く制限することによって予測性能が飛躍的に向上させ、過学習を抑制する。
JBDGCを使った沸点推算

59官能基しか使っていないが、決定係数0.9937で沸点を推算することができる。
ただし、内部的には各FGの結合情報によって原子団の個数の数え方を変えているので、ある意味官能基を1000種以上定義したのと変わらないかもしれない。
JBDGCのFitting性能
一つの官能基は色々な分子で使われている。普通の原子団寄与法では、官能基のファクターは多くの分子での平均になる。結果として、例えばCH3(平均) + NH2(平均)のような単純な分子では誤差が大きくなる。
JBDGCでは結合相手によって官能基の数え方を変える。CH3-NH2ではCH3は0.925個
あると考える。
JBDGC予測性能
例えば、CH3-CH3という化合物がデータセットに無い場合、subFGにCH3は無い。その場合、Factorは1.0を使う。最悪予測性能は第一世代のJOBACK法と同じになる。
実験値があれば、簡単にファクターを決めることができる
BP(184.55K)= 123.8928*Factor(CH3_CH3)*2+…..*0….*0
Factor(CH3_CH3)=0.7448
既に出来上がったものに付け加えても良いし、あらたに計算し直しても良い。
JDDGCの精度



JBDGCの利点と欠点

あるFGにあるFGが結合している。相手によってもとの原子団の個数の数え方が変わる。フッ素が付いたときはどうかわるか? それがヨウ素だったら? 水酸基だったら? 結果を見ているだけで楽しい。
pKaをSmilesの構造式から推算する
今回(2025年)新たな適用例としてpKaのデータを解析してみた。
SMILESの構造式があれば、Jobackタイプの59種類(2014年バージョン)は自動的に生成できる。

原子団の数だけからpKaを推算すると、結果はとても悪いものであった。
誰が考えてもpKaを分割した原子団の数だけから推算できるとは思わないだろう。
結合相手によって個数の数え方を変える

DGCを使って原子団の数え方を変えても、ほとんど効果はない。
これはとても大事なポイントだ。
重回帰の係数を最適化(GROVE)

通常の重回帰は二乗誤差を一番小さくするように動作する。
実験データが正しくない場合、誤差がとても大きくなる。その大きな誤差を小さくするように重回帰は動作する。
そこで実験データに誤差が含まれる場合には、通常の解析では正しい答えにならない。
pirikaのGROVE法では合うものはますます合うように、合わないものは大きく外れても許すので結果の解釈が容易になる。
メイン原子団同志の相互作用

さらにFG同志の相互作用を加味すると今まで困難であったpKaもかなり精度良く推算することができる。
これはR-CH(NH2)COOHのアミノ酸とNH2-CH2CH2-COOHを考えてみればわかるだろう。CHの数え方CH(NH2, COOH)で一つの炭素にアミンとカルボン酸が付くことの補正は行われる。NH2-CH2とCH2-COOHの補正は行われる。でも一つの分子にNH2とCOOHの両方を持った時にどうなるかは、原子団の数え方では補正できない。
誤差の大きいものをチェック

もし、実験値がおかしいのであれば計算値との差は大きい。データを一つ一つチェックする。傾向がある場合にはその理由を考える。
例えばOHがどんなFGと結合しているか調べる。OHは手が1本なので、例えばOH-CH2はCH2の先が何であるのかは考慮しない。OHはCH2に結合しているという情報だけしかない場合、その先にどんなFGがあっても差が出ないことになってしまう。実際には16.1から12.24まで差がある。CH2は手が2本あるのでこれらの化合物の違いは表現できる。しかしCH2の数え方を変えたところで、そもそもCH2のpKaの影響は小さいので正しく推算できない。
どうしたらそのようなケースに対応できるか?
それを考えるのがMIやDXの楽しいところだ。
何も考えなくても精度が出るなら、あなたは必要ない。
実際のJBDGC計算

InputデータはSMILESから自動的に作成される。
計算を行えば、結果はプログラムとして出力される。
それをpKa.jsとセーブする。
JBDGCの計算機

プログラムを計算機に組み込めば、分子の絵を描けばpKaを予測することが可能になる。
10年前に作ったシステムが、今でも普通に動く。それ自体は感動だ。今回pKaに使ってみてさらにどう改良しようか目処もついた。
10年前のテクノロジー
今考えると古いアーキテクチャー
でも、接続が重要になるpKaではいまだに効果的。
しかも、新しい物性値をすぐに試し、評価するシステムを簡便に作成できる。
SOPHIAシステム用にはこのDGC法を改良して搭載する予定。
ついでに誘電率にも使ってみた
285データにJBDGCを使ってみた。

Option 1だけで劇的に精度が高くなった。
あわないものをチェックする

2-pyrrolidoneもepsilon-caprolactamも環状のNHC=Oを持つ。epsilon-caprolactamは室温で固体で誘電率は1.7と小さい。溶融させると誘電率は高くなるとAIは言っている。環状のNHC=Oはepsilon-caprolactamに引きづられて値が小さくなっているので、取り敢えず、消した方が良い。官能基を2つ、CH2CH2を挟んで持つものの計算値が小さい。3次元的な水素結合のネットワークを作る高粘度の液体だ。これはOption 3を入れれば改善するだろうか。次に合わないのが単純なモノアルコールだ。CH2-OH持つ化合物の誘電率は分子が大きくなると小さくなる。本来はCH2(CH2,CH2)の数え方でCH2が多いとより小さく調整されるはず。繰り返し計算をもっと多くすれば解決するだろう。
誘電率は反応性に関与したりする重要な物性値だ。MO計算のときにも溶液反応の際に誘電率を入れる。でも誘電率を推算する良い方法は自分は見たことが無い。YMB25Proに搭載するかな。
Copyright pirika.com since 1999-
Mail: yamahiroXpirika.com (Xを@に置き換えてください)
メールの件名は[pirika]で始めてください。