pirika logo

ホームページ Pirikaで化学 ブログ 業務案内 お問い合わせ
Pirikaで化学トップ 情報化学+教育 HSP 化学全般
情報化学+教育トップ 情報化学 MAGICIAN MOOC プログラミング
MAGICIANとは、材料ゲノム(Materials Genome)、材料情報学(Materials Informatics)、情報化学(Chemo-Informatics)とネットワーク(Networks)を結びつけて(Associate)いかれる人材です。

情報化学+教育 > 情報化学

2021.5.28改定(2018.12.8)

ケモ・インフォマティクス(情報化学)

SMILES分子構造ビュアー、複数分子対応版 2022.2.25

Webページのテキストエリアにあるテーブル中のSMILESの分子構造を表示できるようにします。
薬など分子が大きい場合には有用でしょう。

非線形解析ツールMIRAI 2021.12.6

MIRAI(Multiple Index Regression for AI)はデータ数が少ない、識別子が多い、非線形性があるケースに使う解析ツールです。

自己組織化ニューラルネットワーク 2021.6.3改訂

多次元ベクトルの2次元へのマッピング法。
最近はクラスタリングを行なってデンドログラムを書くことが多いようですが、SOM: Self Organization Map で見ると、また違うものが見えてきます。

(2003年ごろの古い記事改訂版)
動物やあやめの分類
黒曜石の産地

(▶︎をクリックして開く)

2021.3.15
ZOOMの授業などになってくると、コンピュータを使ってハンズオンで情報化学を教えるというのは、とても相性が良いと思います。「化学系の非常勤講師の会」をClubhouseで作りませんか?
毎週、水曜日と土曜日にpirikaサイエンスカフェでおしゃべりしています。

私が、ケモ・インフォマティクス(Chemo-Informatics)に一番取り組んでいたのは、2005年ごろでしょうか。

博士号を取るためでした。

それから、10年以上たちましが、急速に状況が変わってきました。
原因は、Materials Gemome Initiative (材料ゲノム構想)でしょう。

これは2011年にアメリカでスタートした構想です。
似た様な構想が中国でもスタートしています。

2015年ごろには結果も出始めて日本にもそれなりにショックを与えたので覚えている方も多いでしょう。

そして、Materials Genomeに対抗してか、Materials Informatics(材料情報学)と言う言い方に変えて、様々なプロジェクトが始まっています。

特に去年には、囲碁や将棋でもAIが人間を倒してしまったことから、急速にAIを利用する事が注目を集めています。

また、コンピュータの高速化、ネットワークの高速化、ネット上の大量なテキスト、画像データの集積などビッグデータが利用しやすい環境が整ったのも、状況が変わった要因の一つでしょう。

しかし、それをなんと呼ぼうが、やっていることは30年間変わっていないように思えます。

昔、数理統計と言ってものが、ケモ・インフォマティクスになり、マテリアルズ・ゲノム、マテリアルズ・インフォマティクスに変わってきただけのようです。

流行り言葉だけでなく、昔、数理統計用のパッケージ・ソフトといえばSPSSで、その後、数理統計に強いRになり、今は SciPy(NumPy)を使うのが王道になってきています。

やっていることは重回帰分析、主成分分析、PLS分析でどのパッケージにも入っているので、どれだけたっても、アヤメの分類から先に進みません。

なぜ急に流行りだしたのでしょうか?

SciPy(NumPy)などを扱うPythonはかなり敷居の高いコンピュータ言語だと私は思います。
コンピュータ上に環境を整えるのも素人には難しいでしょう。

そしてどこでも同じ様に30年前の「水への溶解度をPLSモデルで作成」を繰り返しています。(PCAで水への溶解度を検討した例はこちらを参照

そのモデルが本当に予測性が高く、どんな化合物にも使えるなら、Smilesの構造式を入れたら予測値を返すページを作ってネットに乗せてしまえば、その話は終わりのはずです。

C/C++で解こうが、JAVA、C#, Pythonで解こうが、SPSS, R, SciPy(NumPy)どれを使おうが何も変わらないはずです。RDKit(予算があるところはDRAGON)を使って識別子を吐き出して、Python使って機械学習する。
どこも同じようなマテリアルズ・インフォマティクスをやる。
全く多様性を失ってしまった様に思えて残念です。

ところが実際は、こちらで説明したように、データが増えるに従ってどんどん収束しなくなってきます。

化学の事を理解していないデータ・サイエンティストに任せていては何時までたってもダメなのでしょう。

化学のことを解っているプログラマーが解析用のソフトを作りきっちり解析を行うことがますます重要になってきています。

フリーウエアーの利用もMAGICIANには大事な技術です。
Pythonをインストールして、機械学習させても良いのですが、化学者には荷が重いかもしれません。

取り敢えずブラウザーと表計算ソフトだけで初めてみましょう。
RDKitブラウザーバージョンを使って実際にマテリアル インフォマティクスをやってみましょう。

この練習ではLD50, logS(水への溶解度), logKow(オクタノール/水分配比率)の予測式をRDKitを使って作成します。
RDKitの吐き出す識別子を用いてPLS(部分最小自乗法)をブラウザー上で計算してみましょう。
PCA(主成分解析)もブラウザー上で計算してみましょう。

データサイズが大きくなってくるとMAGICIANにとって気の重くなることが起きてきます。

新しい解析ツールGROVE法 2021.5.5

連休のステイホームを利用して、学生の作った新しい解析ツールGROVE法を実際に使えるぐらいまでブラッシュアップしました。 GROVE Gene-based Regression Offering Valuable Equations.

原子団寄与法を使った物性推算 2021.5.5

今更ですけど、新しい解析ツールGROVEを開発したついでに、原子団寄与法を解説しておきましょう。

Web版PLS計算方法 2018.12.29

PLS(Partial Least Squares)法は計量経済学者であったHerman WoldとSvante Woldによって開発された新しいモデリングの方法です。

マテリアルズ・インフォマティクスなどで多用されるようになってきたので、ブラウザー上で計算できるようにしてみました。

Web版主成分分析(PCA)法の解説

PCA(Principal Component Analysis)主成分分析のプログラムをブラウザー版に移植しました。

フリー・ツールの利用法 2018.12.8

個人的には、ツールは自分で作ったものを使うのが好きです。
必死になってNumerical RECIPES IN Cなどを読み解いていた時代が懐かしいです。
もう段々そこまでの気力はなくなってきたので、フリー・ツールも利用していこうと思います。
rdkitを使ったSmiles Viewer 2018.12.8
JSMEを使った分子の描画 2018.12.9
RDkit 識別子作成 2018.12.9
EPA T.E.S.T. 2019.1.23
TEST解析例を作ったので自分でやってみよう
OpenBabel

特にRDKitの使い方はよく覚えておきましょう。EPAのT.E.S.T.も非常に有用です。

マテリアル・ゲノム 2018.8.23

昔、物性推算と逆設計と呼んでいたものが、最近はマテリアル・ジーノムとかマテリアル・インフォマティクスとか呼ばれているようです。
AIの発達によって最近はホットな領域になってきているのでまとめておきます。

ハロメタンのNMR・ケミカルシフト 2014.08.01

物性推算式を構築する場合に、線形式にするか、非線形式にするか判断に迷う事があります。相関係数が高い式を良い式と考えたくなる事もありますが、よく考えて使いましょう。

有機化合物の水への溶解度 2021.5.28改訂(2013.9.24)

化学の現象に、一般的な解析ソフトを使うとどんな結果になるかを解説しました。
新しい解析ツールGROVEが動き出したので内容を一部改訂しました。

 

古い記述

(▶︎をクリックして開く) インフォマティクスとは情報学の事です。
ケモ・インフォマティクスは、もともとはバイオ・インフォマティクスに対する造語のようです。
日本語にすると情報化学になるのでしょうか。

コンピュータに知識(情報)を与えるためには知識の集積であるデータベースが非常に重要になります。

日本はIT(Information technology)をインターネット通信と訳しているぐらいでITに関しては欧米に大きく水をあけられています。

このごろはITはInternet Tuusin と理解しているのかi-modeの利用者とブロードバンドの利用者が何千万人になったからIT先進国になったとかいう論調が見受けられます。

Information(情報)はお洒落なレストランやブティックが携帯電話から見つかればそれ以上の情報はいらないのでしょうね。

欧米の化学メーカーがIT革命に乗り遅れないように必死なのに較べると「ものづくりニッポン」は20世紀の過去の遺物になりつつあるような気がします。

そうした認識の差から情報の集積であるデータベースに対する認識も日本はどんどんおいてきぼりを食らっています。

商業ベースに強いアメリカのデータベース、東ドイツ(旧ソ連も?)も吸収して優秀な低賃金の研究者を取り込んだドイツのデータベース、人海戦術で伸びてきている中国のデータベース。

日本は人件費は高いわ、優秀な研究者は化学をしないわ遅れて行く一方です。

最近の経済産業省の方針ではアニメやTVゲームのような日本の強い分野をのばすのを奨励しているぐらいで化学なんて20世紀まででいいのでしょうね。

でもアニメやTVゲームでも中国に勝てるのかな?
何人が食って行かれるのかな?

まー、難しい事はいいや。
子育ての忙しい研究者には荷が重い。

日本では顧みられないデータベースの問題点についてちょっとまとめてみたので物性研究をしている”日本語の読める”研究者(日本人である必要はありません)は覗いてみて下さい。

欧米に水をあけられているのはDBやITだけではありません。コンピュータ・ケミストリーはずいぶん前から壊滅的な状況です。

日本人の研究者が優秀でないからではありません。
福井先生から諸熊先生などなど自分は専門外なのであまり良くは知らないですけど優秀な研究者は一杯います。(いるらしいです。)

でもコンピュータ・ケミストリーを代表するようなGaussian,MOPAC,MM2からはじまりCashe,HyperChem,旧MSIプロダクツなどなどに席巻されて日本のコンピュータ・ケミストリーは単なるユーザーの地位に甘んじる状態になってしまいました。

そういえばダイキンの開発していたMol-Graphだっけ、あれってどうなったのかなー。
唯一国産の分子設計支援システムだったような?

メーカーとしては富士通が頑張っている。でも国産かといえば根元はすべて欧米に握られていてどうにも悔しい。

まー、自分がCALTECHのGoddard教授のところに留学できたのも、もとはといえば教授の開発したBioGraf,PolyGrafをうちの会社が導入したのがきっかけなので余り文句も言えないといえば言えないのですが。

情報学の立場からみるとこうした分子軌道の計算結果の情報も非常に有用な情報です。

ab-initio計算はしんどいけど半経験的分子軌道法のMOPAC程度の計算はなくては済まされないところもあります。

(個人ではとてもじゃないけど最近のMOPACは買えないので)商業化する前のMOPAC7やMOPAC6、できれば自作のCNDO/2ぐらいでなんとかなってくれればいいのになーと思いつつ分子軌道計算をやっています。

ビューワーだってとてもじゃないけど買えません。
全て自作のJAVAプログラムです。
でもこんなのも使い方次第かもしれないと思う今日この頃です。

ここではニューラルネットワーク、遺伝的アルゴリズム、データベースなどを多用するPirikaのやり方を紹介していきます。

2000年 ニューラルネットワークを用いた酸化物ガラスの物性推算と遺伝的アルゴリズムを用いた組成決定システムの開発
昔にやった仕事。今でいうマテリアル・ゲノムの走りだった。

アゾベンゼンの分子設計 99.3.24 
プログラムをJAVAからJavaScriptに書き直した(2018.11)

例えばアゾベンゼン系の染料で赤い色を出したい場合にはどうしますか?
片っ端から置換基を変えて分子軌道計算をしますか?
置換基のつく位置は10か所あります。
対称性を考慮すると減りますがそれでもすぐに数万種類のアゾベンゼンが考えられます。
こうした問題に対しても情報化学を利用すればコンピュータが候補化合物を提案してくれます。

2001-2005の間は双子の子育てでものすごく忙しかったです。
しかし、子供が知識を獲得していく過程をつぶさに観察できたのは、コンピュータでニューラルネットワークを構築している自分にとっては非常に有益でした。

以下は、その頃に書いたものです。古いものですが興味があればお読みください。

ニューラルネットワークは学習により知識を獲得します。 

ニューラルネットワークの基本
ニューラルネットワークのメカニズム
ニューラルネットワークの問題点

データベースの問題点
コンピュータに知識を与えるためには知識の集積であるデータベースが非常に重要になります。

データベースがあやふやだと困る データベースがあやふやだとどうして困るのか物性研究者の立場からまとめてみました。

遺伝的アルゴリズム(GA)の画像解析への応用

遺伝的アルゴリズム(GA)については作成中です: MAGICIANでも詳しく扱っています。

ケモ・インフォマティクスの分類に入れていいかどうかは分からないのですが、遺伝的アルゴリズム(GA)は自分も多用します。ニューラルで推算してGAで逆設計するといった使い方です。

最新のJAVAでは動いていません。(2011.11.25)
JavaScriptバージョンに変更しています。

ニューラルネットワーク法のプログラムには汎用のパッケージソフトがあります。
GAにはそうしたものがありません。
評価関数がケース・バイ・ケースで汎化しにくいのがその理由の一つです。

大学院の学生には、エクセルのテーブルで推算式を作って、目標に入る(目的変数が複数ある)組成をGAで計算するマクロを作ってもらいました。
系を絞ればそのような教え方ができるのですが、系が変わると作り直しになります。

情報化学+教育 > 情報化学


Copyright pirika.com since 1999-
Mail: yamahiroXpirika.com (Xを@に置き換えてください) メールの件名は[pirika]で始めてください。