Pirika logo
JAVA,HTML5と化学のサイト

Pirika トップ・ページ

Pirikaで化学
 物性化学
 高分子化学
 化学工学
 分子軌道
 情報化学

 その他の化学
 アカデミア
 MOOC講義資料
 プログラミング

ハンセン溶解度パラメータ(HSP):
 HSP基礎
 HSP応用
 ポリマー
 バイオ・化粧品
 環境
 物性推算
 分析
 化粧品の処方設計
 その他
 自分でやってみよう

雑記帳

Ad Space for you

 

Ad Space for you

 

 

 

Last Update

13-Dec-2018

ぴりかで化学情報化学:Materials Genome

2018. 8 横浜国大非常勤講師:山本博志 講義補助資料

 

2015年6月15日の日本経済新聞に“米,「材料ゲノム」の衝撃”と言う記事が載った。オーダーメイドの医薬品の開発の際に,患者の遺伝子解析を行って薬を設計する。同じように材料もゲノム解析して設計してしまおうと言う発想だ。筆者は1997年頃から,ニューラルネットワークを使った“物性推算と逆設計”を行ってきたので,特に目新しい記事では無かった。しかし,ここに来て様々な団体が人工知能(AI)と材料設計を結びつけるプラットフォームなどを立ち上げているので,“むやみやたらとAIを恐れるな,でも簡単な話なので無視はするな”と言う話を書いておこうと思う。ちなみに,友人のKevin (Joback法の物性推算で著名)にゲノム,ゲノムと言っても通じず,スペルを書いたらそれは”ジーノム“と言わなければ通じないと笑われた。
さらに、最近はMI(Materials Informatics:マテリアル・インフォマティクス)とか言うようだ。昔は分子設計とか言う言葉が主流であったが、分子の集合体である物質設計までできるようになったのだろう。
さらに「3つのMI」と言う考え方があることをNIMSの出村先生から教わった。
Materials Informatics
Materials Integration
Materials Infrastructure
それぞれ、物質情報学、複合材料、材料(製造)基盤になるのだろうか。
その他、データ駆動型材料開発、情報統合型物質・材料開発、機械学習を用いた材料設計、AIによる材料設計など色々ある。
どの言葉が一番上位概念かは自分にはよくわからない。でも、学生に教えたいことは、はっきりしているのでマテリアル・ジーノムで通そうと思う・

大規模な予算がついて、国家プロジェクトとして動いているものもあるが、そんなに難しい話では無いのでお気軽に自分でもトライしてみよう。特にこれから40年間そうしたAIによる材料開発と付き合っていかなくてはならない学生は、「AIアシストを受けて能力強化された人材になるために」と言う観点で、実際に手を動かしてしっかり身につけて欲しいと思う。自分はAI-ロボットのアトムよりも、サイボーグ009の方が好きな子供であった。(理由は簡単。自分はアトムにはなれないから。思わずDVDを大人買いしてしまった。)電動アシスト自転車は人間の漕ぐ力の半分までアシストしてくれる。漕ぐ力がゼロならアシストもゼロだ。AIアシストもアシストされる側の能力がものをいう。アトムのような化学系AIーロボットができあがったら、人間の化学者はいらなくなる。そんな時代が来るまでは、いかにAI-アシストに補ってもらいながら地力を高められるかが勝負になる。

大事な点は、情報系の科学者が化学を勉強するのが楽か、化学系の研究者が情報学を勉強するのが楽か、どちらだろうか? ということだ。データサイエンティストがいくら頑張っても、化学の論文・特許は読めないだろうし、データにどのくらい誤差があるものなのかわからないだろうし、記載間違いを見抜く事はできないだろう。そのためにどうしてもビッグデータを必要としてしまう。化学で、特に最先端素材に関してはビッグデータなど存在しない。少量の汚いデータをクレンジングしながらシステムを組んでいかなくてはならない。が所詮ビッグデータがないのなら、AIに物事を教える教師のレベルが低ければ、出来上がったAIのレベルも引くなる。化学者が情報学を学んで、AIへの教育の仕方を学び、AIに適した教材を準備する方が結局は、早く、実用的なものが出来上がる。そうして作ったAIは自分だけを助けてくれるAIアシストになる。

中堅の化学会社がこうした手法に興味を持ってくれたらと思うが、どうしたものか。
デジタル人材育成などとも騒いでるが、そうした人材が中堅企業にまでいき渡るのは何時のことか? 社会人Drとは言わないまでも、3−4日の集中講義で社会人を受け入れる体制を作れる大学があればいいのだが。もしくは、非常勤講師間で授業の内容を相互利用する体制とか。まー、研究室も持たない一介の非常勤講師にできる事は限られているが、まずはコミュニティーを立ち上げる事だろうか。(実は名前はもう決めている。MAGICIAN養成塾だ。MAterials Genome/Informatics and ChemoInformatics Activate Networks 手品師のように化学の問題を解いてしまおう。スポンサー大募集
協賛:
HSPiP開発チーム(HSP、YMB)
X-Ability Co.,Ltd. (Winmostar )

スポンサー:企業の研究者に関しては、問い合わせは増えてきているが、どのような形態で講義を行うか?費用は?頻度は?まだ何も決まっていない。逆に提案して頂けると嬉しいのだが。

授業内容の相互利用:海外の先生との話は進みつつあるが、日本では難しいか?コツコツデータを集めているが、マテリアルズ・インフォマティクスまではたどり着けない。でも小さな所からでも始めたい。そんな気持ちが大事だと思う。

学生の場合、必要なものはPCとブラウザー、表計算ソフト、ネット接続環境、それと私へ送るメールのアドレス、XXX@YYY.ac.jpだけだ。(高校や高専、ac.jpでない場合には、別途相談下さい。)

MAGICIAN (MAterials Genome/Informatics ChemoInformatics Activate Networks)養成講座

第1回 イントロダクション(PDF) 2018.8.23 (HTMLバージョン)
マテリアルズ・ゲノムと呼ぶ時には、材料の構成を遺伝子に見立てる。しかし、プロセスまで含むと遺伝子型では表現しにくくなりマテリアルズ・インフォマティクスと呼んだ方が良いかもしれない。まず、何をしたいのか基礎を学ぼう。

第2回 データ収集と昔ながらのやり方(PDF) 2018.8.24 (HTMLバージョン)
流行り言葉としてのAI解析やデータ駆動型研究は規模が大きくなっただけで昔とやっていることは変わらない。テキスト情報や画像情報のビッグデータが増えたところで、化学系の研究には余り影響はない。昔ながらの数理統計解析を流行り言葉で呼べば良い。燃料電池用の触媒設計を例にやり方を見ていこう。

第0回 物性推算と逆設計と呼んでいた時の話 2000.8.28 なんと18年前!
ある材料の物性を予測する(物性推算)事と、欲しい物性の材料組成を予測する(逆設計)事。大学ではどちらが大事で、企業ではどちらが大事だろうか? そんな質問を学生にすると大学は前者で、企業は後者だと答える。逆設計するためには精度の高い推算が必要なのだが。ニューラルネットワーク法によるガラスの物性推算と遺伝的アルゴリズム法による逆設計を触媒学会の招待講演で発表した。

第3a回 ポリマー設計と3つのMI(その1PDF)2018.9.3 (HTMLバージョン)
ポリマー設計、特にラジカル重合性のポリマーについて考えてみよう。ガラスなどの設計と異なり飛躍的に設計が難しく、アートの世界になってしまう。最低限、重合シミュレーターの利用は不可欠であろう。フッ素ゴムのパッキンへの利用を例に、Materials Informatics と Materials Infrastructure について解説しよう。

第3b回 ポリマー設計と3つのMI(その2 PDF)2018.9.3 (HTMLバージョン)
ポリマーの利用形態には、ポリマーそのものを材料に使う形態と、ポリマーに様々な材料を配合して使う、Materials Integrationの形態がある。後者は、分子軌道法など、いわゆる計算機科学は余り役に立たない領域になる。MAGICIANの腕の見せ所だろう。3aで設計したフッ素の生ゴムに様々な材料を配合して実際のパッキンを設計しよう。

第3c回カーボン素材の複合化と溶解度パラメータ 2018.11.27 (HTMLバージョン
パッキンにはカーボンブラック(CB)を配合する。こうしたカーボン素材、例えば炭素繊維はどの様なポリマーと相性が良いのだろうか?ハンセンの溶解度パラメータ(HSP)を利用した相性の評価、最適溶媒設計を学ぼう。

第4a回 MIに適した簡単なデータベースの利用法(PDF) 2018.9.4 (HTMLバージョン)
ほとんどの場合、Materials Informaticsに使うデータセットは表計算の形で保有しているだろう。表計算ソフトの側から、タブ区切り、CSV形式で吐き出して機械学習にかける。ある程度のデータ量になったら、手間を惜しまずデータベース化した方が良い。機械学習した結果をDBに取り込む計算機能の利用も大事な技術だ。

第4b回 複雑なポリマーのデータベース化 (PDF) 2018.9.7 (HTMLバージョン)
食品包装用のバリア・フィルムの設計をやってみよう。共重合組成を変えたポリマーを設計する場合、DBの利用は不可欠になるが、作成したポリマーの表記方法が問題になる。重合シミュレーターに加えSmilesの構造式の自動解釈ソフトなど、お助けソフトの利用も欠かせない。

第5回 データのクレンジング (PDF) 2018.8.28 (HTMLバージョン)
Materials Informaticsの成功例として、サムソン/MITが計算だけで開発した全固体電解質が話題になる。リチウムイオンの拡散係数のデータがあったので、例題としてマテリアルズ・ゲノムを行う時にどの様に進めるのかを通しで学んでみよう。

第6a回 ニューラルネットワーク法の初歩(PDF) 2018.9.25 (HTMLバージョン)
ニューラルネットワーク法はディープ・ラーニングなど機械学習法の中核技術として注目を浴びている。ただし、材料系に使う場合にはデータ数が少ない事、データに誤差を含む事を前提にシステムを組まなくてはならない。使い方を間違えると予測性能は全くでないので注意が必要だ。

第6b回 ニューラルネットワーク法を使ったDrug Design(PDF) 2018.9.22 (HTMLバージョン)
ニューラルネットワーク法と呼ぼうが数理統計解析と呼ぼうが、ある現象(薬理活性、毒性)を説明づける識別子を化学的知見から合理的に選び出せるか?が化学者に求められている。化合物の細胞への溶解性と言う観点からはハンセンの溶解度パラメータ(HSP)は興味深い特徴を持っている。

第6c回 自由なアーキテクチャーのNN法と学習アルゴリズム(PDF) 2018.11.23 (HTMLバージョン
ニューラルネットワーク法は強力な解析ツールであるが、使いこなしも非常に難しい。特に教師あり学習をさせる時に教師データに誤りがあっても学習が成立してしまう学習アルゴリズムは化学の分野では余り適さない。誤差逆伝播法ではない、フィード・フォワード型のNNシステムを構築してみよう。

第7回 遺伝的アルゴリズム(GA)を理解しよう(PDF)2018.11.8 (HTMLバージョン
遺伝的アルゴリズムは、材料構成をゲノムと捉えて解析する際には重要な方法である。しかし、GA法のパッケージソフトというのは見当たらない。アルゴリズムというのはあくまでも考え方を示したもので、ケースバイケースでプログラムが変わってしまう事が一般化しにくい原因になっている。基本的操作を表計算ソフト上のGAで学び、将来は自分でプログラムがかける様になって欲しい。

 プレゼン用:MIを使う時のデータベース構築法 2018.9.11
 プレゼン用:複雑なポリマーの設計とDB 2018.9.15
 プレゼン用:MAGICIAN用の識別子(Drug Design用)2018.11.3

このページは、pirikaのMOOCとの連携ページとなっている。これまでに大学で教えてきた事を、15回(1単位分)にまとめておこう。

フリーウエアーの利用もMAGICIANには大事な技術だ。Pythonをインストールして、機械学習させても良いが、化学者には荷が重い。取り敢えずブラウザーと表計算ソフトだけで初めてみよう。RDKitブラウザーバージョンを使って実際にマテリアル インフォマティクスをやってみよう。この練習はLD50, logS(水への溶解度), logKow(オクタノール/水分配比率)の予測式をRDKitを使って作成する。

Pirikaの目指しているマテリアル・ジーノム、マテリアル・インフォマティクスは巨大軍艦主義のようなものではない。何十億もの予算をつけて、ソフトウエアーやハードウエアーを開発しなければ使い物にならないシステムなら、今の素材開発には間に合わない。建造率が97%でも船は浮かばない。

yamato

今やらなくてはならないのは、ドローンのような小型の、用途に特化したマイクロ・セルAIを多数構築する事だと思う。サイズが小さくなればビッグデータはいらない。その道のプロの化学者が、教え方を学び、教材を用意して、準備ができたところから飛び立てば良い。

イワシの群泳が鯨より大きく見えるように、集合体として大和より大きくなれば良いだけだ。そうなっていけば、自ずと国の研究機関、大学、企業の役割は決まって行くと思う。華やかな言葉で、予算争奪合戦を繰り返していれば、一時期の流行りで終わるだろう。自分なんかは”逃げ恥”でも良いが、素材が崩壊すると若い化学者は大変なことになる。自分の教え子たちが、「AIに職を奪われた」などとならないように、もう一踏ん張りといったところだ。

この分野の第一人者は、東京大学の船津公人教授だ。先生の主催されているCACフォーラムに加入するのも一つの手かもしれない。

船津先生の次のような論文はよく読んでおくといいだろう。

逆解析こそがマテリアルズ・インフォ マティックスに求められている

数年前の材料ゲノム、最近のマテリアルズ・インフォマティクスはケモ・インフォマティクスとは何が違うのだろうか? 更に言ってしまえば、数理統計解析と何が違うのだろうか?インダストー4、5とか、AIやマテリアルズ・インフォマティクス(MI)と言っていれば予算が付きやすいのは確かだろうが、数理統計解析との本質的な違いを、こうした流行り言葉を使う研究者に聞いてみたいと思っていた。船津先生のこの論文にあるように、ケモ・インフォマティクス(Chemoinformatics)が目指すことは、”データ・情報から知識へ 知識から設計へ”と明快だ。MITメディアラボの伊藤穣一さんの「世界の変化のスピードがこれだけ早くなると<地図>はもはや役に立たない。必要なのは<コンパス>です」と言う言葉を思い出す。データ・情報に裏付けられた知識がコンパスで、コンパスの逆に指している方向が逆解析なのかと思う。巨大なデータベース(ビッグデータ)を作ることは<地図>を作る事なのだろうが、DBから知識ベース(Knowledge Base)へ進化させることが急務なのに違いない。

国立情報研究所の新井紀子先生の次の著書も必読だろう。
AI vs 教科書が読めない子供達
今AI(人工知能)と呼ばれているものには知能はない。あるのは確率・統計と検索だけである。コンピュータは計算機であり、計算機は四則演算しかできない(これは間違いで足し算と引き算しかしない)。人間の持つ知性が、四則演算で表現できるならAIを作る事も可能かもしれないが、数学にはそこまでの力が無いのは明らかである。コンピュータにできることは論理的なこと、確率的なこと、統計的なことの3しかない。コンピュータが苦手な”教科書を読んで意味を理解する”事もできない人間はコンピュータに仕事を奪われる。自分も大学で教えていて先生の意見には同意する。
それでは、何故、Siriなどに知性を感じるのだろうか?ネット上に溢れる情報を解析すると、統計上一番常識的な解が求まる。どんな質問をしても常識的に答えてくれる。しかも、質問者に偏向があっても、その偏向を加味した常識を答えてくれる。人間であっても、「常識人である」と言うのは、知性のある優れた人物と見なされがちなので、あながちSiriに知性を感じるのは仕方ない事なのかもしれない。(自分の知らない事を知っている人は偉い。)

しかし、問題は化学系研究者である。自分たちは常識的なポリマーを作りたい訳では無い。性能の悪い(安い)ポリマー同士を混ぜたら非常識な性能を発揮して高価に売れる。そんな事を目指す集団のはずだ。<地図>は無い。四則演算して、数理統計解析して、<コンパス>を手に入れようとしないなら、新井先生の言うようにAIに仕事を奪われる研究者になってしまうだろう。ディープラーニングと言っても、四則演算して、数理統計解析を高速にしているに過ぎない。知能を持った訳では無い。AI-ロボティクスが発達すれば、今まで常識の無かった分野が急速には埋まるだろう。でも、この方法では、ノーベル賞をもらった白川先生のような「触媒量を間違って10倍いれたら金属光沢のポリマーが得られ、導電性を示した」的な研究は出てこない。化学系の知能は99%の失敗と1%の成功に支えられ、AIは今の所、成功例しか学習できないから仕方ないか。トーマス・エジソンのように「自分は失敗などした事がない。何万ものうまくいかない事例を発見しただけだ」と突き抜けられれば、天才なのであろう。

しかし、NMRやIRのチャートを読むなど論理的なもの、モンテカルロ計算や合成ルート探索など確率的なもの、工場の運転などの統計的なものは、徐々にAIと称したコンピュータに置き換わって行くだろう。それは単なるオートメーション化と本質変わらない。それが進めば、今の職の半分はAIが行うようになるという、新井先生の考え方は正しいのだろう。

池谷裕二先生の脳科学の本
脳はなにげに不公平、できない脳ほど自信過剰、脳には妙なクセがある
AI, AIとこれだけ毎日、新聞やネットで騒ぐと、本当に機械が知能を持ったような気になる。そして、自分なんか軽々と打ち負かされ、職を失うかもしれないと心配になる。そんな暗鬱な気分になったら池谷先生の本を読むと良いだろう。大丈夫。私たちの脳は負けない。でも負けないためには、脳の特質をよく理解して、脳の強いところとAIの弱い所で勝負するしかない。でも、それでAIに勝てても、他の人間の研究者に負けていては、やはり職を失うかもしれない。だから、脳の弱いところをAIの強い所で補ってもらってAIアシストで乗り切っていかなくてはならないのだろうなと思う。