pirika logo

ホームページ Pirikaで化学 ブログ 業務リスト お問い合わせ
Pirikaで化学トップ 情報化学+教育 HSP 化学全般
情報化学+教育トップ 情報化学 MAGICIAN MOOC プログラミング
MAGICIANトップ MAGICIAN-Jr. MAGICIAN-講義 過去の資料

A MAGICIAN is a person who can associate Materials Genome, Materials Informatics, Chemo-Informatics and Networks.
MAGICIANとは、材料ゲノム(Materials Genome)、材料情報学(Materials Informatics)、情報化学(Chemo-Informatics)とネットワーク(Networks)を結びつけて(Associate)いかれる人材です。


MAGICIAN Training Course > Lecture materials > Formulation top page > Tools for Analysis : 非線形解析ツール、MIRAI

2021.10.30

MAGICIAN(MAterials Genome/Informatics and Chemo-Informatics Associate Network)Training Course

MAGICIAN養成講座

MIRAI(Multiple Index Regression for AI) Analysis tools used for cases with few data, many identifiers, and nonlinearities.

MIRAI(Multiple Index Regression for AI) データ数が少ない、識別子が多い、非線形性があるケースに使う解析ツール。

Example of data to be analyzed

解析したいデータの例

JPA 2021165831 (Japanese Patent:ナガセケムテックスの特許)

[Subject] To provide a photoresist stripping solution with excellent storage stability while maintaining sufficient resist stripping performance.

【課題】充分なレジスト剥離性を維持しつつ、保存安定性に優れたフォトレジスト剥離液を提供する。

The data are summarized as follows.
データは次のようにまとめられている。

In particular, let's consider predicting resist stripping properties after 30 minutes of treatment at 70°C.
特に、70℃で30分処理後のレジスト剥離性を予測することを考えてみよう。

The total number of experimental data is only 17 at most.
実験データの総数は高々17個しかない。

However, there are 19 different components of the stripping solution.
しかし、剥離液の成分は、19種類ある。

And what makes this table unique is that most of it is blank.
そしてこのテーブルの特徴は、ほとんどの部分が空欄である事だ。

The ingredients marked in blue have been used only once.
青くマークした成分は、一回しか使われていない。

From the standpoint of analysis, this is inconvenient. A component that is used only once will absorb the calculation error, so the descriptiveness will be very high, but the coefficients themselves will be meaningless.
解析する立場からすると、これは不都合だ。一回しか使われていない成分は、計算誤差を吸収してしまうので記述性は非常に高くなるが、係数自体は無意味になる。

If you want to become a researcher in materials Integration(MI), try to paste the following data into Excel or some other program and do the calculations yourself.
Materials Integration(MI)、材料複合化の研究者を目指すのなら、次のデータをExcelなどにペーストして、自分で計算してみよう。


Since we used three of the experimental data as prediction data, we will be analyzing 14 experimental data with 19 different identifiers.
実験データのうち3つを予測データにしたので、14実験データを19種類の識別子を使って解析する事になる。

To solve a simultaneous equation, the number of equations must be greater than the number of variables. For example, let's use the regression analysis function of Excel to force a calculation. The coefficients may be obtained, but we will soon see that the answer is meaningless.
連立方程式を解くには変数の数より式の数が多い必要がある。例えば、Excelの回帰分析機能を使って強引に計算してみよう。係数は求まるかもしれないが、答えに意味がないことはすぐにわかるだろう。

MIRAI method

Using our developed MIRAI (Multiple Index Regression for AI), the result is as follows.
我々の開発した、 MIRAI(Multiple Index Regression for AI)を使うと結果は次のようになる。

When the analysis is performed with MIRAI, the following analysis results are obtained.
MIRAIで解析を行うと、次のような解析結果が得られる。

Resist Stripping =-1.172 + 0.7715* (G-AM0.6430 * G-B^ -0.6459 * G-C10.4303 * G-C20.2851 * G-C30.1963 * G-D0.0741 )

If I organize both sides and take log, we get a multiple regression equation because the exponential(Index) part comes before the log.
両辺を整理してlogをとると、複数の(Multiple)指数(Index)の部分がlogの前に出るので重回帰(Regression)式になる。

Then, identifiers with similar properties are considered as one group. In this case, the number of groups is 6, which is much smaller than the number of Exp. data 14. The nonlinearity is expressed by the fact that each group is a power function. Finally, the groups are multiplied together, which introduces group interaction.
そして似た性質の識別子を1つのグループとして考える。この場合には6グループとなり、データ数14より随分と小さくなっている。そして各グループがパワー関数となる事によって、非線形性が表現される。最後にグループ間が掛け算されることで、グループ間の相互作用が導入される。



Then, within a group, each member is represented by a linear function. The base of the power function must be greater than 0, so add 1.
そして、グループの中では、各メンバーは線形関数で表現する。パワー関数の底は0以上である必要があるので1を足す。

Quaternary ammonium hydroxide case,
水酸化第四級アンモニウムの場合、
G-AM: 0.8947*Am1+0.5771*Am2+0.5006*Am3+0.4772*Am4+1

Comparing these coefficients, for example, the coefficient of Am4 is only half of that of Am1, which means that we need to double the amount used to get the same performance.
この係数を比較すると、例えば、Am4の係数はAm1の半分しかないので、使用量を倍にししないと同じ性能が出ないことがわかる。

Water, 水:
G-B: 0.6173*B +1

C1
G-C1: 0.6030*C1-1 +0.1743*C1-2 +0.8063*C1-3+1

C2
G-C2: 0.6934*C2-1+0.9484*C2-2+0.0615*C2-3+0.0172*C2-4+0.4211*C2-5+1

C3
G-C3: 0.9072*C3-1+ 1.5071*C3-2+ 0.8163*C3-3+ 0.000247*C3-4+1

Alkanolamine
G-D: 0.2028*D1+0.7369*D2+1

Each group is multiplied, so no free values are possible, and the interaction between Groups is expressed.
各グループは掛け算されるため自由な値は取れず、項目間の相互作用が表現される。

As a result, with a very small number of experimental data, I can obtain MIRAI equations with very high predictive performance, in which nonlinearities and item interactions are introduced.
結果として、非常に少ない実験データ数で、非線形性と項目間の相互作用が導入された予測性能が非常に高いMIRAI式を得ることができる。


This can be seen as a kind of feed-forward neural network method. Compared to a normal neural network method, the connection between input neurons and intermediate neurons is sparse.
これは、ある種のフィード・フォワード型のニューラルネットワーク法と見なすことができる。通常のニューラルネットワークと比べ、入力ニューロンと中間ニューロンの結びつきは疎になる。

Multiple Regression method: 重回帰法

Let's analyze the same data using the multiple regression method.
同じデータを、重回帰法を用いて解析してみよう。


All the data used to create the MR equation is on a nice straight line.
MR式を作るのに使ったデータは全て綺麗に直線に乗っている。

This happens when the number of identifiers is larger than the number of experimental data (excluding the three points for prediction).
これは実験データ(予測用の3点を除く)の数より、識別子の方が多い場合に起こる。

And the data in the prediction is way off on all three points.
そして予測のデータは3点とも大きく外れる。

In other words, the usual multiple regression analysis is completely meaningless.
つまり、通常の重回帰解析は全く無意味であると言える。


Principal Component Analysis(PCA):主成分解析

Many textbooks teach that for systems where the number of explanatory variables is larger than the number of Exp. data, principal component analysis(PCA) is performed to compress the dimensions.
データ数より説明変数が多いような系では、主成分解析(PCA)を行って、次元圧縮を行うと教えている教科書は多い。

For example, when there are two-dimensional data points as shown in the figure below, if the XY axis is rotated and set to X'Y', Y' becomes almost zero, so each point can be represented only by reading the X' axis. In other words, two-dimensional data can be compressed into one-dimensional data.
例えば、下図のように2次元のデータポイントがあった場合に、XY軸を回転して、X'Y'とした場合にはY'はほぼゼロになるので、X'軸の読みだけで各ポイントを表すことができる。つまり、2次元データを1次元データに圧縮することができる。



PCA analysis can be calculated on the pirika page, so please try it.
PCA解析はpirikaのページで計算できるので試してみて欲しい。

However, the actual calculation is as follows.
ただし、実際に計算してみると次のようになる。


How many principal components can be combined to represent the results of this experiment? We can see that even if we combine 10 of them, we can only express 92.14% of the results.
主成分をいくつ組み合わせれば、この実験結果を表現できるか? 10個組み合わせても92.14%しか表現できないことがわかる。

In other words, this result shows that there is almost no dimensional compression in this case.
つまり、このケースでは、ほとんど次元圧縮が効かないことをこの結果は示している。

That is, in a way, natural. Experiments 1, 3, 4, 7, 8, and 10 use components that are only used in that experiment. The dimensions of those six cannot be compressed in any way.
それは、ある意味当たり前である。実験の1,3,4,7,8,10ではその実験でしか使っていない成分を使っている。その6個分の次元はどうやっても圧縮できない。

I did a principal component regression using 10 principal components, created a multiple regression equation with 14 experimental data using 10 variables, and predicted 3.
10個の主成分を使って、主成分回帰を行った。10変数を使い、実験データ14個で重回帰式を作り、3つを予測した。



In this case, too, the predicted values deviated significantly from the experimental results.
この場合も、予測値は大きく実験結果から乖離していた。

Presumably, dimensional compression is not possible using PLS as well. If anyone has tried this, please let me know.
おそらく、PLSを使っても同様に次元圧縮はできないと思われる。誰か試した人がいたら教えていただきたい。

In the absence of big data, the neural network method would be out of the question.
ビッグデータがない以上、ニューラルネットワーク法は問題外だろう。

For the analysis of such compounding formulations, it is necessary to consider what kind of analysis software should be developed to make such analysis possible.
このような配合処方の解析に関しては、どういう解析ソフトを作ったら、その解析が可能になるか?の視点が必要になる。

Will we wait for someone to create it in Phython and give it to the library?
誰かが、Phythonで作成してライブラリーにあげてくれるのを待つのであろうか?

Experimental chemists may be fine with it, but if you're an MI expert, you need to be able to respond quickly to these requests from your clients. It's not enough to just saying "give me big data! more big data!". 実験化学者はそれでも良いかもしれない。MIの専門家であるなら、クライアントのこうした要請にもすぐに答えなくてはならない。「ビッグデータ、ビッグデータ」と歌っていれば良いものではない。

Going further. さらに先に行こう

In this patent, Am2, Am3, and Am4 are used only in experiment Nos. 7, 8, and 9. They may not have been used because of their lower performance compared to Am1. However, if the amount of Am2, An3, and Am4 is increased, the evaluation points of 6 and 7 might appear.
この特許では、Am2,Am3,Am4は実験No7,8,9でしか使われていない。Am1と比べ性能が低いので使われなかったのかもしれない。しかし、その分量を増やしたら、評価点として6点、7点が現れるかもしれない。

Once the MIRAI formula has been constructed, it will be easy to leave the rest work to the AI to search for a better formula. (In other words, you should check it yourself before submitting a patent.)
一度MIRAI式が構築できたら、後はAIに任せてさらに良くなる処方を探索させるのも簡単であろう。(逆に言えば、特許を出す前に、自分でチェックするべきであるが。)

This is how advanced AI countries are targeting Japanese patents. Well, Japan did it to the US a long time ago, so we can't complain.
AI先進国はこうして日本の特許を狙い撃ちにしている。まー昔、日本はアメリカに対してそれをやったのだから文句は言えないが。

Here, let's consider a more advanced method of breaking patents.
ここでは、更に高度な特許破りの方法を考えよう。

breaking patents. 特許破り

In this patent, C1, C2, and C3 solvents are specified in terms of the range of Hansen solubility parameter polarization term (dP) and hydrogen bonding term (dH). It is shown in the figure below.
この特許では、C1, C2, C3の溶媒をハンセンの溶解度パラメータの分極項(dP)と水素結合項(dH)の範囲で規定している。それを図示すると下の図になる。


This is a very broad range, and there are plenty of counterexamples (examples that fall into the range but do not perform) that can be found.
これは非常に広い範囲すぎるので、反例(範囲に入るのに性能の出ない例)はいくらでも見つかるだろう。

However, it would not be very interesting to destroy the patent by doing so.
しかし、それをやって特許を潰しても余り面白くはない。

For example, let's consider the solvent in group C2. The coefficients of the five solvents are as follows. 例えば、C2グループの溶媒を考えてみよう。5つの溶媒の係数は次のようになる。

G-C2: 0.6934*C2-1+0.9484*C2-2+0.0615*C2-3+0.0172*C2-4+0.4211*C2-5+1

If this coefficient can be predicted, and new solvents with even larger coefficients can be explored, the research will be greatly accelerated. もしこの係数が予測でき、さらに大きな係数を持つ新たな溶媒が探索できるなら、研究は非常に加速する。


If we calculate the multiple regression with HSP values as explanatory variables as usual, we will be able to predict the coefficients with the following equation.
普通にHSP値を説明変数にして重回帰を計算すると、係数を予測することができるようになる。

coefficients=1.3860*dD-0.6928*dP+0.3197*dHacid-0.1120*dHbase-17.733657408806


After that, you can use HSPiP to search for compounds that are in the range of the patent, calculate them using the formula above, sort them, and select the ones with the highest coefficient.
後はHSPiPを用いて、特許のレンジにはいる化合物を検索し、上記計算式で計算し、ソートして係数の大きいものを選び出せば良い。

Of course, the stripping solution should not be too dissolved, and other conditions such as stability need to be taken into account.
当然、剥離液は溶解しすぎてもダメだし、安定性など、他の条件も加味する必要はある。

However, if such a formula can be constructed, the subsequent process is very AI friendly.
しかしながら、こうした式を構築できれば、その後の処理は非常にAIと親和性が高い。

This is the origin of the name MIRAI.
これがMIRAIという名称の由来だ。

Once you get used to it, you will be able to cycle very fast.
慣れれば、非常に高速にサイクルを回せるようになる。

MAGICIAN Training Course > Lecture materials > Formulation top page > Tools for Analysis


Copyright pirika.com since 1999-
Mail: yamahiroXpirika.com (Xを@に置き換えてください) メールの件名は[pirika]で始めてください。
Mail: yamahiroXpirika.com (Replace X with @.) The subject of your email should start with [pirika].