成蹊大学理工学部
Faculty of Science and Technology, Seikei University

機械学習の計測データへの応用?データ駆動の活用?<br>旧「TOF-SIMSデータ解析法について」 1回だけリロードします。

[ Top Page ] [ English ] [ データ駆動計測 ] [ 研究概要 ][論文・著書など][ 本の紹介 ]




機械学習の計測データへの応用 -データ駆動の活用-
旧「多変量解析・ケモメトリックスのTOF-SIMSスペクトル解析への応用」    2011年更新

筆者は、2002年から多変量解析のスペクトル・イメージデータなどの計測データへの応用を始め、2016年からランダムフォレストRandom Forest、自己符号化器 Autoencoder、スパースモデリング Sparse modelingなどの計測データへの応用を始めた。ここでは、これまでの実データ解析で得た知見などを備忘録としてまとめる。

「機械学習」は機械(コンピューター)を用いた数値解析・学習手法を示す用語である。多変量解析は必ずしもコンピュータが必要ではないが、大規模な計測データの解析では、事実上コンピュータによる計算が必須となる。そこで、ここでは、多変量解析も「機械学習」に含まれるものとして記す(ここで紹介する多変量解析に基づく手法はコンピューターの利用を前提としたもの、という意味)。



[目次]
サンプル、変数(特徴量)、ラベル、記述子     2023.4.10 更新
サンプルと変数(特徴量)    2023.4.10 更新
(教師あり機械学習用)ラベル    2023.4.10 更新
記述子 -データの数値化-     2023.4.10 更新
教師なし機械学習の例:自己符号化器 Autoencoder    2023.4.11 更新
教師あり機械学習の例:ランダムフォレスト Random Forest    2023.5.8 更新
教師あり機械学習の例:中間層1層の人工ニューラルネットワーク (Simple ANN)     2023.X.X 更新
スパースモデリングの応用例    2023.X.X 更新
画像データの解析    2023.X.X 更新
情報エントロピー(シャノンエントロピー)の応用例    2023.X.X 更新
参考文献

旧「多変量解析・ケモメトリックスのTOF-SIMSスペクトル解析への応用」    2011 更新





サンプル、変数(特徴量)、ラベル、記述子
機械学習の解析対象となるデータは、「サンプル」、「変数(特徴量)」からなる。機械学習のデータ様式(データフォーマット)の「ラベル(サンプル・データの内容を示す情報)」、「記述子(データ本体を数値化した情報)」と関連させると、「サンプル」の内容は「ラベル」で表現され、「変数(特徴量)」に基づいて数値化した情報が「記述子」である。

サンプルと変数(特徴量)
機械学習でデータを解析するには、少なくとも同じ変数(特徴量)からなる複数のデータが必要である。一般的には、各サンプルについて変数(特徴量)を数値で表現した部分が機械学習での記述子となる。例えば、サンプルとしては、異なる場所から採取した試料、異なる工程を経て調整した類似の試料などが一般に挙げられるが、これらの試料間を比較するには、同じ変数(特徴量)に関する情報が必要である。一般的な比較においても同じことが言えるが、機械学習では特にこの点は重要である(なぜなら、機械学習では大規模データを集めて解析することが望ましいが、解析の最初に、あつかう変数(特徴量)を明確に決めてからデータを集めないと、大規模データを集める努力が無駄になってしまうかもしれないからである)。
*ただし、変数(特徴量)の中には、名称が異なる変数(特徴量)でも同様の意味を持つものが含まれる場合もあるため、足りない変数(特徴量)があるデータでも、工夫によって解析できるかもしれない。

スペクトルなどが付随する画像(イメージ)データ(スペクトル・イメージデータ)の場合は、各ピクセル(3次元データならヴォクセル)がサンプルと捉えることができる。この場合は、スペクトル上のピークが変数(特徴量)となる。解析対象とするデータセットが複数ある場合は、それぞれのデータセットをスペクトル上のピークに基づいて数値化する際には、同じピーク群についての数値化が必要である。例えば、正常な試料と異常な試料のスペクトル・イメージデータ(質量イメージング、分光イメージングなどのデータ)を解析する場合、それぞれの試料のスペクトルを見ると一方の試料のスペクトルには含まれていないピークもあると思うが、両方の試料において同じピークの情報が含まれていないと、二つのデータセットをまとめて解析するときにその差が分からない。つまり、スペクトルからピークを抽出して、ピーク面積として強度を数値化するような場合では、解析対象とする試料データ群のどれかに含まれているピークは、他の全ての試料データを数値化するときに、数値化するピークに含めておかなくてはならない。一定刻みでスペクトル情報を数値化する場合でも、使用する装置・ソフトウェアの型や測定条件によって、スペクトル数値化における横軸の刻み幅や範囲が異なる場合があるので、解析対象のデータ全てにおいて合わせておく必要がある。現在手持ちのデータのみを解析する場合は、解析の目的に合わせて、スペクトルの数値化方法(具体的には数値化させるピークのリスト)を決めれば良いし、スペクトルの数値化方法を複数種類試すこともできる。しかし、これから長年にわたってデータを集めていく場合は、どのような数値化方法が良いかよく考えて決めておく必要がある(他の分析者がどのようにデータを取得するのか、他の分析者はどのような数値化方法が可能か、今後の解析の目的はどのようなものになり得るか、など)。

関連する参考文献(日本語 Open Access)
ソフトマテリアルのイメージ・ スペクトルデータ駆動解析の発展(https://doi.org/10.1380/vss.65.4)


(教師あり機械学習用)ラベル
教師あり学習法では、あらかじめ解答を与え、その解答に合う出力が得られるように学習する。解答を記載した部分は、ラベルと呼ばれる。例えば、正解を表すことができるデータ(学習データ)に対して注釈を付ける作業はアノテーション(例えば、写真の中の時計の部分を抽出して「時計」と名前をつける。)と呼ばれるが、アノテーションで作成されたものはラベルとして使える。こうしたラベルをどのように設定するかによって機械学習から得られる結果は大いに変化する。機械学習は一般的には内挿が得意(学習データで学習した範囲で答えるのが得意)で、外挿(学習データで学習した範囲を超えて推測する)には向かないとも言われるが、実際の数値解析では外挿が求められることが多い。
*機械学習によって、何らかの法則を表す式を適切に導き出せた場合は、その法則の範囲内では外挿(学習データの範囲を超えて解答がわかる)できる。

一般的に、教師あり機械学習手法で外挿するためには工夫が必要となる。
例えば、試料に含まれる分子を予測する場合を考えてみよう。学習データに含まれる分子群のいずれであるかを予測したい場合は、分子名をラベルとすればよいが、学習データに含まれていない未知の分子が解析対象となり得る場合に、分子名をラベルとすると未知分子を含む試料データに対しては、学習データ中の分子の中で一番似ていると判断されたものが選ばれるか解なしとなる。未知の分子まで予測できるラベルを作成するには、(例えば)分子の構造を必要な要素に細分化して表現する必要がある。もしくは、未知分子を含む解析対象のデータと学習用データを統合して、教師なし機械学習を適用して特徴を抽出し、解析対象の未知分子データと同じ特徴を持つと判断された学習データの内容から未知分子を予測することができるかもしれない(同じ特徴を持つ学習データが複数種類ある場合、それらの共通する特徴と共通しない特徴から推測する)。

ラベルは、ラベルの内容の有無を1か0かで表すone-hot encodingで表したり、ラベルに対応する数値を直接入力(物性値、濃度など)する場合があり得る。何らかの実際の数値を用いる場合は、生の数値をそのまま用いると、本来は差がないわずかな値のずれを別の性質と捉えてしまうこともあるため、必要に応じて、階級値とするなど処理した方が良い(例えば、0.011と0.009に差がないとみなして良い場合は階級値として0.01を設定するなどの前処理をする)。

関連する参考文献(日本語 Open Access)
機械学習による TOF-SIMS スヘ?クトル解析(https://doi.org/10.11470/oubutsu.91.3_151)
多変量解析を利用した OF-SIMSイメージデータフュージョンとスパースモデリングおよび機械学習によるTOF-SIMS スペクトル解析(https://doi.org/10.1384/jsa.25.103)
有機物・高分子・ペプチド試料TOF-SIMSスペクトルの機械学習による予測・分類(印刷中)


記述子-データの数値化-
記述子は解析対象となるデータ本体にあたる。生データはさまざまな形で得られるが、機械学習するためには、数値化する必要がある。例えば、画像データで各ピクセル(もしくはヴォクセル)をサンプルと考える場合、各ピクセルでの強度情報を用いる。ただし、計測データは、測定条件や用いた装置による差を小さく抑える必要がある。同じ測定条件で測定した生データを対象とする場合でも、測定法によってはエラーを抑えるためにデータの前処理が必要な場合が多い。例えばToF-SIMSの質量スペクトルを対象とする場合は、スペクトル間の差を小さくするために、スペクトルごとの総イオン強度による規格化や一次イオンドーズ量による規格化などがよく用いられる。つまり、適切なデータ前処理が実施できる情報(測定条件など)もデータと併せて収集することが望ましい。

可能であれば、生データからエラー要素を取り除く前処理を実施しておいた方が良い。例えば、Poisson分布にしたがうカウンティングデータではPoisson scalingなどで処理する場合もある。

また、人工ニューラルネットワークに基づく手法などを用いる場合、ネットワークで用いる重みの値の範囲に対して、データの桁が適切でないと学習が収束しにくい場合がある。用いる学習手法に応じたデータ前処理も必要である。

教師なし機械学習の例:自己符号化器 Autoencoder
自己符号化器は、人工ニューラルネットワークに基づく特徴抽出法である。MatlabのDeep Learning Toolbox を導入すると、trainAutoencoderコマンドを用いて、簡単に自己符号化器が試せる。ただし、データサイズが大きいと、コンピュータの性能にもよるが、かなり計算に時間がかかる(例えば、1000*(256*256)程度以上の大きさのスペクトル・イメージデータの場合は1日では計算が終わらないことが多い)。また、MatlabのtrainAutoencoderをデフォルトの設定で用いると、KLダイバージェンスとL2正則化がかけられて、スパース自己符号化器(sparse autoencoder)が実行される。

Matlabの自己符号化器は、trainAutoencoderを用いると、中間層(隠れ層)が1層の単純な構造である。このように中間層が1層の単純な自己符号化器を用いると、抽出される各特徴に寄与する変数(特徴量)が重みから簡単に示唆される。例えば、中間層の1個目のノードが示す一つ目の特徴に注目する場合、部分となる入力層から中間層の1個目のノードに受け渡される時の重み、もしくは、中間層の1個目のノードから出力層への重みの値が大きい変数(特徴量)が、その特徴に寄与が大きい変数(特徴量)である。

自己符号化器では、入力層から中間層部分をエンコーダー、中間層から出力層部分をデコーダーと呼ぶ。自己符号化器では、入力層が出力層で再現されることを目的として学習を進めるが、中間層で特徴抽出する際には、入力層中で特徴への寄与が低い変数(特徴量)が削ぎ落とされ、重要な変数(特徴量)が強調されるため、重みの大きさから特徴に寄与する変数(特徴量)が示唆される。エンコーダー重み、デコーダー重みのどちらも注目する特徴と関連性の高い変数(特徴量)を示唆するが、デコーダー重みに注目した方が、ノイズが削ぎ落とされたわかりやすい結果となる傾向が見られた。例は、次の論文参照 Sparse autoencoder-based feature extraction from TOF-SIMS image data of human skin structure", Analytical Bioanalytical and Chemistry, 414, 1177 (2022). (https://doi.org/10.1007/s00216-021-03744-3)

また、多層化した積層自己符号化器(stacked autoencoder)もあり、Matlabでも実施可能である。ただし、多層化すると特徴と変数(特徴量)との間の関係がわかりにくくなる。


関連する参考文献(日本語 Open Access)
自己符号化器(autoencoder)を用いた高分子試料のTOF-SIMS データ解析 (https://doi.org/10.1384/jsa.28.110)

関連する参考文献(英語 Open Access)
Evaluation of aging suppression of LiBr-coated lithium?air batteries using time-of-flight secondary ion mass spectrometry and sparse autoencoder, e-Journal of Surface Science and Nanotechnology (2023). (https://doi.org/10.1380/ejssnt.2023-002)

関連する参考文献(英語)
Sparse autoencoder-based feature extraction from TOF-SIMS image data of human skin structure", Analytical Bioanalytical and Chemistry, 414,?1177?1186 (2022). (https://doi.org/10.1007/s00216-021-03744-3)
Quantitative analysis of ToF-SIMS data of a two organic compound mixture using an autoencoder and simple artificial neural networks, Rapid Communications in Mass Spectrometry (2023). (https://doi.org/10.1002/rcm.9445)



教師あり機械学習の例:ランダムフォレスト Random Forest

ランダムフォレストは一般に、ブラックボックス手法に分類される教師あり機械学習法ではあるが、解を導く上で重要視した変数(特徴量)が明らかになるという利点がある。つまり、複数の物質のどれに該当するデータであるかをランダムフォレスに予測させる場合、物質を予測した上で、その予測の際に重要視した変数(特徴量)を重要な順番に占めさせることができるので、予測した物質と関連する変数(特徴量)が明らかになる。

例えば、SIMSの質量スペクトルをデータ(記述子)としてある物質を予測させた場合は、その物質に由来する質量ピークも明らかになる。ToF-SIMSでは標的物質由来の質量ピークが分かりにくい場合がしばしばあるが、得られたスペクトルから試料に含まれている物質が自動的に示されるだけではなく、その物質由来の質量ピークもわかるため、それらの質量ピークに基づいて、更なる解析(イメージ取得、深さプロファイル取得など)が可能となる。

データ(記述子)が物性を示すデータである場合は、予測した物質と関連の高い物性が示される。物性を目的の解答(ラベル)とする場合は、その物性と関連の高い変数(特徴量)が示される。この方法では、解答(ラベル)にとって重要な変数(特徴量)を示すことができるのはラベルが一つの場合だけであり、複数ラベルを用いて解析している場合は、その中の一つのラベルについてのみ予測させる場合だけ、そのラベルと関連する変数(特徴量)を知ることができる。

複数のラベルを用いて、各ラベルの効果を知るには、ラベルを一つずつ除いた場合の予測結果から評価する方法もある。

関連する参考文献(日本語 Open Access)
機械学習によるTOF-SIMS スヘ?クトル解析(https://doi.org/10.11470/oubutsu.91.3_151)
多変量解析を利用した TOF-SIMSイメージデータフュージョンとスパースモデリングおよび機械学習によるTOF-SIMS スペクトル解析(https://doi.org/10.1384/jsa.25.103)
有機物・高分子・ペプチド試料TOF-SIMSスペクトルの機械学習による予測・分類(印刷中)


関連する参考文献(英語 Open Access)
Evaluation of Time-of-Flight Secondary Ion Mass Spectrometry Spectra of Peptides by Random Forest with Amino Acid Labels: Results from a Versailles Project on Advanced Materials and Standards Interlaboratory Study (https://doi.org/10.1021/acs.analchem.0c04577)


教師あり機械学習の例:中間層1層の人工ニューラルネットワーク (Simple ANN)



関連する参考文献(英語)
Quantitative analysis of ToF-SIMS data of a two organic compound mixture using an autoencoder and simple artificial neural networks, Rapid Communications in Mass Spectrometry (2023). (https://doi.org/10.1002/rcm.9445)



スパースモデリングの応用例



関連する参考文献(日本語 Open Access)
多変量解析を利用したTOF-SIMSイメージデータフュージョンとスパースモデリングおよび機械学習によるTOF-SIMS スペクトル解析(https://doi.org/10.1384/jsa.25.103)
鉄鋼試料中水素拡散評価を目指したマルチモーダルデータ解析 (https://doi.org/10.1380/vss.64.472)

関連する参考文献(英語 Open Access)


画像データの解析



関連する参考文献(日本語 Open Access)
ソフトマテリアルのイメージ・ スペクトルデータ駆動解析の発展 (https://doi.org/10.1380/vss.65.4)
鉄鋼試料中水素拡散評価を目指したマルチモーダルデータ解析 (https://doi.org/10.1380/vss.64.472)
自己符号化器(autoencoder)を用いた高分子試料のTOF-SIMS データ解析 (https://doi.org/10.1384/jsa.28.110)
多変量解析を利用した tOF-SIMSイメージデータフュージョンとスパースモデリングおよび機械学習によるTOF-SIMS スペクトル解析(https://doi.org/10.1384/jsa.25.103)

関連する参考文献(英語 Open Access)
Classification of EBSD Kikuchi Patterns for Stainless Steel by Unsupervised Learning Methods to Investigate Grain Boundaries(https://doi.org/10.1380/ejssnt.2023-023)


情報エントロピー(シャノンエントロピー)の応用例



関連する参考文献(英語 Open Access)
Interpretation of TOF-SIMS data based on information entropy of spectra", Surface and Interface Analysis, (2021). (https://doi.org/10.1002/sia.7047)





参考文献(日本語 Open Access)
機械学習による TOF-SIMS スヘ?クトル解析 (https://doi.org/10.11470/oubutsu.91.3_151)
ソフトマテリアルのイメージ・ スペクトルデータ駆動解析の発展 (https://doi.org/10.1380/vss.65.4)
自己符号化器(autoencoder)を用いた高分子試料のTOF-SIMS データ解析 (https://doi.org/10.1384/jsa.28.110)
鉄鋼試料中水素拡散評価を目指したマルチモーダルデータ解析 (https://doi.org/10.1380/vss.64.472)
多変量解析を利用したTOF-SIMSイメージデータフュージョンとスパースモデリングおよび機械学習によるTOF-SIMS スペクトル解析 (https://doi.org/10.1384/jsa.25.103)
有機物・高分子・ペプチド試料TOF-SIMSスペクトルの機械学習による予測・分類(印刷中)













MVA & Chemometrics for TOF-SIMS Users, in Japanese
「多変量解析・ケモメトリックスのTOF-SIMSスペクトル解析への応用」

*2012年以前の文章なので、情報が古い部分がありますが、参考に残します。

機械学習の計測データへの応用 -データ駆動の活用- に戻る

複雑な混合物からなる試料や高分子および生体試料のTOF-SIMSスペクトルは、マニュアル操作だけでは解析が難しい場合が多々ある。高分子および生体高分子の複雑なフラグメント化、特に高質量範囲におけるピークの重なり合いおよびピーク同定の難しさなどがスペクトル解析を難しくするおもな原因である。こうした困難さを克服する有効な手段として、多変量解析を用いたスペクトル解析が2000年頃からTOF-SIMS分野にも導入された。多変量解析を初めとするケモメトリックスは、すでに他分野のスペクトル分析で大きな成果を上げているが、TOF-SIMS分野においても、その有用性が十分に示され、効果的に用いるプロトコルも確立しつつある。特にイメージングに関しては、Raw Dataを1ピクセルごとのスペクトル情報に分解することによって、多変量解析を有効に利用できる。

ここでは、TOF-SIMSスペクトル解析に有用な多変量解析法およびその他のスペクトル解析法を紹介する。解析法の詳しい原理の説明は専門書や文献に譲り、実際に質量スペクトルをそれぞれの解析法で解析する場合にどのような手順が必要か、どのような点に注意してオプションなどを選ぶべきか、についておもに説明する。


[目次]
スペクトルの前処理について(Preprocessing)
ソフトウェアについて (Software)
ピークの選択 (Peak selection)
Raw Dataの取り出し方 (Raw Data Exportation)     2011.7.29 更新
データの前処理 (Data Preprocessing)     2011.7.29 更新
主成分分析 (Principal Component Analysis: PCA)
主成分回帰 (Principal Component Regression: PCR)
PLS回帰 (Partial Least Squares Regression: PLS)
多変量スペクトル分解法 (Multivariate Curve Resolution: MCR)
(Maximum Autocorrelation Factors: MAF)
独立成分分析 (Independent Component Analysis: ICA)
G-SIMS     2011.7.29 更新
相互情報量 (MI)
タンパク質フラグメント検索ソフト(Protein search program)



スペクトルの前処理(Preprocessing)
データの前処理は、適切なデータ解析を行うために重要だが、データの性質を変えてしまうこともあるため、適用には注意が必要である。TOF-SIMSデータの前処理としては、たとえば、mean-centering(各ピーク強度のバラツキの中心をそろえる)はPCAに有効な場合が多いと言われている。mean-centeringは、一般的に各変数の物理的意味が等しい場合に有効で、スペクトルデータには一般に有効である。データの規格化(Normalization)としてよく用いられるauto-scalingは、各データのバラツキの幅を等しくした(variance scaling)のちにmean-centeringする方法で、物理的意味が等しいが単位が異なる変数を比較する場合に有効である。ほかの規格化法として、ポワソンスケーリング(Poisson scaling)は、SIMSとXPSのデータに対して有効な場合があることが知られているが、この方法を用いる場合は、ほかのスケーリング法は併用できない。ポワソンスケーリングは一連の測定の誤差がポワソン分布(Poisson distribution)に従う場合に有効である。また、高強度ピークに注目する場合は、不感時間補正(dead time correction)が必要な場合がある。

一般に、分散・共分散行列を用いてTOF-SIMSデータのPCAを行う場合は、mean-centeringなどの前処理をすることが望ましい(auto-scalingして分散共分散行列を使うと、未処理データで相関行列を使うのと同じことになる)。ICAなどを用いる場合は、データの変換(transformation)が適切な結果を得るために有効である場合が多い。



ソフトウェアについて
スペクトル上の各ピーク強度のデータに基づいて多変量解析する場合は、エクセルのアドインソフト(Excel多変量解析;エスミ、Excel統計2008;SSRI、など)で十分であり、PCAなどの有名な解析法については、フリーソフトも配布されている。

イメージングデータを解析する場合は、1ピクセルごとのスペクトル情報を数値化できるソフトウェアが必要である。TOF-SIMSユーザーによく用いられているのは、Eigenvector社(USA)のMIA_toolboxであり、PLS_toolbox と併せると多変量解析ができる。これらのプログラムはMatlab上で動かすこともできるが、Matlabなしで作動させるSOLOも販売されている。Matlab上で作動する多変量解析のフリーウェアも各種配布されている。


ピーク選択(Peak Selection)
適切にスペクトル解析を行うためには、ピークの選択が重要である。どのピークセットを解析に用いるか、一つ一つのピークを適切に拾い上げられるか、などによって結果が異なる可能性が大きい。多くのピークを対象とする場合、手作業では困難な場合があるが、自動でピークを選ぶ機能が正しく作動するとは限らないので、SIMSデータ解析ソフトなどに付属する自動ピーク選択機能を用いる場合は、結果を確認することが望ましい。(また、XPSなど他の分析法で用いられているピーク検出プログラムが質量スペクトルにも有効な場合があるらしい。未確認情報)



Raw Dataの取り出し方 (Raw Data Exportation)
1)ION-TOFの場合
ION-TOF: BIFファイルの作成方法(Surfacelab 5以前)
イメージにとりたいピークのファイルを作る。
(適切なピークであることをイメージで確認しておく)
1-1) ピークファイルの作成
(a) Auto Peak Searchを使用する場合
Ionspec(IonSpec Application ver 4.1.0.1の場合)を開き、スペクトルを開く。
メニューバー「Evaluation」=>Auto Peak Search (F6)=>Variable Step Binning
   Variable Step Binning (設定例)
     Start Mass (u): 0.00
     End Mass (u): 1000.00
     Intensity Threshold (cts):100
     Half Width (u): 0.50
     Step Width (u): 1.00
(i) 質量範囲をStart MassとEnd Massで設定(測定した範囲に応じて設定)。
(ii) 強度の閾値(Intensity Threshold)はそのスペクトルの実際の強度に応じて変更。
(iii) ピークの幅は、一般的なデータ解析では最初は1 mass程度で良い。

(ii), (iii)に関しては、最初は設定例どおりにし、実際のピークと解析結果を見て、閾値を下げてピークを増やしたり、閾値を上げてピークを減らしたりする。
(iii)に関しては、1massの中に重要なピークが明らかに複数存在する場合は、Auto Peak Search後に手作業でその部分を修正し、別ファイルで保存する。1massに複数存在するピークが解析結果に反映できるとは限らないので、1 mass間隔のピークファイルと両方を解析にかけ、結果を比較するのが望ましい。

(b) BIFファイルの作成
IonImage (IonImage application 3.1.0.14)を開いて、(a)で作成したピークファイルで、イメージデータを読み込み、メニューバーの「Image Data」 => Export Image Data => Export Image Data File to Binary => BIF形式で保存する。

*この形式のデータは、Eigenvector社のMIA toolboxもしくはPLS toolboxで読み込み、行列データ(テキストデータ)に変換できる(下記)。
*ION-TOFの2011年以降のソフトSurfacelab 6では拡張子がBIF6のフォーマットになる。BIF6は2011年以降のバージョンのMIA toolboxもしくはPLS toolboxで読み込み可能である。
MatLab上もしくはSOLOで、MIA toolbox (PLS_Workspace)のImage Manager => Import Image でCameca Ion-Tof BIF Image (BIF)を選び、ファイルを選択する。
=> Loaded Images でイメージを選択=> File => Save Current Image => To WorkspaceでWorkspaceにファイルをコピーする。
(注:256x256の解像度のデータは大きすぎてうまくいかないことがある。128x128にしておくのが無難)
Workspaceにできたファイルを開く=> Dataタグをクリックして、ファイルからExport to => Comma Separated Value File (CSV)などを選ぶ。
Fileを適当に修正(m/zとピーク強度のみにして、csvで保存)して、Matlabで必要なデータ部分を読み込む(m/zの値も入れている場合は、「テキストのヘッダ行の数」を1として、m/zの値を別にすると、Workspaceに、colheaders, data, textdataと分離される)。


2)Ulvac-Phiの場合
WinCadence (Ulvac-Phi): BIFファイルの作成方法

**PCA Data Processを使用する場合 (WinCadence ver. 4) **
Menu bar => Tools =>PCA Data Process => Image => OpenでRawDataを開く。
質量較正(Calibration)した後、Proc Specボタンを押すと主なピークが自動的に選択される。
*Data reduction=> Settingsで、選択するピークの条件を選べる。
*Peak Settingsで各ピークの質量範囲を変えられる。
*ピークを加える場合は、Newボタンを押して加える。右クリックでも削除、追加は可能。
Exportボタンを押すと、解像度を選んで、BIFファイルに変換できる(128x128が無難)。
*その後の処理は、ION-TOFのBIFファイルと同じである。MIA toolbox (PLS_Workspace)のImage Manager => Import Image でCameca Ion-Tof BIF Image (BIF)を選ぶ(Physical ElectronicsのRawdataを選ばない)。


** MIA Toolbox (Rawread)の利用1 **
MatLab上もしくはSOLOで、MIA toolbox (PLS_Workspace)のImage Manager => Import Image でPhysical Electronics Raw Image (RAW)を選び、ファイルを選択する。
=> Loaded Images でイメージを選択=> File => Save Current Image => To WorkspaceでWorkspaceにファイルをコピーする。
(注:256x256の解像度のデータは大きすぎてうまくいかないことがある。128x128にしておくのが無難)
Workspaceにできたファイルを開く=> Dataタグをクリックして、ファイルからExport to => Comma Separated Value File (CSV)などを選ぶ。

Fileを適当に修正(m/zとピーク強度のみにして、csvで保存)して、Matlabで必要なデータ部分を読み込む(m/zの値も入れている場合は、「テキストのヘッダ行の数」を1として、m/zの値を別にすると、Workspaceに、colheaders, data, textdataと分離される)。

注)自動的にraw dataを読み込むと、MIAがデフォルトで設定している閾値(threshold)よりも高強度のピークだけが読み込まれるので、必ずしも必要なピークが読まれない。

** MIA Toolbox (Rawread)の利用2 ピークを増やすには **
読み込むピークを増やしたいときは、MIA_Toolboxの中のrawread.mのプログラムの最後の方(2009年以降のバージョンならば291行目)

threshold = ceil(max(est.hi_res_spec(peaks))*.01);

を下記のように変えると

threshold = 10;

読み込まれるピークが増える。ただし、PCのメモリによっては、thresholdを下げすぎるとmemory overになって読みこめない。Raw dataによって結果は異なるが、質量範囲1〜1000で測定した高分子試料のraw dataを読み込もうとしたところ、2008年発売の2GBのメモリ搭載iMacはthreshold = 0.01でも作動した(0は作動しなかった)が、2003年発売の1GBのメモリ搭載のLet's Noteはthreshold = 10未満ではメモリーオーバーとなった。

注)rawread.mはImageManagerで、Physical ElectronicsのRaw Dataの読み込みを実行するプログラムだが、ImageManagerを立ち上げずに、rawread.mファイルから実行しても同じ結果となる。

PHI (Physical Electronics, Ulvac-Phi):
** WinCadence: Job Wizardの利用 **
**スペクトルデータを利用する場合**
まず、解析したいピークのピークファイルを作っておく。ピークファイルには、Calibration(質量較正)用のピーク(正イオンの場合は、CH3(15), C2H3(27), C3H5(41), C4H7(55)など)も入れておく。
WinCadenceのメニューバー「Tools」から「JobWizard」を選択すると、JobWizardのウィンドウが開く。スペクトルファイル、ピークファイルを選び、読み込むピークを選ぶ。「Normalize to」のところにTotal Ionや基準となるピークを選んでおくと、その強度で割った値も読み込めるが、規格なしのデータを読み込んでおいて、あとでExcelなどで規格化しても良い。「Finish」で読み出し始める(読み込むピークの中に同じピークが二つ以上あると、エラーとなって、データが読まれないことがあるので注意)。データの読み込みが終わったら、「Clip board」を押して、データをコピーし、Excelなどに貼り付ける。

PLS-Toolbox, MIA-Toolbox (Eigenvector)の利用
**データの前処理 (Data preprocessing) **
PLS-ToolboxでPCAなどでデータを読み込み、preprocessingした後、File => Save data => Calibration => Save Preprocessed x-block Dataで、WorkSpaceにscalingしたデータを保存する。このデータは多層データなので、一度開いて、File => Export to =>CSVで保存する。
MIA-ToolboxのImage ManagerでBIFファイルを読み込み、csvに変換する場合も、多層データなので、一度開いて、File => Export to =>CSVで保存する。その後、任意のプログラムでscalingをする(csvファイルをPLS toolboxで開いて前処理し、File => Save data => Calibration => Save Preprocessed x-block Dataで、WorkSpaceにscalingしたデータを保存してもよい)。


主成分分析(Principal Component Analysis: PCA) 
主成分分析では、元のデータのバラツキをもっとも反映できる新しい軸にデータを変換して、第一主成分という新しい変数を得る。第一主成分に入りきらなかったデータのバラツキを反映する軸(第一主成分の軸と直行する軸)に第二主成分を変換する。さらに、残りの成分は、同様に第三主成分、第四主成分へと変化されていく。最初の変数と同数の新しい変数・主成分(Principal Component: PC)が発生するが、元のデータの情報を十分に含んでいるのは最初の数個の主成分だけなので、数10から数100のピークからなるデータが、数個の主成分だけで解釈できるデータへと変換される。
主成分の得点(scores)をプロットすることにより、スペクトルの単純な比較では分類が難しい複雑なサンプルが、分類できる場合が多い。また、各サンプルの特徴を表すピークは、各種成分の負荷量(Loadings)と得点の分布状態から選べる場合が多い。
PCAを有効に実行するには、解析する変数(ピーク)の数よりもデータ(スペクトル)の数が3倍以上であることが望ましい。エクセルのアドインソフトの場合は、計算の制約上、データの数がピークの数以上でないと実行できない。Matlabを用いると、データ数が少なくても計算は実行できるが、結果の信頼性は低くなる。

イメージングデータ (Imaging Data)
イメージングデータをあらかじめ、テキストファイルなどに変換する。一ピクセル上のスペクトルデータを一つのデータとして、解析したいピークの強度の情報を得ればよい。
ION-TOFの場合は、BIFファイルにして、MIA_ToolboxのImage Manager( Raw Dataの取り出し方 (Raw Data Exportation) 参照)などで読み込めば、テキストデータなどに変換できる。
TRIFT (PHI)の場合は、MIA_ToolboxのImage Manager( Raw Dataの取り出し方 (Raw Data Exportation) 参照)で、Raw Dataを読み込み、テキストデータなどに必要に応じて変換できる(ただし、読み込めるピークが選べないかもしれない。未確認)。



交差確認 (Cross-Validation)
主成分分析を行うと、データは最初にあった変数と同数の主成分に変換される。元のデータの情報の大部分は最初の数個の主成分の中に集約されるので、最初の数個の主成分に注目するだけで、データの概要が分かる。いくつまでの主成分が重要かを判断する基準として、固有値の値や寄与率などを参考とすることがよくある。
いくつまでの主成分が有効か決定するのに有効な方法の一つが、交差確認(クロスバリデーション)である。交差確認の代表的な方法の一つがleave-one-out法で、元のデータから一部をのぞいたデータで主成分分析し、その結果がのぞいた対象を正しく分類できるか調べることによって、主成分分析で得られたモデルの正しさを検証する。leave-one-out法は比較的データ数が少ないとき(n=20以下)の時に有効である。
Eigenvector社のPLS_Toolboxには、Cross-Validation Methodには下記がある。
Venetian Blinds:
Contiguous Blocks:
Random Subsets:
Leave-One-Out:
Custom:


初めてPCAを使用する場合
初めてPCAを試す場合は、Excelのアドインソフトなどが手軽である。Excelのアドインソフト(エクセル統計、エクセル多変量解析など)はアカデミック価格で約2万円、一般価格で約4万円(2010年6月の価格)程度である。もしくは、CDが付属している多変量解析の入門書(2000円程度)を購入すれば、フリーウェアが添付されている。

こうしたソフトを利用する場合、選ばなくてはならないオプションとして、PCAの計算を実施する際に「相関行列」と「分散共分散行列」のどちらを用いるかという選択肢がある。初めてPCAをかける場合は、相関行列を選ぶことをおすすめする。相関行列を選ぶ場合は、データ前処理などで説明したauto-scalingしたデータを分散共分散行列で処理するのと同じことになるが、auto-scalingは、物理的意味は同じだが単位が異なる物理量を比較する際に有効な処理である。一般的な、スペクトル解析では、auto-scalingするとスペクトル間の差が埋もれてしまうため不適切とされるが、TOF-SIMSスペクトルの場合、各二次イオンの二次イオン化率が異なるため、単位が異なる物理量を比較すると考えても良い。

MatlabとPLS_Toolboxを用いる場合は、Data preprocessing でAuto-scalingを選んで処理すれば、Excelのアドインソフトで相関行列を選んだ場合と同様の結果になる。PCAについてよく分からないときは、まずこの手法で解析するのが無難である。ただし、サンプル、データの状態によっては最適な手法ではないので、PCAの理解が進んだ段階で、解析やサンプルの目的に合った手法を選び直すとよりよい。

主成分回帰(Principal Component Regression: PCR) 



PLS回帰(Partial Least Square: PLS) 



多変量スペクトル分離法(Multivariate Curve Resolution: MCR) 
MCRについて
MCRは、得られたスペクトルが、純成分のスペクトルの和となると考えて、各純成分のスペクトルを分離する方法である。主成分分析(PCA)の場合は、得られたスペクトルデータから分散・共分散行列もしくは相関行列を求め、その固有値と固有ベクトルから第一主成分を決定し、第二主成分は第一主成分と直交する(相関のない)成分として決定する、という作業の繰り返しで主成分を得るため、各主成分は一意的に決まる。一方MCRでは原理的に解は一つではなく、一般的には試行錯誤のような方法で解を探すことになる。ただし、元のデータの情報を多く取り込んでいる(分散が大きい)ことに基づいて得られるPCAの主成分には必ず物理的意味があるとは限らないが、MCRで分離される純成分のスペクトルは、適切に得られれば、物理的意味を持つ。

ここで紹介するMCRは、繰り返し交互最小自乗法(alternating least square: ALS)もしくはその改良法であるMALS (modified ALS) に基づいている。簡単に概要を紹介する。

得られたTOF-SIMSスペクトルをX(各試料の各ピークの強度を行列に記したもの)とする。

X = CS T +E

上式のEはデータに含まれるノイズ成分で、Cは各試料(イメージングデータの場合は各ピクセル)における分離された純成分の強度(イメージングデータの場合は各純成分の分布)、Sは各純成分における各ピークの強度(純成分のスペクトルデータ)を表す。MCRでは、C、Sを求める必要があり、TaulerらのMCR-ALSでは、初期値として、PCAの結果を用い、武藤らのMALSに基づくプログラムでは、初期値はランダムに設定している。一般に、MCRを実施する場合には、純成分の個数と初期値を設定する必要がある。


ここでは、MCRについては、汎用フリーウェア(MCR-ALS)と、Eigenvector社のPLS_Toolboxを用いた場合を説明する。

MCR-ALS2004
1)スペクトルデータを作成: 各サンプルの各ピークの強度のファイル(csv)
2)PLS_Tool boxなどで、PCAをかけておく。
PCAのscoreをcsv形式のファイルにしておく。採用すべき主成分の個数の参考にもする。
Review Scores => File => Edit data => ファイル=> Export to => Comma Separated Values File (CSV)で保存。
3)Matlabで、(1)と(2)のデータを開き、Workspaceに読み込んでおく。
*ALS2004で使うデータには、m/zの情報は入れない。サンプル名は、入れておいても、読み込む時に省くことができる。
4)ALS2004のals2004.mを開き、実行する。
5)"Selection of the data set" Data matrix: スペクトルデータを選ぶ(1)
  "Selection of the data set" Initial estimate: PCA scoreデータを選ぶ(2)
6)"Selection of ALS constrains" Non-negativity: Yes
 specとconcにチェック(スペクトルとイメージを得る)
 Implementation for conc/spec: fnnls(速い計算)
"Selection of ALS constrains" Optimization parameters: Nr. Of iterations: 50〜500程度
Convergence criterion: 0.01〜0.1程度(これらの設定は結果に応じて変える)
Graphical outputにチェックを入れて、Optimizeボタンを押す。
7)"No Closure" ウィンドウで、Type of normalizationを選ぶ。
8)ALS Optimizationウィンドウが開き、スペクトルが検討されていく。Convergence is achievedが表示されれば完了。
** 到達しない場合は、"Selection of ALS constrains" Optimization parameters: 「Nr. Of iterations」の回数を増やしたり、Convergence criterionを変えたりしてみる。
9)Workspaceにできたファイルの中で「sopt」が各成分のスペクトル(m/zは別に用意しておいたものと併せてエクセルなどで表示させればよい)を表し、「copt」は、各成分のイメージを表す。

10)イメージを表示させるには、coptの中の1成分ずつの行列(1列)を変換する必要がある。
たとえば、128x128の解像度のイメージの場合、1行の長さが128x128=16384の「16384行1列」の行列となっている。この行列を仮にAとすると、B = reshape (A, 128, 128) とMatlabでコマンドを入力すると、16384行1列の行列Aが128行128列の行列Bに変換される。
次に、image(B); colorbar; とコマンドを入力するとカラーバーをともなって、イメージが表示される。色調を変えるには、image(B); colormap(hot(128)); colorbar; などとすればよい。「hot(128)」の()の数字は、カラーバーの最大値なので、イメージの行列(この例の場合は行列AもしくはB)の中の最大値などに設定すれば良い。(色調については、Matlabのcolormapコマンドの説明を参照)



(Maximum Autocorrelation Factors: MAF)
MAFは、PCAと同様に全体の分散が大きくなるようにしつつ、隣り合うピクセルの分散は小さくなるような条件で変換する手法である。隣り合うピクセルは類似する情報を持つ可能性が高いため、隣り合うピクセルの分散を小さくする条件を付加すれば、より実際の試料の状態を反映した結果が得られる可能性が高くなる。つまり、MAFはイメージングの観点からPCAを改良したような手法と位置づけできる。


独立成分分析(Independent Component Analysis: ICA)



ニューラルネットワーク(Neural Network: NN)



G-SIMS
G-SIMSの原理
G-SIMSは、再構成していないフラグメントイオン(unreconstructed fragments)を適切な強度で得ることにより、標準試料(reference)なしに同定できるシステムである。同じ試料のスペクトルパターンが一次イオンのエネルギーで変わることを利用して、高エネルギーでイオン化したフラグメント化率の高いスペクトル(high fragmentation spectra: HFS)と低エネルギーでイオン化したフラグメント化率の低いスペクトル(low fragmentation spectra: LFS)を比較することにより、もっともフラグメント化しにくい条件下で発生しうるスペクトルを求める手法である。一般ユーザーがG-SIMSを試す場合は、ION-TOF社から市販されているG-Tip(MnとBiの混合一次イオン源)を用いるのが推奨されている。G-Tipが無い場合は、BiとBi3(おそらくAuとAu3もOK)を用いても良いが、m/z 300以下の低質量領域に特徴的なピークが出やすい試料の場合は、MnとBiの組み合わせの方が良い。

*BiとBi3の組み合わせの場合は、スペクトルの解釈が難しい場合があるので、最初に試す場合は、MnとBiの組み合わせをお勧めする。

G-SIMSの解析には、NPLより配布されているeasygsimsを用いるのが良いが、このプログラムは、Excel2000のマクロで組まれているので、新しいバージョンのExcelではうまく作動しない場合もある(Excel 2003, XPはOK)。easygsimsでは、エネルギーの異なる一次イオン源で得られたスペクトルのピーク強度を入力すれば、自動的に計算が進むがその計算過程を以下で説明する。


G-SIMS解析方法
E1、E2の二種類のエネルギー(E1 > E2)で同じサンプルのスペクトルを測定する。

1)低エネルギーで得たNi+ (E2)と高エネルギーで得たNi+ (E1)の比から、因子Fxを得る。Fxは有効表面プラズマ温度Tp1、Tp2と相関がある。Tp2はΔTだけTp1よりも小さい。(Ni+:二次イオンピークのカウント数)

2)Fx2は、Tp2からΔT温度が下がったときの状況を表す因子で、たとえば、Fx13は、Tp2-12ΔTの温度のときを表す。

3)ここで仮定した表面プラズマ温度(Tp2-12ΔT)でのS-SIMSスペクトルは、実際のスペクトル(低エネルギーの測定での)の各二次イオンの強度(カウント)Nxに因子Fx13を掛けることで得られる。これをG-SIMSスペクトルとすると、その強度I0, xは下記で求められる。Mxは発生したフラグメントの質量である。

G-SIMSスペクトルの強度 Ix = Mx Nx Fxg
(Mx:Mass、Nx:実スペクトルの強度、Fx:E2測定の強度/ E1測定の強度)

ここで、g=13が親イオンの検出に有効な数字である場合が多いと推奨されているが、gの値を変化させて様子を確認することが望ましい。Mxをかけるのは、高質量になるほど二次イオンが出にくくなる現象への補正である。easygsimsのFigure 3はこの計算で単純に求められたものである。こうして得られたG-SIMSスペクトルは、再配列なし分解なしの親フラグメントイオンを見やすくしたスペクトルとなる。


easygsimsの使用方法と計算過程
Solver ToolPakかAnalysis ToolPakアドインに設定されていない場合は、Sheet 2のインストラクション(INSTRUCTIONS)に従い、Excelのメニューバー「ツール」から「アドイン」を開き、分析ツールにチェックを入れて、Analysis ToolPakなどを設定し、Excelを再起動する。(Solver32.xll, Analysis32.xll)

*easygsimsはExcel2000でマクロが組まれているので、バージョンによっては上手く作動しない可能性がある。(Excel2003は動作確認済み)
*新しいバージョンのExcelの場合、OfficeフォルダのLibraryからコピーして、SOLVER.XLL(.XLA)をAddInのSolverフォルダーに、Analysis32.xllをAddInフォルダーに貼り付けて、Excelを再起動する。

1)TOF-SIMS測定
E1、E2の二種類のエネルギー(E1 > E2)で同じサンプルのスペクトルを測定。値にぶれがないことが重要なので、2種類以上の一次イオン源で各三回ずつ、同一サンプルの同一位置でスタティック限界を超えない条件(全測定の合計のイオンドーズ量が 5x1011 ions/cm2以下)で測定する。必要に応じて電子銃による帯電補正が必要だが、照射しすぎるとデータに不具合が生じるので、電子銃の電流を100-500nA程度にして、照射量を6x1014 electrons/cm2 以下に設定する。(電流を10μA以上に設定すると、すぐに制限値を超えてしまうので、電流は100-500nA程度にするのが良い。)

2) STEPS 1, 2 and 3: データ取得と再現性確認 (Sheet 3)
Low fragmentation spectra(LFS)に低エネルギー測定のピーク強度データを入力し、High fragmentation spectra(HFS)に高エネルギー測定のピーク強度データを入力する。ピークのMassも入力する。
同一箇所で三点以上ずつ測定した各一次イオンによるピークデータの再現性の指標(Overall repeatability)が5%以下であることを確認し、次のステップに進む。(5%以上になってしまった場合は、ピークファイルを確認しておかしいピークを省くとうまくいく場合もある。)

3)STEP 4: GSIMS -Fxy (Sheet 4)
Figure 1: LFS強度とHFS強度の比(LFS強度/HFS強度)を縦軸(Ratio)として、Mass(横軸)に対してプロット。
高質量一次イオン源は、低質量一次イオン源よりも、はるかにフラグメント化を起こしにくい。つまり、一次イオン源が大きく(低エネルギーに)なるほどフラグメント化が起こりにくくなるので、Ratioは、基本的には高質量ほど大きくなる。この効果を抑えるために、Figure 1では、a least modulus minimization(最小絶対値最小法?)による三次の近似(cubic fit)をしている。(Fit曲線 y=f(Mx) は、Log10[F(Mx)] が 0-1 の範囲で変化するMx (Mass)の関数である。)Ratioをこの近似曲線で割ると、高質量になるほどRatioが大きくなる傾向が打ち消される。

Figure 2:Fig. 1のRatioをfitで割った値を縦軸(F*x, y)として、質量(横軸)に対してプロットした図。

Figure 3:Figure 2のF*x, yを基準として、G-SIMSスペクトルを計算した結果。[Gsims Intensity Ix = MxNxFxg]の[Fx]は[Figure 2のF*x, y]の値を採用している。
Figure 2のF*x, yが、1より大きな値をとる場合は、g乗されて値が強調され、1より小さい場合は、g乗されて値が小さくなる。つまり、高温で出やすいフラグメントイオンほど強度が弱くなり、低温で出やすい親イオンや特徴的なフラグメントイオンが強調されたスペクトルとなる。(gの値を大きくするほど、低フラグメント化状態での特徴ピークが強調される。)
「フラグメントカスケード」を考慮して補正した結果が必要な場合はSTEP5に進む。

4)STEP 5: 補正FxyによるG-SIMS (Sheet 5)
Figure 4はSheet 4のFigure 2のMass(横軸)を対数にしたグラフ。この図から、Tangent lineを探す。3つの候補が表示されるが、それぞれどのGradientを選ぶかで、Figure 5が異なるので、Figure 5に適切なフラグメントイオンもしくは親イオンが表示されているかどうか確認する。

*傾きをつけたくない時は、0 を入力する(よく分からない時は、傾き無しか、もっとも小さい傾きを選ぶと良い)。
*F*x, y値は、物質や装置の特性で、たいてい高質量になるほど減少する。これを補正する手続きをここで行う。

Tangent lineは、Figure 4のプロットで一番大きなF*x, y値に水平な線を引いて、その線を時計回りに動かして、最初に当たったプロット(つまり一番大きなF*x, y値よりも高質量側にあるプロット)に対して引いた直線である。この直線の傾きが、Gradient 1として示される。一番大きなF*x, y値を持つプロットよりも高質量範囲で一番大きなF*x, y値に対して同じ手順を施してえられるのが、Gradient 2の傾きの直線である。同様にGradient 3も得られる。
Figure 5:フラグメントカスケードを考慮して、Tangent gradientで補正したF*x, y値のプロット。

*フラグメントカスケード Fragmentation Cascade (Sheet4: Figure 2)
水素一個が脱離するのに必要なエネルギー(活性化エネルギー)をΔuとするとCnH2nからi個の水素が脱離してCnH2n-iが発生するとき必要なエネルギーは iΔu と考えられる。したがって、

CnH2n => CnH2n-i + iH ( k = A exp{-(iΔu)/(kTp)} )
Rate of CnH2n-i = [CnH2n]A exp{-(iΔu)/(kTp)}
∴ Ni = N0 exp(iΔu/kTp)

このうちイオンになるものをイオン化率から求めると、

Ni+ = N0+ {Yi+ (Tp)/Y0+ (Tp)} exp(-iΔu/kTp)

一次イオンエネルギーがE1とE2の場合の比を考えて簡単にすると、

Fx, i = Ni+ (E2)/Ni+ (E1) = N0+ (E2)/N0+ (E1) exp (-iβ)
= Fx, 0 exp (-iβ)
∴ (ln Fx, i)/(ln Fx, 0) = -βi
Ni:フラグメントCnH2n-iのカウント数、N0:フラグメントCnH2nのカウント数
 β=Δu'/k{(1/Tp2) -(1/Tp1)}

つまり、CnH2n水素がi個脱離した二次イオンピークについて、低エネルギー測定時の強度と高エネルギー測定時の強度の比の対数(ln Fx, i)とiをプロットすればその傾きからβが求められる。つまり、βは、縦軸を自然対数として、Fx, i vs. massをプロットしたときのiの増加に対する直線の傾きであり、水素の脱離を考えているときは、βはamuに対する傾きとして求められる。

*Sheet4: Figure 2には、複数の平行線に乗ったプロット群が見られるはずである。同じ平行線上の二次イオンは、CnH2n-i の一連の二次イオン群である可能性が高い。この平行線に乗らない二次イオンの場合は、質量が1(H相当分)異なる場合も水素の付加脱離の関係に無いと考えられる。

4)Sheet 5 & Sheet 6: Figure 6
フラグメントカスケードを考慮して補正したG-SIMSスペクトル。

5)Gogram
**最大強度を与えるg-indexを考慮した解析法**
G-SIMSスペクトルでは、g-indexの値が大きいほど、低温(低エネルギー)で発生する二次イオンが強調される。したがって、大きなg-index値(低温・低エネルギー)で発生しやすい二次イオンは、分子イオンもしくは分子イオンに近い二次イオンである可能性が高い。そこで、その二次イオンが最大強度を取るg-index値(gmax)で二次イオンを特徴づけ、クロマトグラフのように解析する手法がG-ogramである。詳細は下記論文参照。

R. Ogaki, I. S. Gilmore, et al., "Surface Mass Spectrometry of Two Component Drug Polymer Systems: Novel Chromatographic Separation Method Using Gentle-Secondary Ion Mass Spectrometry (G-SIMS)", Anal. Chem., 83 (10), pp 3627-3631 (2011)



相互情報量(Mutual Information: MI)



タンパク質フラグメント検索ソフト(Protein search program)