国際化学物質識別子

InChI
開発者InChIトラスト
初回リリース2005年4月15日[1] [2] (2005年4月15日
安定版リリース
1.07.4 / 2025年7月4日; 4か月前 (2025年7月4日
オペレーティング·システムMicrosoft WindowsUnix系
プラットフォームIA-32x86-64
入手可能な英語
ライセンスMITライセンス
Webサイトwww.inchi-trust.org

国際化学識別子InChI発音 :/ ˈɪn / IN -chee[3]は化学物質テキスト識別子であり、分子情報をエンコードするための標準的な方法を提供、データベースやウェブ上でそのような情報を検索しやすくするように設計されています。 2000年から2005年にかけて、国際純正・応用化学連合(IUPAC)と米国国立標準技術研究所(NIST)によって最初に開発されたもので、フォーマットとアルゴリズムは非独占的です。2009年5月以降、 InChIの実装と使用の促進に取り組む英国の非営利慈善団体であるInChI Trustによって開発されています。 [4]

識別子は、化学物質を情報層(原子とその結合関係、互変異性体情報、同位体情報、立体化学、電子電荷情報)で記述します。 [5]すべての層を提供する必要はありません。例えば、互変異性体層は、その種の情報が特定のアプリケーションに関連しない場合は省略できます。InChIアルゴリズムは、入力された構造情報を、正規化(冗長な情報を削除)、正規化(各原子に固有の番号ラベルを生成)、シリアル化(文字列を付与)という3段階のプロセスで一意のInChI識別子に変換します。

InChIは、広く使用されているCAS登録番号と3つの点で異なります。第一に、自由に使用でき、非独占的であることです。第二に、構造情報から計算でき、何らかの組織によって割り当てられる必要がないことです。そして第三に、InChIの情報のほとんどは人間が判読可能です(練習すれば)。したがって、InChIはIUPAC名の一般かつ高度に形式化されたバージョンとみなすことができます。InChIは、より単純なSMILES表記よりも多くの情報を表現でき、SMILES文字列とは対照的に、すべての構造に固有のInChI文字列があり、これはデータベースアプリケーションで重要です。原子の3次元座標に関する情報はInChIでは表現されませんが、この目的ではPDBなどの形式を使用できます。

InChIKey(ハッシュ化InChIとも呼ばれる)は、人間には理解できない固定長(27文字)のInChIの凝縮されたデジタル表現です。InChIKeyの仕様は、化合物のウェブ検索を容易にするために2007年9月に公開されました。これは、InChIの全長では問題があったためです。[6] InChIとは異なり、InChIKeyは一意ではありません。衝突は極めて稀であると予想されますが、既知の衝突は存在します。[7]

2009年1月、InChIソフトウェアのバージョン1.02がリリースされました。これにより、いわゆる標準InChIを生成する手段が提供されましたが、InChI文字列の立体化学および互変異性体レイヤーの処理に関してユーザーが選択できるオプションは提供されません。標準InChIKeyは、標準InChI文字列のハッシュ化バージョンです。標準InChIにより、異なるグループによって生成されたInChI文字列とキーの比較が容易になり、データベースやWebリソースなどのさまざまなソースからアクセスできるようになります。

この規格の継続的な開発は、IUPACもメンバーである非営利団体InChI Trustによって2010年から支援されてきました。バージョン1.06は2020年12月にリリースされました。[8] 1.04より前のバージョンでは、このソフトウェアはオープンソースの LGPLライセンスの下で無料で利用できました。[9]バージョン1.05と1.06では、IUPAC-InChI Trustライセンスと呼ばれるカスタムライセンスが使用されていました。[10]

バージョン1.07.1(2024年8月)以降、このソフトウェアはMITライセンスを採用しており、InChI GitHubサイトからダウンロードできます。分子エディタへの実装に加え、複数のLinuxディストリビューション( [11] Debianを含む)向けにスタンドアロン実行ファイルがパッケージ化されています[12]

世代

互変異性体構造に対して異なるInChIが生成されることを避けるため、InChIを生成する前に、入力化学構造はいわゆるコア親構造へと正規化されます。この処理では、結合次数の変更、形式電荷の並べ替え、場合によってはプロトンの追加と削除が行われることがあります。異なる入力構造でも同じ結果になる場合があります。例えば、酢酸と酢酸はどちらも同じコア親構造(酢酸)を生成します。コア親構造は分離されており、複数の成分から構成される場合があります。その場合、InChIのサブレイヤーは通常、各成分のサブレイヤーで構成され、セミコロン(化学式サブレイヤーの場合はピリオド)で区切られます。これが発生する1つの方法は、正規化中にすべての金属原子が分離されることです。例えば、テトラエチル鉛のInChIは、鉛が1つ、エチル基が4つ、合計5つの成分で構成されます。[5]

InChIの最初のメイン層は、このコアとなる親構造を指し、その化学式、結合順序のない非水素結合(/cサブ層)、および水素結合(/hサブ層)を示します。/q電荷層の部分は電荷を示し、/p電荷層の部分は元の構造を再生するために何個のプロトン(水素イオン)を追加または除去する必要があるかを示します。立体化学層が存在する場合、サブ層、、およびとともに立体b化学情報を提供し、同位体層(サブ層/t、、、および含む場合がある)は同位体情報を提供します。これらは標準的なInChIで存在できる唯一の層です。[5]/m/s/i/h/b/t/m/s

ユーザーが正確な互変異性体を指定したい場合は、固定水素層/fを追加することができます。この層には様々なサブレイヤーを追加できます。ただし、これは標準InChIでは実行できないため、異なる互変異性体でも同じ標準InChIが生成されます(例えば、アラニンは中性型でも両性イオン型でも同じ標準InChIが生成されます)。最後に、非標準の再結合/r層を追加することで、金属原子との結合を切断することなく、新しいInChIを生成することができます。この層には、 を含む様々なサブレイヤーが含まれる場合があります/f[5]

フォーマットとレイヤー

InChI形式
インターネットメディアの種類
化学薬品/xインチ
フォーマットの種類化学ファイル形式

すべてのInChIは文字列 " InChI=" で始まり、その後にバージョン番号(現在は )が続きます1。InChIが標準の場合、この後に標準InChISの文字が続きます。これは、構造の詳細に対する同じレベルの配慮と、描画認識に関する同じ規則を維持した、完全に標準化されたInChIフレーバーです。残りの情報は、レイヤーとサブレイヤーのシーケンスとして構造化され、各レイヤーは1つの特定のタイプの情報を提供します。レイヤーとサブレイヤーは区切り文字 " " で区切られ、特徴的な接頭辞文字で始まります(メインレイヤーの化学式サブレイヤーを除く)。重要なサブレイヤーを持つ6つのレイヤーは次のとおりです。/

  1. メインレイヤー(常に存在)
    • 化学式(接頭辞なし)。これはすべてのInChIに必ず記載される唯一のサブレイヤーです。InChI全体で使用される番号は、水素原子を除く元素の順序で示されます。例えば、「/C10H16N5O13P3」は、1~10番の原子が炭素、11~15番が窒素、16~28番が酸素、29~31番がリンであることを示します。[13]
    • 原子結合(接頭辞:" c")。化学式中の原子(水素を除く)は順に番号が付けられます。このサブレイヤーでは、どの原子がどの原子と結合しているかを記述します。これらの結合の種類は、後に" b"で始まる立体化学レイヤーで指定されます。
    • 水素原子(接頭辞:「h」)。他の原子それぞれに結合している水素原子の数を表します。
  2. 充電
    • 電荷サブレイヤー(接頭辞:「q」)
    • 陽子サブレイヤー(接頭辞:「p陽子」の「 」)
  3. 立体化学
    • 二重結合とクムレン(接頭辞:「b」)
    • 原子およびアレンの四面体立体化学(接頭辞:「t」、「m」)
    • 立体化学情報の種類(接頭辞:" s")
  4. 同位体層(接頭辞:「i」)、以下の層が含まれる場合がある:[13]
    • h同位体水素のサブレイヤー「 」
    • 同位体立体化学のサブレイヤー「b」、「t」、「m」、「 」s
  5. 互変異性水素のための固定H層(接頭辞:「f」)。原子結合を除く上記の層のいくつかまたはすべてを含む。「o」サブ層で終わることがある。標準InChIには含まれない[13]
  6. 再結合層(接頭辞:「r」); 再結合した金属原子を含む構造のInChI全体を含みます。標準のInChIには含まれません。

区切り文字プレフィックス形式の利点は、ユーザーがワイルドカード検索を使用して、特定のレイヤーにのみ一致する識別子を簡単に見つけることができることです。

構造式標準InChI
InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3
L-アスコルビン酸InChI
InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

InChIKey

27文字の短縮版InChIKeyは、完全なInChI(SHA-256アルゴリズムを使用)のハッシュ版であり、化合物のウェブ検索を容易にするために設計されています。[6]標準InChIKeyは、標準InChIのハッシュ版です。2007年までウェブ上の化学構造のほとんどはGIFファイルとして表現されていましたが、化学コンテンツを検索することはできませんでした。完全なInChIは長すぎて簡単に検索できないことが判明したため、InChIKeyが開発されました。2つの異なる分子が同じInChIKeyを持つ可能性は非常に低いものの、ゼロではありません。しかし、最初の14文字のみが重複する確率は、それぞれ10億の固有の構造を含む75のデータベースでわずか1件と推定されています。現在、すべてのデータベースの構造が5000万件未満であるため、このような重複は現時点では考えにくいです。最近の研究では、衝突率をより広範囲に調査し、実験的な衝突率が理論的な予測と一致することがわかりました。[14]

InChIKeyは現在、ハイフンで区切られた3つの部分で構成され、それぞれ14、10、1文字です( )XXXXXXXXXXXXXX-YYYYYYYYFV-P。最初の14文字は、InChIの接続情報(電荷層のメイン層とサブ層)のSHA-256ハッシュから生成されます/q。2番目の部分は、InChIの残りの層のハッシュから生成された8文字、InChIKeyの種類を示す1文字(S標準の場合は 、N非標準の場合は )、および使用されているInChIのバージョンを示す1文字(現在はAバージョン1)で構成されます。最後に、最後の1文字は、電荷層のサブ層に対応するコア親構造のプロトン化を示します(はプロトン化なし、はプロトンを追加する場合、 、... はプロトンを削除する場合)。[15] [5]/pNOPML

モルヒネの構造

モルヒネは右に示す構造を有する。モルヒネの標準InChIはであり InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1、モルヒネの標準InChIKeyはであるBQJCRHHNABKAKU-KBQPJGBKSA-N[16]

InChIリゾルバー

InChIはInChIKeyから再構築できないため、元の構造に戻るには、常にInChIKeyを元のInChIにリンクする必要があります。InChIリゾルバは、これらのリンクを作成するための検索サービスとして機能し、プロトタイプサービスは国立がん研究所、欧州バイオインフォマティクス研究所のUniChemサービス、およびPubChemから利用可能です。ChemSpider2015年7月に廃止されるまでリゾルバを搭載していました。[17]

名前

この形式は、当初は IChI (IUPAC Chemical Identifier) と呼ばれていましたが、2004 年 7 月に INChI (IUPAC-NIST Chemical Identifier) に改名され、さらに 2004 年 11 月に IUPAC の商標である InChI (IUPAC International Chemical Identifier) に改名されました。

継続的な開発

InChI標準規格の科学的方向性はIUPAC第VIII部会小委員会によって行われ、標準規格の拡張を調査・定義するサブグループへの資金提供はIUPACInChI Trustの双方によって行われています。InChI Trustは、InChIの開発、試験、および文書化に資金を提供しています。現在、ポリマー混合物、マルクーシュ構造、同位体置換体と同位体異性体、[18] 反応[19] 有機金属化合物、ナノ材料[20]を扱うための拡張が定義されており、第VIII部会小委員会によって承認され次第、アルゴリズムに追加されます。

ソフトウェア

InChI Trustは、InChI、InChIKey、その他の識別子を生成するためのソフトウェアを開発しました。このソフトウェアのリリース履歴は以下の通りです。[21]

ソフトウェアとバージョン日付ライセンスコメント
InChI v. 12005年4月
InChI v. 1.012006年8月
InChI v. 1.02ベータ2007年9月LGPL 2.1InChIKey 機能を追加します。
InChI v. 1.022009年1月LGPL 2.1InChIKeyのフォーマットを変更しました。
標準InChIを導入しました。
InChI v. 1.032010年6月LGPL 2.1
InChI v. 1.03 ソース コード ドキュメント2011年3月
InChI v. 1.042011年9月IUPAC/InChI トラスト InChI ライセンス 1.0新しいライセンス。
要素105~112のサポートが追加されました。CML
のサポートは削除されました。
InChI v. 1.052017年1月IUPAC/InChI トラスト InChI ライセンス 1.0元素番号113~118のサポートを追加しました。
実験的なポリマーのサポート。
実験的な巨大分子のサポート。
RInChI v. 1.002017年3月IUPAC/InChI Trust InChIライセンス1.0およびBSDスタイル反応InChIsを計算します。[19]
InChI v. 1.062020年12月IUPAC/InChIトラストInChIライセンス1.0 [10]ポリマーサポートを改訂しました。
InChI v. 1.07.12024年8月MITライセンスコードはGitHubに移動されました

採択

InChIは、ChemSpiderChEMBLGolm Metabolome DatabasePubChemなど、多くの大規模および小規模のデータベースで採用されています。[22]しかし、採用は容易ではなく、多くのデータベースでは化学構造とそれに含まれるInChIの間に矛盾が見られ、データベースのリンクに問題が生じています。[23]

参照

注釈と参考文献

  1. ^ 「IUPAC 国際化学識別子プロジェクトページ」IUPAC . 2012年5月27日時点のオリジナルよりアーカイブ2012年12月5日閲覧。
  2. ^ Heller, S.; McNaught, A.; Stein, S.; Tchekhovskoi, D.; Pletnev, I. (2013). 「InChI - 世界規模の化学構造識別子標準」. Journal of Cheminformatics . 5 (1): 7. doi : 10.1186/1758-2946-5-7 . PMC 3599061. PMID  23343401 . 
  3. ^ 「InChIとは一体何なのか?」IUPAC 100。2024年5月10日閲覧
  4. ^ 「InChI TrustとIUPAC」InChI Trust . 2022年8月22日閲覧
  5. ^ abcde Heller, SR; McNaught, A.; Pletnev, I.; Stein, S.; Tchekhovskoi, D. (2015). 「InChI, the IUPAC International Chemical Identifier」. Journal of Cheminformatics . 7 23. doi : 10.1186/s13321-015-0068-4 . PMC 4486400. PMID 26136848  . 
  6. ^ ab "The IUPAC International Chemical Identifier (InChI)". IUPAC . 2007年9月5日. 2007年10月30日時点のオリジナルよりアーカイブ。 2007年9月18日閲覧
  7. ^ EL Willighagen (2011年9月17日). 「InChIKeyの衝突:DIYコピー/ペースト可能」 . 2012年11月6日閲覧
  8. ^ Goodman, Jonathan M.; Pletnev, Igor; Thiessen, Paul; Bolton, Evan; Heller, Stephen R. (2021年12月). 「InChIバージョン1.06:信頼性99.99%以上を達成」. Journal of Cheminformatics . 13 (1): 40. doi : 10.1186/s13321-021-00517-z . PMC 8147039. PMID  34030732 . 
  9. ^ McNaught, Alan (2006). 「IUPAC国際化学識別子:InChl」. Chemistry International . 第28巻第6号. IUPAC . 2007年9月18日閲覧。
  10. ^ ab 「国際化学物質識別子(InChI)ソフトウェアのためのIUPAC/InChI-Trustライセンス」(PDF) IUPAC/InChI-Trust. 2020年. 2022年8月9日閲覧
  11. ^ 「Inchi パッケージ - Repology」。
  12. ^ 「Inchi - Debian パッケージ トラッカー」。
  13. ^ abc Heller, Stephen R.; McNaught, Alan; Pletnev, Igor; Stein, Stephen; Tchekhovskoi, Dmitrii (2015). 「InChI, the IUPAC International Chemical Identifier」. Journal of Cheminformatics . 7 23. doi : 10.1186/s13321-015-0068-4 . PMC 4486400. PMID  26136848 . 
  14. ^ Pletnev, I.; Erin, A.; McNaught, A.; Blinov, K.; Tchekhovskoi, D.; Heller, S. (2012). 「InChIKey衝突耐性:実験的検証」Journal of Cheminformatics . 4 (1): 39. doi : 10.1186/1758-2946-4-39 . PMC 3558395 . PMID  23256896. 
  15. ^ 「技術FAQ - InChI Trust」. inchi-trust.org . 2021年1月8日閲覧
  16. ^ "InChI=1/C17H19NO3/c1-18..." Chemspider . 2007年9月18日閲覧
  17. ^ InChI Resolver、2015年7月27日
  18. ^ ハンターNBモーズリー;フィリップ・ロッカ・セラ。レザ・M・サレク。有田正典;エマ・L・シーマンスキー(2024年5月14日)。 「InChIアイソトポローグとアイソトポマーの仕様」。ケモインフォマティクスジャーナル16 (1).土井10.1186/S13321-024-00847-8ISSN  1758-2946。ウィキデータ Q125934731。
  19. ^ ab Grethe, Guenter; Blanke, Gerd; Kraut, Hans; Goodman, Jonathan M. (2018年5月9日). 「反応のための国際化学識別子(RInChI)」. Journal of Cheminformatics . 10 (1): 45. doi : 10.1186/s13321-018-0277-8 . PMC 4015173. PMID 24152584  . 
  20. ^ Iseult Lynch、Antreas Afantitis、Thomas E Exner、他 (2020年12月11日). 「ナノのためのInChIは、実験研究とナノインフォマティクス研究における複雑なナノ材料の簡略化された表現の必要性に対応できるか?」Nanomaterials . 10 (12). doi : 10.3390/NANO10122493 . ISSN  2079-4991. PMC 7764592 . PMID  33322568. Wikidata  Q104477914. 
  21. ^ InChIソフトウェアのダウンロード、2021年1月8日にアクセス。
  22. ^ Warr, WA (2015). 「多数のInChIとかなりの偉業」. Journal of Computer-Aided Molecular Design . 29 (8): 681– 694. Bibcode :2015JCAMD..29..681W. doi :10.1007/s10822-015-9854-3. PMID  26081259. S2CID  31786997.
  23. ^ Akhondi, SA; Kors, JA; Muresan, S. (2012). 「小分子データベース内およびデータベース間の体系的化学識別子の一貫性」. Journal of Cheminformatics . 4 (1): 35. doi : 10.1186/1758-2946-4-35 . PMC 3539895. PMID  23237381 . 
  • IUPAC InChIサイト
  • 正規化アルゴリズムの説明
  • InChIs を Google で検索すると、W3C へのプレゼンテーションが表示されます。
  • InChIリリース1.02 InChI最終バージョン1.02および標準InChIの説明、2009年1月
  • NCI/CADD 化学識別子リゾルバ InChI/InChIKeys やその他の多くの化学識別子を生成および解決します
  • SMILES / SMARTS および InChIをサポートする PubChem オンライン分子エディター
  • ChemSpider 化合物 API ChemSpider REST APIは、InChI の生成と InC​​hI から構造への変換 (SMILES や他のプロパティの生成も) を可能にします。
  • ChemAxonの MarvinSketch は、構造を描画(または他のファイル形式を開く)し、InChI ファイル形式に出力するための実装です。
  • BKchemは独自のInChIパーサーを実装し、IUPAC実装を使用してInChI文字列を生成します。
  • CompoundSearchはスペクトルライブラリのInChIおよびInChIキー検索を実装します
  • SpectraBaseはスペクトルライブラリのInChIおよびInChIキー検索を実装しています
  • JSMEは、2015年1月6日にWayback Machineでアーカイブされた、無料のJavaScriptベースの分子エディタです。InChIとInChIキーをWebブラウザで生成し、化合物のWeb検索を容易にします。
「https://en.wikipedia.org/w/index.php?title=International_Chemical_Identifier&oldid=1322638708」より取得