Rfam
| コンテンツ | |
|---|---|
| 説明 | Rfamデータベースは、RNAファミリーのアライメント、コンセンサス二次構造、共分散モデルを提供します |
| キャプチャされたデータの種類 | RNAファミリー |
| 生物 | すべて |
| お問い合わせ | |
| 研究センター | EBI |
| 主要引用 | PMID 33211869 |
| アクセス | |
| データ形式 | ストックホルム形式 |
| ウェブサイト | rfam.org |
| ダウンロードURL | FTP |
| その他 | |
| ライセンス | パブリックドメイン |
| ブックマーク可能なエンティティ | はい |
Rfamは、非コードRNA(ncRNA)ファミリーおよびその他の構造化RNAエレメントに関する情報を含むデータベースです。これは、ウェルカム・トラスト・サンガー研究所とジャネリア・ファームとの共同研究により開発された、注釈付きのオープンアクセスデータベースです。 [ 1 ] [ 2 ] [ 3 ] [ 4 ]現在は欧州バイオインフォマティクス研究所でホストされています。[ 5 ] Rfamは、タンパク質ファミリーの注釈付けにおいて Pfamデータベースと同様に設計されています
タンパク質とは異なり、ncRNAは一次配列の類似性はさほど高くないものの、二次構造が類似していることが多い。Rfamは、共通の祖先からの進化に基づいてncRNAをファミリーに分類する。これらのファミリーの多重配列アライメント(MSA)を作成することで、タンパク質ファミリーの場合と同様に、その構造と機能に関する知見を得ることができる。これらのMSAは二次構造情報を追加することでさらに有用となる。Rfamの研究者は、WikipediaのRNA WikiProjectにも貢献している。[ 4 ] [ 6 ]
用途
Rfamデータベースは様々な機能に使用できます。各ncRNAファミリーについて、インターフェースでは、複数の配列アライメントの表示とダウンロード、アノテーションの閲覧、ファミリーメンバーの種分布の調査が可能です。また、文献や他のRNAデータベースへのリンクも提供されています。RfamはWikipediaへのリンクも提供しており、ユーザーがエントリを作成または編集することができます
Rfamウェブサイトのインターフェースでは、キーワード、ファミリー名、ゲノムでncRNAを検索できるほか、ncRNA配列やEMBLアクセッション番号で検索することもできます。[ 7 ] データベース情報は、INFERNALソフトウェアパッケージを使用してダウンロード、インストールして使用することもできます。[ 8 ] [ 9 ] [ 10 ] INFERNALパッケージは、Rfamと併用して、既知のncRNAの相同配列(完全ゲノムを含む)に注釈を付けることもできます。
方法
このデータベースでは、 MSAで表される二次構造と一次配列の情報が、プロファイル確率文脈自由文法(SCFG)と呼ばれる統計モデル(共分散モデルとも呼ばれる)に統合されています。これは、 Pfamデータベースのタンパク質ファミリーアノテーションに使用されている隠れマルコフモデルに類似しています。 [ 1 ]データベース内の各ファミリーは、ストックホルム形式の2つの多重配列アライメントと1つのSCFGによって表されます。
最初のMSAは「シード」アライメントです。これは、ncRNAファミリーの代表的なメンバーを含む、手作業でキュレーションされたアライメントであり、構造情報がアノテーションされています。このシードアライメントはSCFGを作成するために使用され、RfamソフトウェアINFERNALと組み合わせて使用することで、追加のファミリーメンバーを識別し、アライメントに追加します。偽陽性を回避するため、ファミリー固有の閾値が選択されます。
リリース12までは、プロファイルSCFGの計算コストが高すぎるため、 RfamはBLASTフィルタリングの初期ステップを使用していました。しかし、INFERNALの最新バージョンは十分に高速化しており[ 10 ]、BLASTステップは不要になりました[ 11 ] 。
2つ目のMSAは「完全」アライメントであり、共分散モデルを用いて配列データベースを検索した結果として作成されます。検出されたすべてのホモログはモデルにアライメントされ、自動的に生成された完全アライメントが得られます。
歴史
Rfamのバージョン1.0は2003年にリリースされ、25のncRNAファミリーと約50,000のncRNA遺伝子がアノテーションされました。2005年にはバージョン6.1がリリースされ、379のファミリーと280,000以上の遺伝子がアノテーションされました。2012年8月のバージョン11.0には2,208のRNAファミリーが含まれ、現在のバージョン(14.9、2022年11月リリース)では4,108 [ 7 ]ファミリー がアノテーションされています
主要なリリースと出版物
- 2003年 - Rfam: RNAファミリーデータベース。[ 1 ]
- 2005年 - Rfam: 完全ゲノム中の非コードRNAの注釈付け。[ 2 ]
- 2008年 - RNAウィキプロジェクト:RNAファミリーのコミュニティ注釈。[ 6 ]
- 2008年 - Rfam: RNAファミリーデータベースの更新。[ 3 ]
- 2011年 - Rfam: Wikipedia、氏族、そして「10進数」リリース。[ 4 ]
- 2012年 - Rfam 11.0: RNAファミリーの10年。[ 12 ]
- 2014年 - Rfam 12.0: RNAファミリーデータベースの更新。[ 3 ]
- 2017年 - Rfam 13.0: 非コードRNAファミリーのためのゲノム中心のリソースへの移行。[ 13 ]
- 2020年 - Rfam 14:メタゲノム、ウイルス、マイクロRNAファミリーの範囲を拡大。[ 14 ]
問題点
- 高等真核生物のゲノムには、ncRNA由来の偽遺伝子やリピートが多数含まれています。これらの非機能的コピーを機能的なncRNAと区別することは、非常に困難な課題です。[ 2 ]
- イントロンは共分散モデルではモデル化されません。
参考文献
- ^ a b c Griffiths-Jones S, Bateman A, Marshall M, Khanna A, Eddy SR (2003). 「Rfam :RNAファミリーデータベース」 . Nucleic Acids Res . 31 (1): 439–41 . doi : 10.1093/nar/gkg006 . PMC 165453. PMID 12520045
- ^ a b c Griffiths-Jones S, Moxon S, Marshall M, Khanna A, Eddy SR, Bateman A (2005). 「Rfam:完全ゲノムにおける非コードRNAのアノテーション」. Nucleic Acids Res . 33 (データベース号): D121–4. doi : 10.1093/nar/gki081 . PMC 540035. PMID 15608160 .
- ^ a b c Gardner PP, Daub J, Tate JG, et al. (2008年10月). 「Rfam: RNAファミリーデータベースのアップデート」 . Nucleic Acids Research . 37 (データベース号): D136– D140. doi : 10.1093 / nar/gkn766 . PMC 2686503. PMID 18953034 .
- ^ a b c Gardner PP, Daub J, Tate J, Moore BL, Osuch IH, Griffiths-Jones S, Finn RD, Nawrocki EP, Kolbe DL, Eddy SR, Bateman A (2011). 「Rfam: Wikipedia、氏族、そして「十進法」リリース」 Nucleic Acids Res . 39 (データベース号): D141–5. doi : 10.1093/nar/gkq1129 . PMC 3013711 . PMID 21062808 .
- ^ 「xfam.orgへの移行」 Xfamブログ。 2014年5月3日閲覧。
- ^ a b Daub J, Gardner PP, Tate J, Ramsköld D, Manske M, Scott WG, Weinberg Z, Griffiths-Jones S, Bateman A (2008年12月). 「RNAウィキプロジェクト:RNAファミリーのコミュニティアノテーション」 . RNA . 14 (12): 2462–4 . doi : 10.1261 / rna.1200508 . PMC 2590952. PMID 18945806 .
- ^ a b「Rfamファミリー」 . rfam.xfam.org .
- ^ Eddy SR, Durbin R (1994年6月). 「共分散モデルを用いたRNA配列解析」 . Nucleic Acids Research . 22 (11): 2079–88 . doi : 10.1093 / nar/22.11.2079 . PMC 308124. PMID 8029015 .
- ^ Eddy SR (2002). 「RNA二次構造への配列の最適アライメントのためのメモリ効率の高い動的計画法アルゴリズム」 . BMC Bioinformatics . 3 18. doi : 10.1186/1471-2105-3-18 . PMC 119854. PMID 12095421 .
- ^ a b Nawrocki EP, Eddy SR (2013). 「Infernal 1.1: 100倍高速なRNAホモロジー検索」 .バイオインフォマティクス. 29 (22): 2933–5 . doi : 10.1093/bioinformatics/btt509 . PMC 3810854. PMID 24008419 .
- ^ Nawrocki EP, Burge SW, Bateman A, Daub J, Eberhardt RY, Eddy SR, Floden EW, Gardner PP, Jones TA, Tate J, Finn RD (2015年1月). 「Rfam 12.0:RNAファミリーデータベースのアップデート」 . Nucleic Acids Res . 43 (データベース号): D130–7. doi : 10.1093/nar/ gku1063 . PMC 4383904. PMID 25392425 .
- ^ Burge SW, Daub J, Eberhardt R, Tate J, Barquist L, Nawrocki EP, Eddy SR, Gardner PP, Bateman A (2013年1月). 「Rfam 11.0:RNAファミリーの10年」 . Nucleic Acids Res . 41 (データベース号): D226–32. doi : 10.1093/nar/ gks1005 . PMC 3531072. PMID 23125362 .
- ^ Kalvari I, Argasinska J, Quinones-Olvera N, Nawrocki EP, Rivas E, Eddy SR, Bateman A, Finn RD, Petrov AI (2018年1月). 「Rfam 13.0:非コードRNAファミリーのためのゲノム中心のリソースへの移行」 . Nucleic Acids Res . 46 (D1): D335– D342. doi : 10.1093/nar/ gkx1038 . PMC 5753348. PMID 29112718 .
- ^カルヴァリ I、ナウロッキ EP、オンティベロス=パラシオス N、アルガシンスカ J、ラムキェヴィッツ K、マーツ M、グリフィス=ジョーンズ S、トファノ=ニオッシュ C、ゴーテレー D、ワインバーグ Z、リバス E、エディ SR、フィン RD、ベイトマン A、ペトロフ AI (2021 年 1 月)。「Rfam 14: メタゲノム、ウイルス、マイクロ RNA ファミリーの対象範囲を拡大」。核酸研究49 (D1): D192 – D200。土井:10.1093/nar/gkaa1047。PMC 7779021。PMID 33211869。