ツリーバンク

ほとんどの構文ツリーバンクは、句構造(左) または依存構造(右) のいずれかのバリエーションに注釈を付けます。

言語学においてツリーバンクとは、構文的または意味的な構造を注釈付けした解析済みテキストコーパスです。1990年代初頭の解析済みコーパスの構築は、大規模な経験的データの恩恵を受けた計算言語学に革命をもたらしました。[1]

語源

ツリーバンクという用語は、1980年代に言語学者ジェフリー・リーチによって、シードバンク血液バンクといった他のリポジトリとの類推から造られました[2]これは、統語構造と意味構造の両方が、一般的にツリー構造として構成的に表現されるためです。解析済みコーパスという用語は、ツリーバンクという用語と互換的に使用されることが多く、ツリーよりも文の優位性を強調しています。

工事

ツリーバンクは、多くの場合、品詞タグが既に付与されているコーパスをベースに作成されます。その結果、ツリーバンクは意味情報やその他の言語情報で強化されることがあります。ツリーバンクは完全に手動で作成することも、半自動的に作成することもできます。半自動では、言語学者が各文に統語構造を付与し、パーサーがそれを言語学者がチェックして必要に応じて修正します。実際には、自然言語コーパスの解析を完全にチェックして完了させるのは、大学院生の言語学者のチームで数年かかることもある、労働集約的なプロジェクトです。アノテーションの詳細レベルと言語サンプルの幅広さによって、タスクの難易度とツリーバンクの構築に必要な時間が決まります。

「ジョンはメアリーを愛している」の例文構造ツリー
コーラン・アラビア語コーパスからのハイブリッド構成/依存関係ツリー

一部のツリーバンクは、統語的注釈において特定の言語理論に従っています(例えば、BulTreeBankはHPSGに従っています)。しかし、ほとんどのツリーバンクは理論にあまり依存しないようにしています。しかし、大きく分けて2つのグループに分けることができます。句構造を注釈するツリーバンク(例えば、Penn Treebank [3]やICE-GB)と、依存関係を注釈するツリーバンク(例えば、Prague Dependency TreebankやQuranic Arabic Dependency Treebank)です。

形式的な表現と、注釈付きデータを格納するファイル形式の違いを明確にすることが重要です。ツリーバンクは、特定の文法に従って構築されます。同じ文法が異なるファイル形式で実装される場合もあります。例えば、右/上の図に示されている「John loves Mary」の構文解析は、テキストファイルでは次のように、ラベル付きの括弧で表すことができます(Penn Treebank記法に従う)。

(S (NP (NNP ジョン)) (VP(VPZ大好き) (NP (NNP メアリー))) (。。))

このタイプの表現は、リソース使用量が少なく、ツリー構造がソフトウェアツールなしでも比較的読みやすいため、広く使用されています。しかし、コーパスが複雑になるにつれて、他のファイル形式が好まれる場合があります。代替案としては、ツリーバンク固有のXMLスキーム、番号付きインデント、様々なスタンドオフ記法などがあります。

アプリケーション

計算言語学[4]の観点から、ツリーバンクは、品詞タグ付け装置構文解析装置、意味解析装置、機械翻訳システム[5]などの最先端の自然言語処理システムの設計に使用されてきた。ほとんどの計算システムは、ゴールドスタンダードのツリーバンクデータを使用している。しかし、人間の言語学者によって修正されていない、自動的に解析されたコーパスも依然として有用である。それは、パーサーの規則頻度の証拠を提供することができる。パーサーは、それを大量のテキストに適用し、規則頻度を収集することによって改善される可能性がある。しかし、手作業でコーパスを修正して完成させるプロセスによってのみ、パーサーの知識ベースにない規則を特定することが可能になることは明らかである。さらに、頻度はより正確である可能性が高い。

コーパス言語学では、ツリーバンクは統語的現象の研究に用いられます(例えば、通時コーパスは統語的変化の時系列的変化を研究するために用いられます)。解析されたコーパスには、様々な文法構造がどれほど一般的に使用されているかを示す頻度証拠が含まれます。ツリーバンクはまた、網羅性の証拠も提供し、予期せぬ新しい文法現象の発見を支援します。

理論言語学心理言語学におけるツリーバンクのもう一つの用途は、相互作用の証拠です。完成したツリーバンクは、言語学者が、ある文法構造を使用するという決定が他の文法構造を形成するという決定にどのような影響を与えるかについての実験を行うのに役立ちます。また、話者や書き手が文を構成する際にどのように決定を下すかを理解しようと試みる際にも役立ちます。相互作用研究は、コーパスに意味論的、語用論的といった更なる注釈層が追加されることで、特に有益になります。これにより、統語論以外の現象が文法選択に与える影響を評価することが可能になります。

言語学の研究では、注釈付きのツリーバンクデータは統語論の研究において、大量の自然発生的な例に対して文構造の言語理論をテストするために使われてきました。[引用が必要]

セマンティックツリーバンク

セマンティックツリーバンクは、意味表現が注釈された自然言語文のコレクションです。これらのリソースは、各文の意味構造の形式的な表現を使用します。セマンティックツリーバンクは、意味表現の深さが異なります。深い意味注釈の顕著な例としては、フローニンゲン大学で開発され、談話表現理論を使用して注釈が付けられたGroningen Meaning Bankがあります。浅いセマンティックツリーバンクの例としては、 PropBankがあります。これは、コーパス内のすべての単語を論理形式で表現しようとせずに、動詞の命題とその議論の注釈を提供します

言語ツリーバンク意味論的形式主義配布/ライセンス
中国語中国の普遍命題PropBank のセマンティクスCC BY-NC-SA 3.0 US
英語抽象的意味表現(AMR)バンク深いセマンティクス?
英語フレームネット浅い意味論?
英語ユニバーサル概念的認知アノテーション(UCCA)深いセマンティクス?
英語ロボットコマンドツリーバンク[6]深いセマンティクス?
英語フローニンゲン意味銀行深いセマンティクス異なるライセンス
英語並列意味バンク深いセマンティクス異なるライセンス
オランダ語並列意味バンク深いセマンティクス異なるライセンス
ドイツ語並列意味バンク深いセマンティクス異なるライセンス
イタリア語並列意味バンク深いセマンティクス異なるライセンス
英語DeepBankプロジェクト深いセマンティクス?
英語Treebankセマンティクス解析コーパス深いセマンティクス?
英語ロボカップコーパス深いセマンティクス?
英語ジオクエリ深いセマンティクス?
英語プロップバンクPropBank のセマンティクス異なるライセンス
フィンランド語フィンランドの普遍命題PropBank のセマンティクスCC BY-NC-SA 3.0 US
フィンランド語フィンランドのPropBankPropBank のセマンティクスCC BY-SA 4.0
フランス語フランスの普遍命題PropBank のセマンティクスCC BY-NC-SA 3.0 US
ドイツ語ドイツの普遍命題PropBank のセマンティクスCC BY-NC-SA 3.0 US
イタリア語イタリアの普遍命題PropBank のセマンティクスCC BY-NC-SA 3.0 US
ポルトガル語ポルトガル語PortLexPropBank のセマンティクス?
ポルトガル語ポルトガル語の普遍命題PropBank のセマンティクスCC BY-NC-SA 3.0 US
スペイン語スペイン語の普遍命題PropBank のセマンティクスCC BY-NC-SA 3.0 US
トルコ語トルコのプロップバンクPropBank のセマンティクスCC BY-NC-SA 4.0

構文ツリーバンク

さまざまな言語に対して、多くの構文ツリーバンクが開発されてきました。

言語ツリーバンク統語論的形式主義配布/ライセンス
アバザユニバーサル依存関係、ATB依存CC BY-SA
アフリカーンス語ユニバーサル・ディペンデンシーズ、アフリブームズ依存CC BY-SA
アッカド語ユニバーサル・ディペンデンシーズ、ピサンドゥブ依存CC BY-SA
アルバニア語ユニバーサル ディペンデンシーズ、TSA依存CC BY-SA
アムハラ語ユニバーサル依存関係、ATT依存CC BY-SA
古代ギリシャ普遍的な依存関係、ペルセウス依存CC BY-NC-SA
古代ギリシャユニバーサル ディペンデンシーズ、PROIEL依存CC BY-NC-SA
ギリシャ(古代)古代ギリシャ従属国ツリーバンク[7] [8]依存オープンソース(クリエイティブコモンズライセンス
ギリシャ(古代)PROIEL ツリーバンク[9]依存オープンソース(クリエイティブコモンズライセンス
アラビア語コロンビア・アラビア語ツリーバンク(CATiB)依存言語データコンソーシアム
アラビア語プラハ・アラビア語従属ツリーバンク(PADT)依存言語データコンソーシアム
アラビア語ユニバーサル・ディペンデンシーズ、NYUAD依存CC BY-SA
アラビア語ユニバーサル依存関係、PADT依存CC BY-NC-SA
アラビア語ユニバーサル依存関係(PUD)依存CC BY-SA
アラビア語ペン・アラビア語ツリーバンクフレーズ構造言語データコンソーシアム
アルメニア語ユニバーサル依存関係、ArmTDP依存CC BY-SA
アッシリア語(新アラム語)ユニバーサル ディペンデンシーズ、AS依存CC BY-SA
バンバラ語普遍的依存関係、CRB依存CC BY-SA
バスク語ユニバーサル ディペンデンシーズ、BDT依存CC BY-NC-SA
ベラルーシ語ユニバーサル・ディペンデンシーズ、HSE依存CC BY-SA
ボジュプリー語普遍的な依存関係、BhEn依存CC BY-SA
ボジュプリー語ユニバーサル ディペンデンシーズ、BHTB依存CC BY-SA
ブルトン語ユニバーサル・ディペンデンシーズ、KEB依存CC BY-SA
ブルガリア語ユニバーサル ディペンデンシーズ、BTB依存CC BY-NC-SA
ブルガリア語ブルツリーバンクHPSG研究目的で自由に利用可能
ブリヤートユニバーサル ディペンデンシーズ、BDT依存CC BY-SA
広東語ユニバーサル・ディペンデンシーズ、香港依存CC BY-SA
カタルーニャ語キャット3LBフレーズ構造研究目的で自由に利用可能
カタルーニャ語ユニバーサル ディペンデンシーズ、AnCora依存GPL
中国語中央研究所の樹木バンク格文法自由に利用できない
中国語ユニバーサル ディペンデンシーズ、CFL依存CC BY-SA
中国語ユニバーサル ディペンデンシーズ、GSD依存CC BY-SA
中国語ユニバーサル依存関係、GSDSimp依存CC BY-SA
中国語ユニバーサル・ディペンデンシーズ、香港依存CC BY-SA
中国語ユニバーサル依存関係(PUD)依存CC BY-SA
中国語ペンシルベニア中国樹木バンクフレーズ構造言語データコンソーシアム
中国語中国従属国ツリーバンク依存言語データコンソーシアム
アラビア語(古典)コーラン・アラビア語依存ツリーバンク(QADT)(コーラン・アラビア語コーパス依存オープンソース(GNU一般公衆利用許諾書
古典アルメニア語PROIEL ツリーバンク[9]依存オープンソース(クリエイティブコモンズライセンス
コプト語普遍的な依存関係、コプト写本室依存CC BY
クロアチア語クロアチア属領ツリーバンク依存オープンソース(クリエイティブコモンズライセンス
クロアチア語ユニバーサル依存関係、SET依存CC BY-SA
チェコ語プラハ従属国ツリーバンク依存オープンソース(クリエイティブコモンズライセンス
チェコ語ユニバーサル ディペンデンシーズ、CAC依存CC BY-SA
チェコ語ユニバーサル ディペンデンシーズ、CLTT依存CC BY-SA
チェコ語ユニバーサル依存関係、FicTree依存CC BY-NC-SA
チェコ語ユニバーサル ディペンデンシーズ、PDT依存CC BY-NC-SA
チェコ語ユニバーサル依存関係(PUD)依存CC BY-SA
デンマーク語デンマーク属領ツリーバンク依存オープンソース(GNU一般公衆利用許諾書
デンマーク語アーボリータム:デンマーク語の統語的ツリーコーパスフレーズ構造ライセンス料
デンマーク語ユニバーサル ディペンデンシーズ、DDT依存CC BY-SA
デンマーク語ユニバーサル依存関係、DTB依存CC BY-SA
オランダ語オランダ語口語コーパス(CGN)フレーズ構造ライセンス料
オランダ語ユニバーサル・ディペンデンシーズ、アルピノ依存CC BY-SA
オランダ語ユニバーサル依存関係、LassySmall依存CC BY-SA
オランダ語LASSY スモール&ラージ依存ライセンス料
オランダ語アルピノツリーバンク依存オープンソース(GNU一般公衆利用許諾書
エジプト人ユニバーサル ディペンデンシーズ、ウハエン依存CC BY-SA
英語CCGバンク組み合わせ範疇文法言語データコンソーシアム
英語LinGOレッドウッズHPSG?
英語ランカスター解析コーパスフレーズ構造?
英語プラハ英語属領ツリーバンク依存言語データコンソーシアム
英語普遍的な依存関係、BhEn依存CC BY-SA
英語普遍的な依存関係、ESL依存CC BY-SA
英語ユニバーサル ディペンデンシーズ、EWT依存CC BY-SA
英語ユニバーサル ディペンデンシーズ、GUM依存CC BY-NC-SA
英語ユニバーサル ディペンデンシー、GUMReddit依存CC BY
英語ユニバーサル依存関係、LineES依存CC BY-NC-SA
英語ユニバーサル ディペンデンシー、ParTUT依存CC BY-NC-SA
英語普遍的な依存関係、代名詞依存CC BY-SA
英語ユニバーサル依存関係(PUD)依存CC BY-SA
英語Treebankセマンティクス解析コーパスフレーズ構造オープンソース(クリエイティブコモンズライセンス
英語クリスティン・コーパスフレーズ構造研究目的で自由に利用可能
英語ルーシー・コーパスフレーズ構造研究目的で自由に利用可能
英語スザンヌ・コーパスフレーズ構造研究目的で自由に利用可能
英語BLLIP WSJコーパスフレーズ構造言語データコンソーシアム
英語テュービンゲン英語・自発スピーチ・ツリーバンク(TüBa-E/S)HPSG研究目的で自由に利用可能
英語現代英語口語通時コーパス(DCPSE)フレーズ構造ライセンス料
英語国際英語コーパスの英国コンポーネント(ICE-GB)フレーズ構造ライセンス料
英語PARC 700 依存銀行依存?
英語Yahoo!クエリツリーバンク依存研究目的で自由に利用可能
英語ペン・ツリーバンクフレーズ構造言語データコンソーシアム
英語マルチツリーバンクフレーズ構造比較のためにオンラインで利用可能
英語CHILDES Brown Eveコーパス(依存関係注釈付き)依存オープンソース(クリエイティブコモンズライセンス
英語SMULTRON - パラレル ツリーバンク EN-DE-SVフレーズ構造研究目的で自由に利用可能
エルジャユニバーサル・ディペンデンシーズ、JR依存CC BY-SA
エストニア語アーボレストフレーズ構造?
エストニア語構文解析され、曖昧さが解消されたテキストコーパス依存研究目的で自由に利用可能
エストニア語ユニバーサル ディペンデンシーズ、EDT依存CC BY-NC-SA
エストニア語ユニバーサル ディペンデンシーズ、EWT依存CC BY-NC-SA
フェロー語ユニバーサル ディペンデンシーズ、FarPaHC依存CC BY-SA
フェロー語ユニバーサル ディペンデンシーズ、OFT依存CC BY-SA
フィンランド語トゥルク依存関係ツリーバンク(TDT)依存オープンソース(クリエイティブコモンズライセンス
フィンランド語ユニバーサル ディペンデンシーズ、FTB依存CC BY
フィンランド語ユニバーサル依存関係(PUD)依存CC BY-SA
フィンランド語ユニバーサル依存関係、TDT依存CC BY-SA
フランス語(会話)ラプソディ依存関係とマクロ構文注釈オープンソース(クリエイティブコモンズライセンス
フランス語ラルボラトワールフレーズ構造?
フランス語ユニバーサル ディペンデンシーズ、CrapBank依存CC BY-SA
フランス語ユニバーサル依存関係、FQB依存GPL
フランス語ユニバーサル ディペンデンシーズ、FTB依存GPL
フランス語ユニバーサル ディペンデンシーズ、GSD依存CC BY-SA
フランス語ユニバーサル ディペンデンシー、ParTUT依存CC BY-NC-SA
フランス語ユニバーサル依存関係(PUD)依存CC BY-SA
フランス語ユニバーサル ディペンデンシーズ、セコイア依存GPL
フランス語普遍的な依存関係、語られる依存CC BY-SA
フランス語フランスのツリーバンクフレーズ構造研究目的で自由に利用可能
フランス語無料のフランスのツリーバンクフレーズ構造オープンソースライセンス LGPL-LR
フランス語セコイアの樹木句構造依存関係オープンソースライセンス LGPL-LR
ガリシア語ユニバーサル ディペンデンシーズ、CTG依存CC BY-NC-SA
ガリシア語ユニバーサル依存関係、TreeGal依存GPL
ドイツ語ハンブルク従属ツリーバンク(HDT)依存研究目的で自由に利用可能
ドイツ語ユニバーサル ディペンデンシーズ、GSD依存CC BY-SA
ドイツ語普遍的な依存関係、LIT依存CC BY-NC-SA
ドイツ語ユニバーサル依存関係(PUD)依存CC BY-SA
ドイツ語SMULTRON - パラレル ツリーバンク EN-DE-SVフレーズ構造研究目的で自由に利用可能
ドイツ語ネグラフレーズ構造研究目的で自由に利用可能
ドイツ語フレーズ構造研究目的で自由に利用可能
ドイツ語テュービンゲンドイツ語/自発会話ツリーバンク (TüBa-D/S)フレーズ構造研究目的で自由に利用可能
ドイツ語テュービンゲンドイツ語筆記樹木バンク(TüBa-D/Z)フレーズ構造研究目的で自由に利用可能
ドイツ語テュービンゲンドイツ語書き言葉部分解析コーパス(TüPP-D/Z)フレーズ構造ライセンス料
ゴシックPROIEL ツリーバンク[9]依存オープンソース(クリエイティブコモンズライセンス
ゴシックユニバーサル ディペンデンシーズ、PROIEL依存CC BY-NC-SA
ギリシャ語ギリシャ属国ツリーバンク依存自由に利用できない
ギリシャ語ユニバーサル依存関係、GDT依存CC BY-NC-SA
ヘブライ語ユニバーサル・ディペンデンシーズ、HTB依存CC BY-NC-SA
ヘブライ語ヘブライ語依存関係ツリーバンク依存オープンソース(GNU一般公衆利用許諾書
ヒンディー語 英語ユニバーサル ディペンデンシーズ、HIENCS依存CC BY-SA
ヒンディー語ユニバーサル ディペンデンシーズ、HDTB依存CC BY-NC-SA
ヒンディー語ユニバーサル依存関係(PUD)依存CC BY-SA
ヒンディー語アンコラ依存?
英語(歴史)ペンシルバニア大学歴史英語解析コーパス;フレーズ構造言語データコンソーシアム(2020年4月現在)
英語(歴史)ヨーク・トロント・ヘルシンキ古英語散文解析コーパス(YCOE)フレーズ構造研究目的で自由に利用可能
フランス語(歴史)コーパスMCVFフレーズ構造研究目的で自由に利用可能
ポルトガル語(歴史)ティコ・ブラーエ全集フレーズ構造?
ハンガリー語ユニバーサル依存関係、セゲド依存CC BY-NC-SA
ハンガリー語ハンガリーの樹木バンクフレーズ構造?
アイスランド語IcePaHC - アイスランド語解析歴史コーパスフレーズ構造オープンソース(GNU Lesser General Public License
アイスランド語ユニバーサル ディペンデンシーズ、IcePaHC依存CC BY-SA
アイスランド語ユニバーサル依存関係(PUD)依存CC BY-SA
インドネシア語ユニバーサル ディペンデンシーズ、GSD依存CC BY-SA
インドネシア語ユニバーサル依存関係(PUD)依存CC BY-SA
インドネシア語アイコンフレーズ構造?
アイルランド語ユニバーサル ディペンデンシーズ、IDT依存CC BY-SA
イタリア語ISST - イタリア語統語意味ツリーバンク句構造依存関係ライセンス料
イタリア語MIDT(統合イタリア従属国ツリーバンク)は、TUTとISST-CoNLL/TANLのツリーバンクの統合と調和から生まれたものです。依存研究目的で自由に利用可能
イタリア語VIT - ヴェネツィア・イタリアン・ツリーバンク句構造依存関係ライセンス料
イタリア語ユニバーサル ディペンデンシー、ISDT依存CC BY-NC-SA
イタリア語ユニバーサル ディペンデンシー、ParTUT依存CC BY-NC-SA
イタリア語ユニバーサル ディペンデンシーズ、PoSTWITA依存CC BY-NC-SA
イタリア語ユニバーサル依存関係(PUD)依存CC BY-SA
イタリア語ユニバーサル依存関係、TWITTIRO依存CC BY-SA
イタリア語ユニバーサル依存関係、VIT依存CC BY-NC-SA
イタリア語CoNLL-2007 共通タスクのためのイタリア語統語意味ツリーバンク (ISST-CoNLL)依存研究目的で自由に利用可能
イタリア語SUT - シエナ大学ツリーバンク??
イタリア語TUT - トリノ大学ツリーバンク依存オープンソース(クリエイティブコモンズライセンス
イタリア語ISDT(イタリアのスタンフォード依存関係ツリーバンク)依存研究目的で自由に利用可能
日本語京都テキストコーパス??
日本語ユニバーサル・ディペンデンシーズ、BCCWJ依存CC BY-NC-SA
日本語ユニバーサル ディペンデンシーズ、GSD依存CC BY-SA
日本語ユニバーサル ディペンデンシーズ、KTC依存CC BY-SA
日本語普遍的な依存関係、現代依存CC BY-NC-ND
日本語ユニバーサル依存関係(PUD)依存CC BY-SA
日本語けやきの森フレーズ構造オープンソース(クリエイティブコモンズライセンス
日本語テュービンゲン日本語・自発話ツリーバンク(TüBa-J/S)フレーズ構造研究目的で自由に利用可能
日本語ATR係り受けコーパス依存?
カレリア語ユニバーサル ディペンデンシーズ、KKPP依存CC BY-SA
カザフ語ユニバーサル・ディペンデンシーズ、KTB依存CC BY-SA
コミ・ペルミャックユニバーサル ディペンデンシーズ、UH依存CC BY-SA
コミ・ジリアン普遍的な依存関係、IKDP依存CC BY-SA
コミ・ジリアン普遍的な依存関係、ラティス依存CC BY-SA
韓国語ユニバーサル ディペンデンシーズ、GSD依存CC BY-SA
韓国語ユニバーサル・ディペンデンシーズ、カイスト依存CC BY-SA
韓国語ユニバーサル・ディペンデンシーズ、ペン依存CC BY-SA
韓国語ユニバーサル依存関係(PUD)依存CC BY-SA
韓国語普遍的な依存関係、世宗依存CC BY-SA
韓国語韓国の樹木銀行フレーズ構造言語データコンソーシアム
クルマンジー語ユニバーサル ディペンデンシーズ、MG依存CC BY-SA
ラテンユニバーサル・ディペンデンシーズ、ITTB依存CC BY-NC-SA
ラテンユニバーサル ディペンデンシーズ、LLCT依存CC BY-SA
ラテン普遍的な依存関係、ペルセウス依存CC BY-NC-SA
ラテンユニバーサル ディペンデンシーズ、PROIEL依存CC BY-NC-SA
ラテンインデックス・トミスティクス・ツリーバンク依存オープンソース(クリエイティブコモンズライセンス
ラテンPROIEL ツリーバンク[9]依存オープンソース(クリエイティブコモンズライセンス
ラテンラテン語従属ツリーバンク[10]依存オープンソース(クリエイティブコモンズライセンス
ラトビア語ユニバーサル・ディペンデンシーズ、LVTB依存CC BY-SA
リトアニア語ユニバーサル依存関係、ALKSNIS依存CC BY-SA
リトアニア語ユニバーサル・ディペンデンシーズ、HSE依存CC BY-SA
リヴィユニバーサル ディペンデンシーズ、KKPP依存CC BY-SA
マガヒユニバーサル ディペンデンシーズ、MGTB依存CC BY-SA
マルタ語ユニバーサル依存関係、MUDT依存CC BY-SA
マラーティー語ユニバーサル ディペンデンシーズ、UFAL依存CC BY-SA
ムビア・グアラニ語普遍的な依存関係、ドゥーリー依存CC BY-NC-SA
ムビア・グアラニ語普遍的な依存関係、トーマス依存CC BY-NC-SA
中期アイルランド語ユニバーサル ディペンデンシーズ、CritMITB依存CC BY-SA
中期アイルランド語ユニバーサル ディペンデンシーズ、DipMITB依存CC BY-SA
モクシャユニバーサル・ディペンデンシーズ、JR依存CC BY-SA
ナイジャユニバーサル・ディペンデンシーズ、NSC依存CC BY-SA
北サーミ語普遍的な依存関係、ジエラ依存CC BY-SA
ノルウェー語INESSツリーバンキングインフラLFG?
ノルウェー語普遍的依存関係、ブークマール依存CC BY-SA
ノルウェー語ユニバーサル依存関係、ニーノリスク依存CC BY-SA
ノルウェー語ユニバーサル依存関係、NynorskLIA依存CC BY-SA
古代教会スラヴ語ユニバーサル ディペンデンシーズ、PROIEL依存CC BY-NC-SA
古代教会スラヴ語TOROTツリーバンク[9]依存オープンソース(クリエイティブコモンズライセンス
古フランス語ユニバーサル ディペンデンシーズ、SRCMF依存CC BY-NC-SA
古代ロシア語ユニバーサル・ディペンデンシーズ、RNC依存CC BY-SA
古代ロシア語ユニバーサル ディペンデンシーズ、TOROT依存CC BY-NC-SA
古代ロシア語TOROTツリーバンク[9]依存オープンソース(クリエイティブコモンズライセンス
ペルシャ語ペルシャ従属ツリーバンク (PerDT)依存研究目的で自由に利用可能
ペルシャ語パーツリーバンクHPSG研究目的で自由に利用可能
ペルシャ語普遍的な依存関係、セラジ依存CC BY-SA
研磨ポーランド語のツリーバンク/テストスイートHPSG?
研磨ユニバーサル ディペンデンシーズ、LFG依存GPL
研磨ユニバーサル依存関係、PDB依存CC BY-NC-SA
研磨ユニバーサル依存関係(PUD)依存CC BY-SA
研磨スクワドニツァ句構造依存関係オープンソース(GNU一般公衆利用許諾書
ポルトガル語ユニバーサル・ディペンデンシーズ、ボスケ依存CC BY-SA
ポルトガル語ユニバーサル ディペンデンシーズ、GSD依存CC BY-SA
ポルトガル語ユニバーサル依存関係(PUD)依存CC BY-SA
ポルトガル語プロジェクト フロレスタ シンタ(c)tica依存関係句構造オープンソース(GNU一般公衆利用許諾書
ルーマニア語ルーマニア属領ツリーバンク依存?
ルーマニア語普遍的な依存関係、非標準依存CC BY-SA
ルーマニア語普遍的な依存関係、RRT依存CC BY-SA
ルーマニア語ユニバーサル ディペンデンシーズ、SiMoNERo依存CC BY-SA
ロシアユニバーサル ディペンデンシーズ、GSD依存CC BY-SA
ロシアユニバーサル依存関係(PUD)依存CC BY-SA
ロシアユニバーサル依存関係、SynTagRus依存CC BY-NC-SA
ロシア普遍的な依存関係、タイガ依存CC BY-SA
ロシアSynTagRus 依存関係ツリーバンク (ロシア国立コーパス)依存研究目的で自由に利用可能
サンスクリットユニバーサル ディペンデンシーズ、UFAL依存CC BY-SA
サンスクリット普遍的な依存関係、ヴェーダ依存CC BY-SA
スコットランド・ゲール語ユニバーサル ディペンデンシーズ、ARCOSG依存CC BY-SA
セルビア語ユニバーサル依存関係、SET依存CC BY-SA
シンディー語ユニバーサル ディペンデンシーズ、MazharDootio依存CC BY-SA
スコルト・サーミ語ユニバーサル・ディペンデンシーズ、ギエラガス依存CC BY-SA
スロバキア語ユニバーサル ディペンデンシーズ、SNK依存CC BY-SA
スロベニア語スロベニア属領ツリーバンク依存研究目的で自由に利用可能
スロベニア語普遍的な依存関係、SSJ依存CC BY-NC-SA
スロベニア語普遍的な依存関係、SST依存CC BY-NC-SA
スペイン語キャスト3LB句構造依存関係研究目的で自由に利用可能
スペイン語ユニバーサル ディペンデンシーズ、AnCora依存GPL
スペイン語ユニバーサル ディペンデンシーズ、GSD依存CC BY-SA
スペイン語ユニバーサル依存関係(PUD)依存CC BY-SA
スペイン語UAMスペイン語ツリーバンクフレーズ構造研究目的で自由に利用可能
スウェーデン語タルバンケン05句構造依存関係研究目的で自由に利用可能
スウェーデン語スウェーデンのツリーバンクフレーズ構造研究目的で自由に利用可能
スウェーデン語ユニバーサル依存関係、LineES依存CC BY-NC-SA
スウェーデン語ユニバーサル依存関係(PUD)依存CC BY-SA
スウェーデン語普遍的依存関係、タルバンケン依存CC BY-SA
スウェーデン語SMULTRON - パラレル ツリーバンク EN-DE-SVフレーズ構造研究目的で自由に利用可能
スウェーデン手話ユニバーサル ディペンデンシー、SSLC依存CC BY-SA
スイスドイツ語ユニバーサル・ディペンデンシーズ、UZH依存CC BY-SA
タガログ語ユニバーサル ディペンデンシーズ、TRG依存CC BY-SA
タガログ語ユニバーサル依存関係、ウグナヤン依存CC BY-NC-SA
タミル語ユニバーサル ディペンデンシーズ、TTB依存CC BY-NC-SA
テルグ語ユニバーサル ディペンデンシーズ、MTG依存CC BY-SA
タイ語NAiST タイツリーバンク依存オープンソース(GNU一般公衆利用許諾書
タイ語ユニバーサル依存関係(PUD)依存CC BY-SA
タイ語THTBフレーズ構造CC BY 4.0
トルコ語METU-サバンチ・トルコ・ツリーバンク依存研究目的で自由に利用可能
トルコ語ユニバーサル依存関係、BOUN依存CC BY-SA
トルコ語ユニバーサル・ディペンデンシーズ、GB依存CC BY-SA
トルコ語ユニバーサル ディペンデンシーズ、IMST依存CC BY-NC-SA
トルコ語ユニバーサル依存関係(PUD)依存CC BY-SA
ウクライナ語ウクライナ研究所、NGOゴールドスタンダード依存オープンソース(クリエイティブコモンズライセンス
ウクライナ語ユニバーサル・ディペンデンシーズ、IU依存CC BY-NC-SA
上ソルブ語ユニバーサル ディペンデンシーズ、UFAL依存CC BY-SA
ウルドゥー語NU-FAST ツリーバンクフレーズ構造計算学習戦略と実践に関するお問い合わせ
ウルドゥー語URDU.KON-TB ツリーバンクフレーズとハイパー依存構造計算学習戦略と実践に関するお問い合わせ
ウルドゥー語ユニバーサル ディペンデンシーズ、UDTB依存CC BY-NC-SA
ウイグル人ユニバーサル依存関係、UDT依存CC BY-SA
ベトナム語ユニバーサル ディペンデンシーズ、VTB依存CC BY-SA
ベトナム語ベトナムの樹木銀行フレーズ構造研究目的で自由に利用可能
ベトナム語ベトナム依存ツリーバンク依存研究目的で自由に利用可能
ワルピリユニバーサル ディペンデンシーズ、UFAL依存CC BY-SA
ウェールズ語ユニバーサル・ディペンデンシーズ、CCG依存CC BY-SA
ウォロフ語ユニバーサル ディペンデンシーズ、WTB依存CC BY-SA
ヨルバ語ユニバーサル ディペンデンシーズ、YTB依存CC BY-SA

多言語タスク間の更なる研究を促進するため、一部の研究者は言語横断的なユニバーサルアノテーションスキームについて議論しました。この方法では、異なるツリーバンクコーパスの利点を活用または統合しようと試みています。例えば、係り受けツリーバンクのためのユニバーサルアノテーションアプローチ[11]や句構造ツリーバンクのためのユニバーサルアノテーションアプローチ[12]などが挙げられます。

検索ツール

ツリーバンクから証拠を抽出するための重要な方法の一つは、検索ツールを用いることです。解析済みコーパスの検索ツールは、通常、コーパスに適用されたアノテーションスキームに依存します。ユーザーインターフェースの洗練度は、コンピュータプログラマー向けの表現ベースのクエリシステムから、一般言語学者向けの完全な探索環境まで多岐にわたります。Wallis (2008) は、ツリーバンクの検索原理を詳細に論じ、当時の最先端技術を概説しています。[13]

参照

参考文献

  1. ^ Alexander Clark、Chris Fox、Shalom Lappin (2010). 計算言語学と自然言語処理ハンドブック. Wiley.
  2. ^ サンプソン、G. (2003)「樹木学者の考察」A. ウィルソン、P. レイソン、T. マクエナリー編『月面のコーパス言語学:ジェフリー・リーチ記念論文集』フランクフルト・アム・マイン:ペーター・ラング、pp. 157-184
  3. ^ マーカス, ミッチェル P.; サントリーニ, ベアトリス; マルチンキエヴィッチ, メアリー・アン (1993). ヒルシュバーグ, ジュリア (編). 「大規模注釈付き英語コーパスの構築:ペン・ツリーバンク」.計算言語学. 19 (2): 313– 330.
  4. ^ Haitao Liu、Wei Huang — Treebankingのための中国語依存構文、中国伝媒大学出版、計算言語学協会出版(オンライン)- 2020年2月4日アクセス
  5. ^ Kübler, Sandra; McDonald, Ryan; Nivre, Joakim (2008-12-18). 「依存関係解析」.人間言語技術に関する統合講義. 2 (1): 1– 127. doi :10.2200/s00169ed1v01y200901hlt002.
  6. ^ Kais Dukes (2013)「ロボット空間コマンドの意味的注釈」言語と技術会議(LTC)ポーランド、ポズナン。
  7. ^ Celano, Giuseppe GA 2014. 古代ギリシャ語従属ツリーバンク2.0の注釈付けガイドライン。https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
  8. ^ Mambrini, F. 2016. 古代ギリシャ語従属ツリーバンク:教育環境における言語注釈. Bodard, G & Romanello, M (編)『Digital Classics Outside the Echo-Chamber: Teaching, Knowledge Exchange & Public Engagement』83–99ページ. ロンドン: Ubiquity Press. doi : 10.5334/bat.f
  9. ^ abcdef Dag Haug. 2015. 歴史言語研究におけるツリーバンクス。Carlotta Viti編『歴史的統語論の展望』Benjamins、188-202ページ。プレプリントはhttp://folk.uio.no/daghaug/historical-treebanks.pdfで入手可能。
  10. ^ Bamman David他 2008. ラテン語ツリーバンクの統語注釈ガイドライン(v. 1.3)http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
  11. ^ McDonald, R.; Nivre, J., Quirmbach-Brundage, Y.; et al. 「多言語解析のためのユニバーサル依存関係アノテーション」。ACL 2013議事録{{cite conference}}: CS1 maint: multiple names: authors list (link)
  12. ^ Han, AL-F; Wong, DF; Chao, LS; Lu, Y.; He, L. & Tian, L. (2014). 「多言語ツリーバンクのためのユニバーサルフレーズタグセット」(PDF) . Proceedings of the CCL and NLP-NABD 2014, LNAI 8801, pp. 247– 258. © Springer International Publishing Switzerland . doi :10.1007/978-3-319-12277-9_22.
  13. ^ ショーン、ウォリス (2008)。木の堤やその他の構造化されたコーパスを検索します。 Lüdeling, A. & Kytö, M. (編)『コーパス言語学: 国際ハンドブック』の第 34 章。 Handbücher zur Sprache und Kommunikationswissenschaft シリーズ。ベルリン:ムートン・ド・グリュイテル。
Retrieved from "https://en.wikipedia.org/w/index.php?title=Treebank&oldid=1305280731"