コロケーション抽出

コロケーション抽出とは、 コンピュータを使用してコーパスからコロケーションを自動的に抽出する作業です

コロケーション抽出を行う従来の方法は、単語の統計量に基づいて式を見つけ、各単語ペアに関連付けられたスコアを計算するというものです。提案されている式には、相互情報量t検定z検定カイ二乗検定尤度比などがあります。[1]

コーパス言語学の分野においてコロケーションとは、偶然に予想されるよりも頻繁に共起する単語または用語の列と定義されます。「Crystal clear(非常にクリア)」「middle management(中間管理職)」「nuclear family(核家族)」「cosmetic surgery(美容整形手術)」などは、コロケーションペアの例です。複合名詞を構成するため、しばしば一緒に出現する単語もあります。例えば、「riding boots(乗馬ブーツ)」や「motor cyclist(モーターサイクリスト)」、あるいは「collocation extraction(コロケーション抽出)」などです。

参照

  • コロケーションとは

参考文献

  1. ^ Manning, CD; Schütze, H. (1999). 統計的自然言語処理の基礎. ケンブリッジ, マサチューセッツ州: MIT 出版. ISBN 978-0-262-13360-9


「https://en.wikipedia.org/w/index.php?title=Collocation_extraction&oldid=1297307976」より取得