評価尺度(情報検索)

情報検索(IR)システムの評価指標は、インデックス、検索エンジン、またはデータベースが、ユーザーのクエリを満たすリソースの集合からどれだけ正確に結果を返すかを評価するものです。したがって、これらは情報システムとデジタルプラットフォームの成功の基盤となります。

システムのユーザーに対する有効性を決定する最も重要な要素は、クエリに応じて取得された結果の全体的な関連性です。[ 1 ] IRシステムの成功は、関連性、速度、ユーザー満足度、使いやすさ、効率性、信頼性など、さまざまな基準で判断できます。[ 2 ]評価基準は、オフラインまたはオンライン、ユーザーベースまたはシステムベースなど、さまざまな方法で分類でき、観察されたユーザー行動、テストコレクション、精度と再現率、作成されたベンチマークテストセットのスコアなどの方法が含まれます。

情報検索システムの評価には、使用された評価尺度の検証、すなわち、測定対象をどれだけ正確に測定できているか、システムが意図された使用事例にどれだけ適合しているかを評価することも含まれるべきである。[ 3 ]評価尺度は一般的に2つの設定で使用される。1つはユーザーと検索システムのインタラクションを評価するオンライン実験、もう1つは静的なオフラインコレクションにおける情報検索システムの有効性を測定するオフライン評価である。

背景

情報検索を支援する索引作成と分類の手法は、最初期の図書館やコレクションにまで遡る長い歴史を持っています。その有効性の体系的な評価は、1950年代に軍、政府、教育機関における研究成果の急速な拡大とコンピュータ化されたカタログの導入により本格的に始まりました。当時は、様々な索引作成、分類、カタログ作成システムが運用されていましたが、開発には費用がかかり、どれが最も効果的であるかは明確ではありませんでした。[ 4 ]

英国クランフィールドの航空大学の司書、シリル・クレバードンは、クランフィールド・パラダイム、あるいはクランフィールド・テストとして知られる印刷物の索引付けと検索方法に関する一連の実験を開始し、これは長年にわたり情報検索の評価基準の標準となった。[ 4 ]クレバードンは「既知項目検索」と呼ばれるテストを開発した。これは、検索システムが、特定の検索に対して関連性や正確性が知られている文書を返しているかどうかを確認するためのものである。クレバードンの実験により、情報検索の評価に必要ないくつかの重要な要素が確立された。すなわち、テストコレクション、一連のクエリ、そして組み合わせることで精度と再現率を決定づける、事前に決定された関連項目のセットである。

クレバードンのアプローチは、1992 年に始まった 成功したテキスト検索会議シリーズの青写真となりました。

アプリケーション

IRシステムの評価は、インターネット検索、ウェブサイト検索、データベース、図書館カタログなど、あらゆる検索エンジンの成功に不可欠です。評価尺度は、情報行動ユーザビリティテスト、事業コスト、効率性評価などの研究に用いられます。IRシステムの有効性を測定することは、テストコレクションと評価尺度を組み合わせたIR研究の主要な焦点となっています。[ 5 ] Text Retrieval Conference (TREC)、Conference and Labs of the Evaluation Forum (CLEF)、NTCIRなど、評価尺度に特化した学術会議が数多く設立されています。

オンライン対策

オンライン指標は通常、検索ログから作成されます。これらの指標は、A/Bテストの成功を判断するためによく使用されます。

セッション放棄率

セッション放棄率は、クリックに至らなかった検索セッションの割合です。

クリックスルー率

クリックスルー率(CTR)とは、ページ、メール、または広告を閲覧したユーザー総数に対する、特定のリンクをクリックしたユーザーの割合です。これは、特定のウェブサイトにおけるオンライン広告キャンペーンの成功度や、メールキャンペーンの効果を測定するためによく使用されます。[ 6 ]

セッション成功率

セッション成功率は、成功に至ったユーザーセッションの割合を測定します。「成功」の定義は状況によって大きく異なりますが、検索においては、滞在時間を主要な要素とし、ユーザーによる二次的なインタラクションも考慮して成功と判断されることが多いです。例えば、ユーザーが結果URLをコピーしたり、スニペットからコピー&ペーストしたりすることは、成功とみなされます。

結果率ゼロ

ゼロ結果率ZRR)は、検索結果がゼロだった検索エンジン結果ページ(SERP)の割合です。この指標は、リコールの問題、または検索対象の情報がインデックスに存在しないことを示しています。

オフライン指標

オフライン指標は通常、関連性判定セッションから作成されます。このセッションでは、審査員が検索結果の品質を採点します。クエリへの応答として返される各ドキュメントの採点には、2値(関連性あり/なし)と多値(例:関連性0~5)の両方の尺度を使用できます。実際には、クエリが不適切である場合があり、関連性の程度が異なる場合があります。例えば、「mars」というクエリには曖昧性があります。審査員は、ユーザーが火星を検索しているのか、火星チョコレートバーを検索しているのか歌手ブルーノ・マーズを検索しているのか、それともローマ神話の神マルスを検索しているのかを判断できません。

精度

精度とは、取得されたドキュメントのうち、ユーザーの情報ニーズに 関連するドキュメントの割合です。

二値分類において、適合率は陽性予測値に類似しています。適合率は、取得されたすべての文書を考慮します。また、Precision@kを用いて、システムによって返される最上位の結果のみを考慮して評価することもできます。

情報検索の分野における「精度」の意味と使用法は、科学や統計の他の分野における正確度や精度の定義とは異なることに注意してください。

想起

再現率は、クエリに関連するドキュメントのうち正常に取得されたドキュメントの割合です。

二値分類では、再現率はしばしば感度と呼ばれます。つまり、クエリによって関連する文書が検索される確率と見ることができます。

あらゆるクエリに対してすべての文書を返すことで、再現率100%を達成するのは容易です。したがって、再現率だけでは不十分であり、例えば適合率を計算するなどして、関連性のない文書の数も測定する必要があります。

フォールアウト

利用可能なすべての非関連文書のうち、取得された非関連文書の割合:

二項分類において、フォールアウトは特異度の反対であり、 に等しい。これは、クエリ によって関連性のない文書が検索される確率と見ることができる。

あらゆるクエリに対して 0 個のドキュメントを返すことで、フォールアウト率を 0% にするのは簡単です。

Fスコア/F尺度

精度と再現率の加重調和平均、つまり従来の F 値またはバランス F スコアは次のとおりです。

再現率と精度が均等に重み付けされているため、これは測定値とも呼ばれます。

非負実数の一般的な式は次のとおりです。

よく使用される他の 2 つの F 尺度は、再現率を精度の 2 倍重視する尺度と、精度を再現率の 2 倍重視する尺度です。

F値はvan Rijsbergen (1979)によって導出され、「再現率を精度と同じくらい重視するユーザーに対する検索の有効性を測定する」ことを目的としています。これはvan Rijsbergenの有効性指標に基づいています。両者の関係は以下のとおりです。

どこ

F 値は精度と再現率の両方からの情報を組み合わせるため、2 つの数値を提示せずに全体的なパフォーマンスを表す方法です。

平均精度

適合率と再現率は、システムによって返される文書リスト全体に基づく単一値の指標です。文書のランク付けされたシーケンスを返すシステムでは、返される文書の順序も考慮することが望ましいです。ランク付けされた文書シーケンスの各位置で適合率と再現率を計算することで、適合率を再現率の関数としてプロットする適合率-再現率曲線を描くことができます。平均適合率は、からまでの区間におけるの平均値を計算します。[ 7 ]

これは適合率-再現率曲線の下の面積です。この積分は実際には、文書の順位付けされたシーケンスにおけるすべての位置にわたる有限和に置き換えられます。

ここで、は検索された文書の順序における順位、は検索された文書の数、はリストのカットオフにおける精度、は項目からへの再現率の変化である。[ 7 ]

この有限和は次のものと同等です:

ここで、は、ランクの項目が関連文書である場合に1、そうでない場合は0となる指標関数である。[ 8 ]平均は、検索された上位k個の文書内の関連文書についてであり、検索されなかった関連文書は精度スコアが0になることに注意してください。

一部の著者は、曲線の「波」の影響を減らすために関数を補間することを選択する。[ 9 ] [ 10 ]例えば、PASCAL Visual Object Classesチャレンジ(コンピュータビジョンによる物体検出のベンチマーク)は2010年まで[ 11 ]、等間隔の再現率{0, 0.1, 0.2, ... 1.0}の集合にわたって適合率を平均化することで平均適合率を計算していた。[ 9 ] [ 10 ]

ここで、は、 より大きいすべてのリコールに対して最大精度を取る補間精度です。

代替案としては、基礎となる決定値に対して特定のパラメトリック分布を仮定して解析関数を導出する方法があります。例えば、両クラスの決定値がガウス分布に従うと仮定することで、双正規適合率-再現率曲線を得ることができます。[ 12 ]

特定の分類タスクで達成可能な最小 AveP は次のように与えられます。

[ 13 ]

kでの精度

現代の(ウェブ規模の)情報検索では、多くのクエリには何千もの関連文書があり、それらすべてを読むことに興味を持つユーザーはほとんどいないため、再現率はもはや意味のある指標ではありません。k文書での適合率(P@k)は依然として有用な指標ですが(たとえば、P@10 または「10 での適合率」は、検索された上位 10 文書の中で関連する結果の数に対応します)、上位 k の中での関連文書の順位を考慮に入れていません。[ 14 ] もう 1 つの欠点は、関連する結果が k よりも少ないクエリでは、完璧なシステムであってもスコアが 1 未満になることです。 [ 15 ] 上位 k 個の結果のみを調べて関連性があるかどうかを判断する必要があるため、手動でスコアを付ける方が簡単です。

R精度

R精度は、クエリに関連するすべての文書を知ることを必要とします。関連文書数 は計算のカットオフとして使用され、これはクエリごとに異なります。例えば、コーパス内に「赤」に関連する文書が15件ある場合(R=15)、R精度は返された上位15件の文書を調べ、関連する文書の数 を数え、それを関連度分数 に変換します。[ 16 ]

R-適合率は、-番目の位置での適合率(P@ )と-番目の位置での再現率の両方に相当することに注意されたい。[ 15 ]

経験的に、この指標は平均精度と高い相関関係にあることが多い。[ 15 ]

平均精度

クエリ セットの平均精度 (MAP) は、各クエリの平均精度スコアの平均です。

ここで、Qはクエリの数です。

割引累積利益

DCGは、結果セットに含まれる文書の段階的関連度スケールを用いて、結果リストにおける位置に基づいて文書の有用性(ゲイン)を評価します。DCGの前提は、検索結果リストの下位に表示される関連性の高い文書は、段階的関連度が結果の位置に比例して対数的に減少するため、ペナルティを受けるべきであるというものです。

特定のランク位置で蓄積された DCG は次のように定義されます。

結果セットのサイズはクエリやシステムによって異なる可能性があるため、パフォーマンスを比較するために、正規化されたDCGバージョンでは理想的なDCGを使用します。このため、結果リスト内の文書を関連度で並べ替え、位置p ( )に理想的なDCGを生成し、スコアを正規化します。

すべてのクエリのnDCG値を平均化することで、ランキングアルゴリズムの平均パフォーマンスを測ることができます。完璧なランキングアルゴリズムでは、 nDCG値が1.0となるのと同じ値になります。すべてのnDCG計算は0.0から1.0の区間における相対値となるため、クエリ間で比較可能です。

その他の対策

視覚化

情報検索パフォーマンスの視覚化には次のものが含まれます。

関連性のない指標

時間あたりのクエリ数

検索システムで実行されるクエリ数を(月/日/時/分/秒)単位で測定することで、検索システムの使用状況を追跡できます。この値は、予期せぬクエリの急増を示す診断に使用したり、クエリレイテンシなどの他の指標と比較する際の基準として使用したりできます。例えば、クエリトラフィックの急増は、クエリレイテンシの急増を説明するために使用できます。

参照

参考文献

  1. ^ Carterette, Ben; Voorhees, Ellen M. (2011), Lupu, Mihai; Mayer, Katja; Tait, John; Trippe, Anthony J. (編)、「情報検索評価の概要」特許情報検索における現在の課題、ベルリン、ハイデルベルク:Springer、pp.  69– 85、doi10.1007/978-3-642-19231-9_3ISBN 978-3-642-19231-9、 2022年12月9日取得{{citation}}: CS1 maint: work parameter with ISBN (link)
  2. ^ Clough, P.; Sanderson, M. (2013-06-15). 「テストコレクションを用いた情報検索システムのパフォーマンス評価」 Information Research . 2022年12月9日閲覧。
  3. ^ Karlgren, Jussi (2019). 「運用環境における体系的な評価ベンチマークの採用」(PDF) .変化する世界における情報検索. 2022年6月27日閲覧.
  4. ^ a b Harman, Donna (2011).情報検索評価. 情報概念、検索、およびサービスに関する統合講義. シャム、スイス: Springer. doi : 10.1007/978-3-031-02276-0 . ISBN 978-3-031-02276-0. S2CID  207318946 .
  5. ^ Sanderson, Mark (2010). 「テストコレクションに基づく情報検索システムの評価」 .情報検索の基礎と動向. 4 (4): 247– 375. doi : 10.1561/1500000009 . ISSN 1554-0669 . 
  6. ^アメリカマーケティング協会辞典. [1] 2012年11月2日閲覧。マーケティング説明責任基準委員会(MASB)は、進行中のマーケティング共通言語プロジェクト の一環として、この定義を承認しています2019年4月5日アーカイブ、 Wayback Machine
  7. ^ a b Zhu, Mu (2004). 「再現率、適合率、平均適合率」(PDF) . 2011年5月4日時点のオリジナル(PDF)からアーカイブ{{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  8. ^ Turpin, Andrew; Scholer, Falk (2006). 「単純な検索タスクにおけるユーザーパフォーマンスと精度指標」 .第29回国際ACM SIGIR会議論文集, 情報検索における研究開発. ニューヨーク: ACM. pp.  11–18 . CiteSeerX 10.1.1.533.4100 . doi : 10.1145/1148170.1148176 . ISBN  978-1-59593-369-0. S2CID  9810253 .
  9. ^ a b Everingham, Mark; Van Gool, Luc; Williams, Christopher KI; Winn, John; Zisserman, Andrew (2010年6月). 「PASCAL Visual Object Classes (VOC) Challenge」(PDF) . International Journal of Computer Vision . 88 (2): 303– 338. doi : 10.1007/s11263-009-0275-4 . hdl : 20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID 4246903. 2011年11月20日時点のオリジナル(PDF)からのアーカイブ。 2011年8月29日閲覧 
  10. ^ a bマニング、クリストファー・D.、ラガヴァン、プラバカール、シュッツェ、ヒンリッヒ (2008).情報検索入門. ケンブリッジ大学出版局.
  11. ^ 「PASCAL Visual Object Classes Challenge 2012 (VOC2012) 開発キット」 . host.robots.ox.ac.uk . 2019年3月23日閲覧。
  12. ^ KH Brodersen, CS Ong, KE Stephan, JM Buhmann (2010).適合率・再現率曲線における二正規分布仮定Archived December 8, 2012, at the Wayback Machine . Proceedings of the 20th International Conference on Pattern Recognition , 4263-4266.
  13. ^ Boyd, K., Davis, J., Page, D., & Costa, VS (2012). 適合率・再現率空間における達成不可能領域と実証的評価への影響. 国際機械学習会議議事録. 国際機械学習会議, 2012, 349.
  14. ^ Kalervo, J~irvelin (2017). 「関連性の高い文書を検索するためのIR評価手法」(PDF) . ACM SIGIRフォーラム. 51, 2 : 243–250 .
  15. ^ a b c Christopher D. Manning、Prabhakar Raghavan、Hinrich Schütze (2009). 「第8章 情報検索における評価」(PDF) . 2015年6月14日閲覧情報検索入門 の一部[2]
  16. ^ a b c d e http://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf
  17. ^ C. Lioma; JG Simonsen; B. Larsen (2017). 「ランク付けリストにおける関連性と信頼性の評価尺度」(PDF) . 2018年3月13日時点のオリジナル(PDF)からアーカイブ。 2018年3月12日閲覧ACM SIGIR 国際情報検索理論会議議事録、91-98。
「 https://en.wikipedia.org/w/index.php?title=評価尺度(情報検索)&oldid=1329650960 #平均精度」より取得