評価尺度（情報検索）

情報検索（IR）システムの評価指標は、インデックス、検索エンジン、またはデータベースが、ユーザーのクエリを満たすリソースの集合からどれだけ正確に結果を返すかを評価するものです。したがって、これらは情報システムとデジタルプラットフォームの成功の基盤となります。

システムのユーザーに対する有効性を決定する最も重要な要素は、クエリに応じて取得された結果の全体的な関連性です。^{[ 1 ]} IRシステムの成功は、関連性、速度、ユーザー満足度、使いやすさ、効率性、信頼性など、さまざまな基準で判断できます。^{[ 2 ]}評価基準は、オフラインまたはオンライン、ユーザーベースまたはシステムベースなど、さまざまな方法で分類でき、観察されたユーザー行動、テストコレクション、精度と再現率、作成されたベンチマークテストセットのスコアなどの方法が含まれます。

情報検索システムの評価には、使用された評価尺度の検証、すなわち、測定対象をどれだけ正確に測定できているか、システムが意図された使用事例にどれだけ適合しているかを評価することも含まれるべきである。^{[ 3 ]}評価尺度は一般的に2つの設定で使用される。1つはユーザーと検索システムのインタラクションを評価するオンライン実験、もう1つは静的なオフラインコレクションにおける情報検索システムの有効性を測定するオフライン評価である。

背景

情報検索を支援する索引作成と分類の手法は、最初期の図書館やコレクションにまで遡る長い歴史を持っています。その有効性の体系的な評価は、1950年代に軍、政府、教育機関における研究成果の急速な拡大とコンピュータ化されたカタログの導入により本格的に始まりました。当時は、様々な索引作成、分類、カタログ作成システムが運用されていましたが、開発には費用がかかり、どれが最も効果的であるかは明確ではありませんでした。^{[ 4 ]}

英国クランフィールドの航空大学の司書、シリル・クレバードンは、クランフィールド・パラダイム、あるいはクランフィールド・テストとして知られる印刷物の索引付けと検索方法に関する一連の実験を開始し、これは長年にわたり情報検索の評価基準の標準となった。^{[ 4 ]}クレバードンは「既知項目検索」と呼ばれるテストを開発した。これは、検索システムが、特定の検索に対して関連性や正確性が知られている文書を返しているかどうかを確認するためのものである。クレバードンの実験により、情報検索の評価に必要ないくつかの重要な要素が確立された。すなわち、テストコレクション、一連のクエリ、そして組み合わせることで精度と再現率を決定づける、事前に決定された関連項目のセットである。

クレバードンのアプローチは、1992 年に始まった成功したテキスト検索会議シリーズの青写真となりました。

アプリケーション

IRシステムの評価は、インターネット検索、ウェブサイト検索、データベース、図書館カタログなど、あらゆる検索エンジンの成功に不可欠です。評価尺度は、情報行動、ユーザビリティテスト、事業コスト、効率性評価などの研究に用いられます。IRシステムの有効性を測定することは、テストコレクションと評価尺度を組み合わせたIR研究の主要な焦点となっています。^{[ 5 ]} Text Retrieval Conference (TREC)、Conference and Labs of the Evaluation Forum (CLEF)、NTCIRなど、評価尺度に特化した学術会議が数多く設立されています。

オンライン対策

オンライン指標は通常、検索ログから作成されます。これらの指標は、A/Bテストの成功を判断するためによく使用されます。

セッション放棄率

セッション放棄率は、クリックに至らなかった検索セッションの割合です。

クリックスルー率

クリックスルー率（CTR）とは、ページ、メール、または広告を閲覧したユーザー総数に対する、特定のリンクをクリックしたユーザーの割合です。これは、特定のウェブサイトにおけるオンライン広告キャンペーンの成功度や、メールキャンペーンの効果を測定するためによく使用されます。^{[ 6 ]}

セッション成功率

セッション成功率は、成功に至ったユーザーセッションの割合を測定します。「成功」の定義は状況によって大きく異なりますが、検索においては、滞在時間を主要な要素とし、ユーザーによる二次的なインタラクションも考慮して成功と判断されることが多いです。例えば、ユーザーが結果URLをコピーしたり、スニペットからコピー＆ペーストしたりすることは、成功とみなされます。

結果率ゼロ

ゼロ結果率（ZRR）は、検索結果がゼロだった検索エンジン結果ページ（SERP）の割合です。この指標は、リコールの問題、または検索対象の情報がインデックスに存在しないことを示しています。

オフライン指標

オフライン指標は通常、関連性判定セッションから作成されます。このセッションでは、審査員が検索結果の品質を採点します。クエリへの応答として返される各ドキュメントの採点には、2値（関連性あり/なし）と多値（例：関連性0～5）の両方の尺度を使用できます。実際には、クエリが不適切である場合があり、関連性の程度が異なる場合があります。例えば、「mars」というクエリには曖昧性があります。審査員は、ユーザーが火星を検索しているのか、火星チョコレートバーを検索しているのか、歌手のブルーノ・マーズを検索しているのか、それともローマ神話の神マルスを検索しているのかを判断できません。

精度

精度とは、取得されたドキュメントのうち、ユーザーの情報ニーズに関連するドキュメントの割合です。

{\mbox{精度}}={\frac {|\{{\mbox{関連文書}}\}\cap \{{\mbox{取得した文書}}\}|}{|\{{\mbox{取得した文書}}\}|}}

二値分類において、適合率は陽性予測値に類似しています。適合率は、取得されたすべての文書を考慮します。また、Precision@kを用いて、システムによって返される最上位の結果のみを考慮して評価することもできます。

情報検索の分野における「精度」の意味と使用法は、科学や統計の他の分野における正確度や精度の定義とは異なることに注意してください。

想起

再現率は、クエリに関連するドキュメントのうち正常に取得されたドキュメントの割合です。

{\mbox{recall}}={\frac {|\{{\mbox{関連文書}}\}\cap \{{\mbox{取得した文書}}\}|}{|\{{\mbox{関連文書}}\}|}}

二値分類では、再現率はしばしば感度と呼ばれます。つまり、クエリによって関連する文書が検索される確率と見ることができます。

あらゆるクエリに対してすべての文書を返すことで、再現率100%を達成するのは容易です。したがって、再現率だけでは不十分であり、例えば適合率を計算するなどして、関連性のない文書の数も測定する必要があります。

フォールアウト

利用可能なすべての非関連文書のうち、取得された非関連文書の割合:

{\mbox{fall-out}}={\frac {|\{{\mbox{非関連文書}}\}\cap \{{\mbox{取得した文書}}\}|}{|\{{\mbox{非関連文書}}\}|}}

二項分類において、フォールアウトは特異度の反対であり、に等しい。これは、クエリによって関連性のない文書が検索される確率と見ることができる。 $(1-{\mbox{特異性}})$

あらゆるクエリに対して 0 個のドキュメントを返すことで、フォールアウト率を 0% にするのは簡単です。

Fスコア/F尺度

精度と再現率の加重調和平均、つまり従来の F 値またはバランス F スコアは次のとおりです。

F={\frac {2\cdot \mathrm {精度} \cdot \mathrm {再現率} }{(\mathrm {精度} +\mathrm {再現率} )}}

再現率と精度が均等に重み付けされているため、これは測定値とも呼ばれます。 $F_{1}$

非負実数の一般的な式は次のとおりです。 $\beta$

F_{\beta }={\frac {(1+\beta ^{2})\cdot (\mathrm {precision} \cdot \mathrm {recall} )}{(\beta ^{2}\cdot \mathrm {precision} +\mathrm {recall} )}}\,

よく使用される他の 2 つの F 尺度は、再現率を精度の 2 倍重視する尺度と、精度を再現率の 2 倍重視する尺度です。 $F_{2}$ $F_{0.5}$

F値はvan Rijsbergen (1979)によって導出され、「再現率を精度と同じくらい重視するユーザーに対する検索の有効性を測定する」ことを目的としています。これはvan Rijsbergenの有効性指標に基づいています。両者の関係は以下のとおりです。 $F_{\beta }$ $\beta$ $E=1-{\frac {1}{{\frac {\alpha }{P}}+{\frac {1-\alpha }{R}}}}$

F_{\beta }=1-E

どこ

\alpha ={\frac {1}{1+\beta ^{2}}}

F 値は精度と再現率の両方からの情報を組み合わせるため、2 つの数値を提示せずに全体的なパフォーマンスを表す方法です。

平均精度

適合率と再現率は、システムによって返される文書リスト全体に基づく単一値の指標です。文書のランク付けされたシーケンスを返すシステムでは、返される文書の順序も考慮することが望ましいです。ランク付けされた文書シーケンスの各位置で適合率と再現率を計算することで、適合率を再現率の関数としてプロットする適合率-再現率曲線を描くことができます。平均適合率は、からまでの区間におけるの平均値を計算します。^[⁷^] $p(r)$ $r$ $p(r)$ $r=0$ $r=1$

\operatorname {AveP} =\int _{0}^{1}p(r)dr

これは適合率-再現率曲線の下の面積です。この積分は実際には、文書の順位付けされたシーケンスにおけるすべての位置にわたる有限和に置き換えられます。

\operatorname {AveP} =\sum _{k=1}^{n}P(k)\Delta r(k)

ここで、は検索された文書の順序における順位、は検索された文書の数、はリストのカットオフにおける精度、は項目からへの再現率の変化である。^[⁷^] $k$ $n$ $P(k)$ $k$ $\Delta r(k)$ $k-1$ $k$

この有限和は次のものと同等です:

\operatorname {AveP} ={\frac {\sum _{k=1}^{n}P(k)\times \operatorname {rel} (k)}{\mbox{total number of relevant documents}}}\!

ここで、は、ランクの項目が関連文書である場合に1、そうでない場合は0となる指標関数である。^[⁸^]平均は、検索された上位k個の文書内の関連文書についてであり、検索されなかった関連文書は精度スコアが0になることに注意してください。 $\operatorname {rel} (k)$ $k$

一部の著者は、曲線の「波」の影響を減らすために関数を補間することを選択する。^[⁹^]^[¹⁰^]例えば、PASCAL Visual Object Classesチャレンジ（コンピュータビジョンによる物体検出のベンチマーク）は2010年まで^[¹¹^]、等間隔の再現率{0, 0.1, 0.2, ... 1.0}の集合にわたって適合率を平均化することで平均適合率を計算していた。^[⁹^]^[¹⁰^] $p(r)$

\operatorname {AveP} ={\frac {1}{11}}\sum _{r\in \{0,0.1,\ldots ,1.0\}}p_{\operatorname {interp} }(r)

ここで、は、より大きいすべてのリコールに対して最大精度を取る補間精度です。 $p_{\operatorname {interp} }(r)$ $r$

p_{\operatorname {interp} }(r)=\operatorname {max} _{{\tilde {r}}:{\tilde {r}}\geq r}p({\tilde {r}})

。

代替案としては、基礎となる決定値に対して特定のパラメトリック分布を仮定して解析関数を導出する方法があります。例えば、両クラスの決定値がガウス分布に従うと仮定することで、双正規適合率-再現率曲線を得ることができます。^[¹²^] $p(r)$

特定の分類タスクで達成可能な最小 AveP は次のように与えられます。

${\frac {1}{n_{pos}}}\sum _{k=1}^{n_{pos}}{\frac {k}{k+n_{neg}}}$ ^{[ 13 ]}

kでの精度

現代の（ウェブ規模の）情報検索では、多くのクエリには何千もの関連文書があり、それらすべてを読むことに興味を持つユーザーはほとんどいないため、再現率はもはや意味のある指標ではありません。k文書での適合率（P@k）は依然として有用な指標ですが（たとえば、P@10 または「10 での適合率」は、検索された上位 10 文書の中で関連する結果の数に対応します）、上位 k の中での関連文書の順位を考慮に入れていません。^{[ 14 ]} もう 1 つの欠点は、関連する結果が k よりも少ないクエリでは、完璧なシステムであってもスコアが 1 未満になることです。 ^{[ 15 ]} 上位 k 個の結果のみを調べて関連性があるかどうかを判断する必要があるため、手動でスコアを付ける方が簡単です。

R精度

R精度は、クエリに関連するすべての文書を知ることを必要とします。関連文書数は計算のカットオフとして使用され、これはクエリごとに異なります。例えば、コーパス内に「赤」に関連する文書が15件ある場合（R=15）、R精度は返された上位15件の文書を調べ、関連する文書の数を数え、それを関連度分数に変換します。^[¹⁶^] $R$ $r$ $r/R=r/15$

R-適合率は、-番目の位置での適合率（P@ ）と-番目の位置での再現率の両方に相当することに注意されたい。^[¹⁵^] $R$ $R$ $R$

経験的に、この指標は平均精度と高い相関関係にあることが多い。^{[ 15 ]}

平均精度

クエリセットの平均精度 (MAP) は、各クエリの平均精度スコアの平均です。

\operatorname {MAP} ={\frac {\sum _{q=1}^{Q}\operatorname {AveP(q)} }{Q}}\!

ここで、Qはクエリの数です。

割引累積利益

DCGは、結果セットに含まれる文書の段階的関連度スケールを用いて、結果リストにおける位置に基づいて文書の有用性（ゲイン）を評価します。DCGの前提は、検索結果リストの下位に表示される関連性の高い文書は、段階的関連度が結果の位置に比例して対数的に減少するため、ペナルティを受けるべきであるというものです。

特定のランク位置で蓄積された DCG は次のように定義されます。 $p$

\mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}.

結果セットのサイズはクエリやシステムによって異なる可能性があるため、パフォーマンスを比較するために、正規化されたDCGバージョンでは理想的なDCGを使用します。このため、結果リスト内の文書を関連度で並べ替え、位置p ( )に理想的なDCGを生成し、スコアを正規化します。 $IDCG_{p}$

\mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG{p}}}.

すべてのクエリのnDCG値を平均化することで、ランキングアルゴリズムの平均パフォーマンスを測ることができます。完璧なランキングアルゴリズムでは、 nDCG値が1.0となるのと同じ値になります。すべてのnDCG計算は0.0から1.0の区間における相対値となるため、クエリ間で比較可能です。 $DCG_{p}$ $IDCG_{p}$

その他の対策

平均逆順位
bpref - 関連文書が無関係文書よりも上位にランクされている数を合計ベースで評価する指標^{[ 16 ]}
GMAP - （トピックごとの）平均精度の幾何平均^{[ 16 ]}
限界関連性と文書多様性に基づく尺度 -関連性（情報検索）§ 問題と代替案を参照
関連性と信頼性の両方の尺度（検索結果におけるフェイクニュースの場合）^{[ 17 ]}
ヒット率

視覚化

情報検索パフォーマンスの視覚化には次のものが含まれます。

一方の軸に精度、もう一方の軸に再現率を示すグラフ^{[ 16 ]}
様々なトピックにおける平均精度のヒストグラム^{[ 16 ]}
受信者動作特性（ROC曲線）
混同行列

参照

ランキングを学ぶ

参考文献

^ Carterette, Ben; Voorhees, Ellen M. (2011), Lupu, Mihai; Mayer, Katja; Tait, John; Trippe, Anthony J. (編)、「情報検索評価の概要」、特許情報検索における現在の課題、ベルリン、ハイデルベルク：Springer、pp. 69– 85、doi：10.1007/978-3-642-19231-9_3、ISBN 978-3-642-19231-9、 2022年12月9日取得{{citation}}: CS1 maint: work parameter with ISBN (link)
^ Clough, P.; Sanderson, M. (2013-06-15). 「テストコレクションを用いた情報検索システムのパフォーマンス評価」 Information Research . 2022年12月9日閲覧。
^ Karlgren, Jussi (2019). 「運用環境における体系的な評価ベンチマークの採用」(PDF) .変化する世界における情報検索. 2022年6月27日閲覧.
^ ^a ^b Harman, Donna (2011).情報検索評価. 情報概念、検索、およびサービスに関する統合講義. シャム、スイス: Springer. doi : 10.1007/978-3-031-02276-0 . ISBN 978-3-031-02276-0. S2CID 207318946 .
^ Sanderson, Mark (2010). 「テストコレクションに基づく情報検索システムの評価」 .情報検索の基礎と動向. 4 (4): 247– 375. doi : 10.1561/1500000009 . ISSN 1554-0669 .
^アメリカマーケティング協会辞典. [1] 2012年11月2日閲覧。マーケティング説明責任基準委員会（MASB）は、進行中のマーケティング共通言語プロジェクトの一環として、この定義を承認しています2019年4月5日アーカイブ、 Wayback Machine。
^ ^a ^b Zhu, Mu (2004). 「再現率、適合率、平均適合率」(PDF) . 2011年5月4日時点のオリジナル(PDF)からアーカイブ。{{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です
^ Turpin, Andrew; Scholer, Falk (2006). 「単純な検索タスクにおけるユーザーパフォーマンスと精度指標」 .第29回国際ACM SIGIR会議論文集, 情報検索における研究開発. ニューヨーク: ACM. pp. 11–18 . CiteSeerX 10.1.1.533.4100 . doi : 10.1145/1148170.1148176 . ISBN 978-1-59593-369-0. S2CID 9810253 .
^ ^a ^b Everingham, Mark; Van Gool, Luc; Williams, Christopher KI; Winn, John; Zisserman, Andrew (2010年6月). 「PASCAL Visual Object Classes (VOC) Challenge」(PDF) . International Journal of Computer Vision . 88 (2): 303– 338. doi : 10.1007/s11263-009-0275-4 . hdl : 20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID 4246903. 2011年11月20日時点のオリジナル(PDF)からのアーカイブ。 2011年8月29日閲覧。
^ ^a ^bマニング、クリストファー・D.、ラガヴァン、プラバカール、シュッツェ、ヒンリッヒ (2008).情報検索入門. ケンブリッジ大学出版局.
^ 「PASCAL Visual Object Classes Challenge 2012 (VOC2012) 開発キット」 . host.robots.ox.ac.uk . 2019年3月23日閲覧。
^ KH Brodersen, CS Ong, KE Stephan, JM Buhmann (2010).適合率・再現率曲線における二正規分布仮定 Archived December 8, 2012, at the Wayback Machine . Proceedings of the 20th International Conference on Pattern Recognition , 4263-4266.
^ Boyd, K., Davis, J., Page, D., & Costa, VS (2012). 適合率・再現率空間における達成不可能領域と実証的評価への影響. 国際機械学習会議議事録. 国際機械学習会議, 2012, 349.
^ Kalervo, J~irvelin (2017). 「関連性の高い文書を検索するためのIR評価手法」(PDF) . ACM SIGIRフォーラム. 51, 2 : 243–250 .
^ ^a ^b ^c Christopher D. Manning、Prabhakar Raghavan、Hinrich Schütze (2009). 「第8章情報検索における評価」(PDF) . 2015年6月14日閲覧。情報検索入門 の一部[2]
^ ^a ^b ^c ^d ^e http://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf
^ C. Lioma; JG Simonsen; B. Larsen (2017). 「ランク付けリストにおける関連性と信頼性の評価尺度」(PDF) . 2018年3月13日時点のオリジナル(PDF)からアーカイブ。 2018年3月12日閲覧。ACM SIGIR 国際情報検索理論会議議事録、91-98。

[1] Carterette, Ben; Voorhees, Ellen M. (2011), Lupu, Mihai; Mayer, Katja; Tait, John; Trippe, Anthony J. (編)、「情報検索評価の概要」、特許情報検索における現在の課題、ベルリン、ハイデルベルク：Springer、pp. 69– 85、doi：10.1007/978-3-642-19231-9_3、ISBN 978-3-642-19231-9、 2022年12月9日取得{{citation}}: CS1 maint: work parameter with ISBN (link)

[2] Clough, P.; Sanderson, M. (2013-06-15). 「テストコレクションを用いた情報検索システムのパフォーマンス評価」 Information Research . 2022年12月9日閲覧。

[karlgren2019-3] Karlgren, Jussi (2019). 「運用環境における体系的な評価ベンチマークの採用」(PDF) .変化する世界における情報検索. 2022年6月27日閲覧.

[:0-4] Harman, Donna (2011).情報検索評価. 情報概念、検索、およびサービスに関する統合講義. シャム、スイス: Springer. doi : 10.1007/978-3-031-02276-0 . ISBN 978-3-031-02276-0. S2CID 207318946 .

[5] Sanderson, Mark (2010). 「テストコレクションに基づく情報検索システムの評価」 .情報検索の基礎と動向. 4 (4): 247– 375. doi : 10.1561/1500000009 . ISSN 1554-0669 .

[AMA-6] アメリカマーケティング協会辞典. [1] 2012年11月2日閲覧。マーケティング説明責任基準委員会（MASB）は、進行中のマーケティング共通言語プロジェクトの一環として、この定義を承認しています2019年4月5日アーカイブ、 Wayback Machine。

[zhu2004-7] Zhu, Mu (2004). 「再現率、適合率、平均適合率」(PDF) . 2011年5月4日時点のオリジナル(PDF)からアーカイブ。{{cite journal}}:ジャーナルを引用するには|journal=（ヘルプ）が必要です

[Turpin2006-8] Turpin, Andrew; Scholer, Falk (2006). 「単純な検索タスクにおけるユーザーパフォーマンスと精度指標」 .第29回国際ACM SIGIR会議論文集, 情報検索における研究開発. ニューヨーク: ACM. pp. 11–18 . CiteSeerX 10.1.1.533.4100 . doi : 10.1145/1148170.1148176 . ISBN 978-1-59593-369-0. S2CID 9810253 .

[voc2010-9] Everingham, Mark; Van Gool, Luc; Williams, Christopher KI; Winn, John; Zisserman, Andrew (2010年6月). 「PASCAL Visual Object Classes (VOC) Challenge」(PDF) . International Journal of Computer Vision . 88 (2): 303– 338. doi : 10.1007/s11263-009-0275-4 . hdl : 20.500.11820/88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID 4246903. 2011年11月20日時点のオリジナル(PDF)からのアーカイブ。 2011年8月29日閲覧。

[nlpbook-10] マニング、クリストファー・D.、ラガヴァン、プラバカール、シュッツェ、ヒンリッヒ (2008).情報検索入門. ケンブリッジ大学出版局.

[11] 「PASCAL Visual Object Classes Challenge 2012 (VOC2012) 開発キット」 . host.robots.ox.ac.uk . 2019年3月23日閲覧。

[12] KH Brodersen, CS Ong, KE Stephan, JM Buhmann (2010).適合率・再現率曲線における二正規分布仮定 Archived December 8, 2012, at the Wayback Machine . Proceedings of the 20th International Conference on Pattern Recognition , 4263-4266.

[13] Boyd, K., Davis, J., Page, D., & Costa, VS (2012). 適合率・再現率空間における達成不可能領域と実証的評価への影響. 国際機械学習会議議事録. 国際機械学習会議, 2012, 349.

[14] Kalervo, J~irvelin (2017). 「関連性の高い文書を検索するためのIR評価手法」(PDF) . ACM SIGIRフォーラム. 51, 2 : 243–250 .

[stanford-15] Christopher D. Manning、Prabhakar Raghavan、Hinrich Schütze (2009). 「第8章情報検索における評価」(PDF) . 2015年6月14日閲覧。情報検索入門 の一部[2]

[trec15-16] ttp://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf

[ictir17-17] C. Lioma; JG Simonsen; B. Larsen (2017). 「ランク付けリストにおける関連性と信頼性の評価尺度」(PDF) . 2018年3月13日時点のオリジナル(PDF)からアーカイブ。 2018年3月12日閲覧。ACM SIGIR 国際情報検索理論会議議事録、91-98。

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[

[

[

[

[

[

[ 13 ]

[ 14 ]

[ 15 ]

[

[ 17 ]

v t e 機械学習の評価指標
回帰	MSE 前 sMAPE マップ間瀬 MSPE RMS RMSE/RMSD R2 MDA 狂った
分類	Fスコア P4 正確さ精度想起カッパ MCC AUC 中華民国感度と特異度対数損失
クラスタリング	シルエットカリンスキー・ハラバシュ指数デイヴィス・ボールディン指数ダン指数ホプキンス統計ジャカード指数ランド指数類似度測定 SMC DBCVインデックス
ランキング	MRR NDCG AP
コンピュータービジョン	PSNR SSIM 借用書
NLP	困惑ブルーモーブ
ディープラーニング	インセプションスコア FID
レコメンデーションシステム	カバレッジリスト内類似性
類似性	コサイン類似度ユークリッド距離ピアソン相関係数
混同行列

評価尺度（情報検索）

背景

アプリケーション

オンライン対策

セッション放棄率

クリックスルー率

セッション成功率

結果率ゼロ

オフライン指標

精度

想起

フォールアウト

Fスコア/F尺度

平均精度

kでの精度

R精度

平均精度

割引累積利益

その他の対策

視覚化

関連性のない指標

時間あたりのクエリ数

参照

参考文献