SMART (System for the Mechanical Analysis and Retrieval of Text)情報検索システムは 、 1960年代に コーネル大学 で開発された 情報検索 システムです。 [1] ベクトル空間モデル 、 関連性フィードバック 、 ロッキオ分類 など、情報検索における多くの重要な概念は、SMARTシステムの研究の一環として開発されました 。
SMARTの開発グループは ジェラルド・サルトンが率い 、マイク・レスク も貢献しました。
SMARTシステムは、さまざまな主題から抽出されたコーパス、クエリ、参照ランキングのセットも提供します。
SMARTシステムの遺産として、いわゆるSMARTトリプル表記法が挙げられます。これは、 ベクトル空間モデルにおける tf-idfの ddd.qqq重み付けバリアントを表すためのニーモニックスキームです。重みの組み合わせを表すニーモニックは という形式を取ります。最初の3文字はコレクションドキュメントベクトルの用語重み付けを表し、次の3文字はクエリドキュメントベクトルの用語重み付けを表します。例えば、 は コレクションドキュメントに適用される重み付けを表し、 は クエリドキュメントに適用される重み付けを ltc.lnn表します。 ltclnn
以下の表はSMART表記法を規定するものである: [2]
記号と表記 D 私 = { わ 私 1 、 わ 私 2 、 … 、 わ 私 t } {\textstyle D_{i}=\{w_{i_{1}},w_{i_{2}},\ldots ,w_{i_{t}}\}} は文書ベクトルを表します。ここで、は文書 内の 用語の重み 、は文書 内の一意の用語の数です 。正の特徴は文書内に存在する用語を特徴付け、重み0は文書に存在しない用語に使用されます。 わ 私 け {\textstyle w_{i_{k}}} T け {\textstyle T_{k}} D 私 {\textstyle D_{i}} t {\displaystyle t} D 私 {\textstyle D_{i}} f 私 け {\textstyle f_{i_{k}}} 文書内の 用語の出現頻度 T け {\textstyle T_{k}} D 私 {\textstyle D_{i}} あなた 私 {\textstyle u_{i}} 文書内の一意の用語の数 D 私 {\textstyle D_{i}} 北 {\displaystyle N} 徴収文書の数 平均 ( あなた ) {\displaystyle \operatorname {avg} (u)} 文書内の一意の用語の平均数 n け {\textstyle n_{k}} 用語が存在する 文書の数 T け {\textstyle T_{k}} b t {\displaystyle b_{t}} 文書内の文字数 D 私 {\displaystyle D_{i}} 最大 ( f 私 け ) {\displaystyle \max(f_{i_{k}})} 文書内で最もよく使われる用語の出現頻度 D 私 {\displaystyle D_{i}} 平均 ( b ) {\textstyle \operatorname {平均} (b)} 文書内の平均文字数 平均 ( f 私 け ) {\displaystyle \operatorname {avg} (f_{i_{k}})} 文書内の用語の平均出現頻度 D 私 {\displaystyle D_{i}} G {\textstyle G} グローバルコレクション統計 s {\displaystyle s} ピボット文書長正規化の文脈における傾き [3]
スマートな用語重み付け三重表記 用語頻度 tf ( f 私 け ) {\textstyle {\text{tf}}(f_{i_{k}})} 文書頻度 DF ( 北 、 n け ) {\textstyle {\text{df}}(N,n_{k})} 文書の長さの正規化 グラム ( G 、 D 私 ) {\textstyle g(G,D_{i})} b 1 {\textstyle 1} バイナリ重み xn 1 {\textstyle 1} 収集頻度を無視する xn 1 {\textstyle 1} 文書の長さの正規化なし tn f 私 け {\textstyle f_{i_{k}}} 生の用語頻度 f ログ 2 ( 北 n け ) {\displaystyle \log _{2}\left({\frac {N}{n_{k}}}\right)} 逆収集頻度 c ∑ け = 1 t わ 私 け 2 {\displaystyle {\sqrt {\sum _{k=1}^{t}w_{i_{k}}^{2}}}} コサイン正規化 a 0.5 + 0.5 f 私 け 最大 ( f 私 け ) {\textstyle 0.5+0.5{\frac {f_{i_{k}}}{\max(f_{i_{k}})}}} 正規化された語句頻度の拡張 t ログ 2 ( 北 + 1 n け ) {\displaystyle \log _{2}\left({\frac {N+1}{n_{k}}}\right)} 逆収集頻度 u 1 − s + s あなた 私 平均 ( あなた ) {\displaystyle 1-s+s{\frac {u_{i}}{\operatorname {avg} (u)}}} ピボットユニーク正規化 [3] l 1 + ログ 2 f 私 け {\displaystyle 1+\log _{2}f_{i_{k}}} 対数 p ログ 2 ( 北 − n け n け ) {\displaystyle \log _{2}\left({\frac {N-n_{k}}{n_{k}}}\right)} 確率的逆収集頻度 b 1 − s + s b 私 平均 ( b ) {\displaystyle 1-s+s{\frac {b_{i}}{\operatorname {avg} (b)}}} ピボット文字長正規化 [3] L 1 + ログ 2 ( f 私 け ) 1 + ログ 2 ( 平均 ( f 私 け ) ) {\displaystyle {\frac {1+\log _{2}(f_{i_{k}})}{1+\log _{2}(\operatorname {avg} (f_{i_{k}}))}}} 平均項頻度に基づく正規化 [3] d 1 + ログ 2 ( 1 + ログ 2 ( f 私 け ) ) {\displaystyle 1+\log_{2}(1+\log_{2}(f_{i_{k}}))} 二重対数
1列目、5列目、9列目の灰色の文字は、サルトンとバックリーが1988年の論文で使用した方式です。 [4] 2列目、6列目、10列目の太字は、その後報告された実験で使用された方式です。
参考文献 ^ Salton, G, Lesk, ME (1965年6月). 「SMART自動文書検索システム—図解」 Communications of the ACM . 8 (6): 391– 398. doi : 10.1145/364955.364990 . {{cite journal }}: CS1 maint: 複数の名前: 著者リスト ( リンク ) ^ Palchowdhury, Sauparna (2016). 「tf-idfの起源について」. sauparna.sdf.org . 2019年7月29日 閲覧。 ^ abcd Singhal, A., Buckley, C., & Mitra, M. (1996). ピボット文書長正規化. SIGIRフォーラム, 51 , 176-184. ^ Salton, G., Buckley, C. (1988). 自動テキスト検索における用語重み付けアプローチ. Inf. Process. Manage., 24 , 513-523.
外部リンク ソフトウェアおよびテストコレクション [ リンク切れ ] (コーネル大学 の FTP ) インタラクティブなSMARTチュートリアル