SMART情報検索システム

SMART (System for the Mechanical Analysis and Retrieval of Text)情報検索システムは、 1960年代にコーネル大学で開発された情報検索システムです。 [1]ベクトル空間モデル関連性フィードバックロッキオ分類など、情報検索における多くの重要な概念は、SMARTシステムの研究の一環として開発されました

SMARTの開発グループはジェラルド・サルトンが率い、マイク・レスクも貢献しました。

SMARTシステムは、さまざまな主題から抽出されたコーパス、クエリ、参照ランキングのセットも提供します。

SMARTシステムの遺産として、いわゆるSMARTトリプル表記法が挙げられます。これは、ベクトル空間モデルにおけるtf-idfのddd.qqq重み付けバリアントを表すためのニーモニックスキームです。重みの組み合わせを表すニーモニックは という形式を取ります。最初の3文字はコレクションドキュメントベクトルの用語重み付けを表し、次の3文字はクエリドキュメントベクトルの用語重み付けを表します。例えば、 はコレクションドキュメントに適用される重み付けを表し、 はクエリドキュメントに適用される重み付けをltc.lnn表します。ltclnn

以下の表はSMART表記法を規定するものである: [2]

記号と表記
は文書ベクトルを表します。ここで、は文書内の用語の重み、は文書内の一意の用語の数です。正の特徴は文書内に存在する用語を特徴付け、重み0は文書に存在しない用語に使用されます。
文書内の用語の出現頻度文書内の一意の用語の数
徴収文書の数文書内の一意の用語の平均数
用語が存在する文書の数文書内の文字数
文書内で最もよく使われる用語の出現頻度文書内の平均文字数
文書内の用語の平均出現頻度グローバルコレクション統計
ピボット文書長正規化の文脈における傾き[3]
スマートな用語重み付け三重表記
用語頻度文書頻度文書の長さの正規化
bバイナリ重みxn収集頻度を無視するxn文書の長さの正規化なし
tn生の用語頻度f逆収集頻度cコサイン正規化
a正規化された語句頻度の拡張t逆収集頻度uピボットユニーク正規化[3]
l対数p確率的逆収集頻度bピボット文字長正規化[3]
L平均項頻度に基づく正規化[3]
d二重対数

1列目、5列目、9列目の灰色の文字は、サルトンとバックリーが1988年の論文で使用した方式です。[4] 2列目、6列目、10列目の太字は、その後報告された実験で使用された方式です。

参考文献

  1. ^ Salton, G, Lesk, ME (1965年6月). 「SMART自動文書検索システム—図解」Communications of the ACM . 8 (6): 391– 398. doi : 10.1145/364955.364990 .{{cite journal}}: CS1 maint: 複数の名前: 著者リスト (リンク)
  2. ^ Palchowdhury, Sauparna (2016). 「tf-idfの起源について」. sauparna.sdf.org . 2019年7月29日閲覧。
  3. ^ abcd Singhal, A., Buckley, C., & Mitra, M. (1996). ピボット文書長正規化. SIGIRフォーラム, 51 , 176-184.
  4. ^ Salton, G., Buckley, C. (1988). 自動テキスト検索における用語重み付けアプローチ. Inf. Process. Manage., 24 , 513-523.


Retrieved from "https://en.wikipedia.org/w/index.php?title=SMART_Information_Retrieval_System&oldid=1292502268"