SMART情報検索システム

SMART （System for the Mechanical Analysis and Retrieval of Text）情報検索システムは、 1960年代にコーネル大学で開発された情報検索システムです。 ^[1]ベクトル空間モデル、関連性フィードバック、ロッキオ分類など、情報検索における多くの重要な概念は、SMARTシステムの研究の一環として開発されました。

SMARTの開発グループはジェラルド・サルトンが率い、マイク・レスクも貢献しました。

SMARTシステムは、さまざまな主題から抽出されたコーパス、クエリ、参照ランキングのセットも提供します。

ADI : 情報科学レビューからの出版物
コンピュータサイエンス
クランフィールドコレクション：航空レビュー誌の出版物
法医学：図書館学
MEDLARSコレクション：医学レビューからの出版物
タイム誌コレクション： 1963年の総合評論誌『タイム』のアーカイブ

SMARTシステムの遺産として、いわゆるSMARTトリプル表記法が挙げられます。これは、ベクトル空間モデルにおけるtf-idfのddd.qqq重み付けバリアントを表すためのニーモニックスキームです。重みの組み合わせを表すニーモニックはという形式を取ります。最初の3文字はコレクションドキュメントベクトルの用語重み付けを表し、次の3文字はクエリドキュメントベクトルの用語重み付けを表します。例えば、はコレクションドキュメントに適用される重み付けを表し、はクエリドキュメントに適用される重み付けをltc.lnn表します。ltclnn

以下の表はSMART表記法を規定するものである: ^[2]

記号と表記
${\textstyle D_{i}=\{w_{i_{1}},w_{i_{2}},\ldots ,w_{i_{t}}\}}$ は文書ベクトルを表します。ここで、は文書内の用語の重み、は文書内の一意の用語の数です。正の特徴は文書内に存在する用語を特徴付け、重み0は文書に存在しない用語に使用されます。 ${\textstyle w_{i_{k}}}$ ${\textstyle T_{k}}$ ${\textstyle D_{i}}$ $t$ ${\textstyle D_{i}}$
${\textstyle f_{i_{k}}}$	文書内の用語の出現頻度 ${\textstyle T_{k}}$ ${\textstyle D_{i}}$	${\textstyle u_{i}}$	文書内の一意の用語の数 ${\textstyle D_{i}}$
$N$	徴収文書の数	$\operatorname {avg} (u)$	文書内の一意の用語の平均数
${\textstyle n_{k}}$	用語が存在する文書の数 ${\textstyle T_{k}}$	$b_{t}$	文書内の文字数 $D_{i}$
$\max(f_{i_{k}})$	文書内で最もよく使われる用語の出現頻度 $D_{i}$	${\textstyle \operatorname {平均} (b)}$	文書内の平均文字数
$\operatorname {avg} (f_{i_{k}})$	文書内の用語の平均出現頻度 $D_{i}$	${\textstyle G}$	グローバルコレクション統計
$s$	ピボット文書長正規化の文脈における傾き^[3]

スマートな用語重み付け三重表記
用語頻度 ${\textstyle {\text{tf}}(f_{i_{k}})}$				文書頻度 ${\textstyle {\text{df}}(N,n_{k})}$				文書の長さの正規化 ${\textstyle g(G,D_{i})}$
	`b`	${\textstyle 1}$	バイナリ重み	`x`	`n`	${\textstyle 1}$	収集頻度を無視する	`x`	`n`	${\textstyle 1}$	文書の長さの正規化なし
`t`	`n`	${\textstyle f_{i_{k}}}$	生の用語頻度	`f`		$\log _{2}\left({\frac {N}{n_{k}}}\right)$	逆収集頻度		`c`	${\sqrt {\sum _{k=1}^{t}w_{i_{k}}^{2}}}$	コサイン正規化
	`a`	${\textstyle 0.5+0.5{\frac {f_{i_{k}}}{\max(f_{i_{k}})}}}$	正規化された語句頻度の拡張		`t`	$\log _{2}\left({\frac {N+1}{n_{k}}}\right)$	逆収集頻度		`u`	$1-s+s{\frac {u_{i}}{\operatorname {avg} (u)}}$	ピボットユニーク正規化^[3]
	`l`	$1+\log _{2}f_{i_{k}}$	対数	`p`		$\log _{2}\left({\frac {N-n_{k}}{n_{k}}}\right)$	確率的逆収集頻度		`b`	$1-s+s{\frac {b_{i}}{\operatorname {avg} (b)}}$	ピボット文字長正規化^[3]
	`L`	${\frac {1+\log _{2}(f_{i_{k}})}{1+\log _{2}(\operatorname {avg} (f_{i_{k}}))}}$	平均項頻度に基づく正規化^[3]
	`d`	$1+\log_{2}(1+\log_{2}(f_{i_{k}}))$	二重対数

1列目、5列目、9列目の灰色の文字は、サルトンとバックリーが1988年の論文で使用した方式です。^[4] 2列目、6列目、10列目の太字は、その後報告された実験で使用された方式です。

参考文献

^ Salton, G, Lesk, ME (1965年6月). 「SMART自動文書検索システム—図解」Communications of the ACM . 8 (6): 391– 398. doi : 10.1145/364955.364990 .{{cite journal}}: CS1 maint: 複数の名前: 著者リスト (リンク)
^ Palchowdhury, Sauparna (2016). 「tf-idfの起源について」. sauparna.sdf.org . 2019年7月29日閲覧。
^ abcd Singhal, A., Buckley, C., & Mitra, M. (1996). ピボット文書長正規化. SIGIRフォーラム, 51 , 176-184.
^ Salton, G., Buckley, C. (1988). 自動テキスト検索における用語重み付けアプローチ. Inf. Process. Manage., 24 , 513-523.

外部リンク

ソフトウェアおよびテストコレクション^{[リンク切れ]} (コーネル大学の FTP )
インタラクティブなSMARTチュートリアル

このソフトウェアエンジニアリング関連の記事はスタブです。記事を拡張することでWikipediaに貢献できます。

[1] Salton, G, Lesk, ME (1965年6月). 「SMART自動文書検索システム—図解」Communications of the ACM . 8 (6): 391– 398. doi : 10.1145/364955.364990 .{{cite journal}}: CS1 maint: 複数の名前: 著者リスト (リンク)

[2] Palchowdhury, Sauparna (2016). 「tf-idfの起源について」. sauparna.sdf.org . 2019年7月29日閲覧。

[:0-3] Singhal, A., Buckley, C., & Mitra, M. (1996). ピボット文書長正規化. SIGIRフォーラム, 51 , 176-184.

[4] Salton, G., Buckley, C. (1988). 自動テキスト検索における用語重み付けアプローチ. Inf. Process. Manage., 24 , 513-523.