機械学習研究用データセット一覧

これらのデータセットは機械学習(ML)研究で使用されており、査読付き 学術雑誌で引用されています。データセットは機械学習分野に不可欠な要素です。この分野における大きな進歩は、学習アルゴリズム(ディープラーニングなど)、コンピュータハードウェアの進歩、そして直感的ではありませんが、高品質のトレーニングデータセットの利用可能性によってもたらされる可能性があります。[1]教師あり学習および半教師あり学習アルゴリズム用の高品質のラベル付きトレーニングデータセットは、データのラベル付けに膨大な時間を要するため、通常、作成が困難で費用もかかります。ラベル付けは不要ですが、教師なし学習用の高品質のラベルなしデータセットも作成が困難で費用もかかる場合があります。[2] [3] [4]

政府を含む多くの組織がデータセットを公開・共有しており、多くの場合、共通のメタデータ形式( Croissantなど)が使用されています。[5]データセットは、ライセンスに基づいて、オープンデータ非オープンデータの2つのグループに分類されます。

様々な政府機関のデータセットは、オープンガバメントデータサイトのリストに掲載されています。データセットはオープンデータポータルに移植されており、 Open APIなどのインターフェースを介して検索、保管、アクセスが可能です[要出典]データセットは、様々なタイプとサブタイプに分類されて提供されています。[要出典]

データセットに使用される並べ替えのリスト

タイプサブタイプ
特定のカテゴリ金融経済商業社会健康学術スポーツ食品農業旅行地理空間政治消費者運輸物流環境不動産法律エンターテイメントエネルギーホスピタリティ
範囲国家連合国家地方自治体都市農村
言語中国語(北京語)スペイン語英語アラビア語ヒンディー語ベンガル語
タイプ表形式グラフテキスト画像音声ビデオ
使用法トレーニング、検証、テスト
ファイル形式CSVJSONXMLKMLGeoJSONシェープファイルGML
ライセンスCreative CommonsGPL、その他の非オープンデータライセンス
最終更新日過去1時間、過去1日、過去1週間、過去1ヶ月、過去1年
ファイルサイズ最小値、最大値、範囲
状態検証済み、準備中、非アクティブ化(または廃止)
レコード数百、数千、万、数十万、数百万
変数の数10未満、10、100、1000、10000
サービス個人、集合

データポータルはライセンスの種類に基づいて分類されます。オープンソースライセンスベースのデータポータルはオープンデータポータルと呼ばれ、多くの政府機関学術機関で利用されています

オープンデータポータルの一覧

ポータル名ライセンスポータルのインストールリスト典型的な使用法
包括的知識アーカイブネットワーク(CKANAGPLhttps://ckan.github.io/ckan-instances/

https://github.com/sebneu/ckan_instances/blob/master/instances.csv

政府機関や非営利団体向けのデータリポジトリ、研究機関向けのデータ管理ソリューション
DKANGPLhttps://getdkan.org/community政府機関や非営利団体向けのデータリポジトリ、研究機関向けのデータ管理ソリューション
データバースアパッチhttps://dataverse.org/installations

https://dataverse.org/metrics

研究機関向けデータ管理ソリューション
DスペースBSDhttps://registry.lyrasis.org/研究機関向けデータ管理ソリューション
オープンMLBSDhttps://www.openml.org/search?type=data&sort=runs&status=activeAPI を介してデータセット、アルゴリズム、実験結果を共有するデータ管理ソリューション。

複数の種類のアプリケーションに適したポータルのリスト

データ ポータルには、さまざまな機械学習アプリケーションに関連するデータセットのさまざまなサブタイプがリストされることがあります

学術トレントhttps://academictorrents.com
Amazonデータセットhttps://registry.opendata.aws/
素晴らしい公開データセットコレクションhttps://github.com/awesomedata/awesome-public-datasets
データワールドhttps://data.world/datasets/機械学習
データハブ – コアデータセットhttps://datahub.io/docs/core-data
データワンhttps://www.dataone.org/
データポータルhttps://dataportals.org/
データセットリストhttps://www.datasetlist.com
グローバルオープンデータインデックス –オープンナレッジ財団https://okfn.org/ 2020年5月25日アーカイブ(Wayback Machine)
Googleデータセット検索https://datasetsearch.research.google.com/
抱きしめる顔https://huggingface.co/docs/datasets/
IBMのデータ資産交換https://developer.ibm.com/exchanges/data/
Jupyter – チュートリアルデータhttps://jupyter-tutorial.readthedocs.io/en/latest/data-processing/opendata.html
カグルhttps://www.kaggle.com/datasets
機械学習データセットhttps://macgence.com/データセットとカタログ/
オープンデータを導入した主要スマートシティhttps://rlist.io/l/オープンデータポータルを備えた主要なスマートシティ
Microsoft データセットhttps://msropendata.com/datasets
オープンデータインセプションhttps://opendatainception.io/
オープンデータソフトhttps://data.opendatasoft.com/explore/dataset/open-data-sources%40public/table/?sort=code_en
オープンドアhttps://v2.sherpa.ac.uk/opendoar/
オープンMLhttps://www.openml.org/search?type=data
コード付き論文https://paperswithcode.com/datasets
ペンシルバニア大学の機械学習ベンチマークhttps://github.com/EpistasisLab/pmlb/tree/master/datasets
パブリックAPIhttps://github.com/public-apis/public-apis
オープンアクセスリポジトリのレジストリhttp://roar.eprints.org/ 
研究データリポジトリのレジストリhttps://www.re3data.org/ 
UCI 機械学習リポジトリhttps://archive.ics.uci.edu/
音声データセットhttps://www.shaip.com/offerings/speech-data-catalog/
ビジュアルデータディスカバリーhttps://visualdata.io/discovery

特定のサブタイプのアプリケーションに適したポータルのリスト

機械学習アプリケーションの特定のサブタイプに適したデータ ポータルについて は、後続のセクションにリストされています。

画像データ

テキストデータ

これらのデータセットは、主に自然言語処理感情分析、翻訳、クラスター分析などのタスク用のテキストで構成されています

レビュー

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
Netflix賞Netflix の映画評価。480,189人のユーザーが17,770本の映画に付けた100,480,507件の評価テキスト、評価評価予測2006[6]ネットフリックス
AmazonのレビューAmazon.comからの米国製品レビューなし。2億3310万文章分類、感情分析2015年(2018年)[7] [8]McAuleyら
OpinRankレビューデータセット車とホテルのレビューはそれぞれEdmunds.comTripAdvisorから取得しています。なし。それぞれ42,230 / 約259,000文章感情分析、クラスタリング2011[9] [10]K. Ganesan 他
ムービーレンズ240,000 人のユーザーによって 33,000 本の映画に 22,000,000 件の評価と 580,000 件のタグが付けられました。なし。約2200万文章回帰、クラスタリング、分類2016[11]GroupLensリサーチ
Yahoo!ミュージック ユーザーによる音楽アーティストの評価Yahoo ユーザーによるアーティストの評価は 1,000 万件以上。記載なし。約1000万文章クラスタリング、回帰2004[12] [13]ヤフー!
車両評価データセット車の特性とその全体的な許容度。6 つのカテゴリ特性が与えられます。1728文章分類1997[14] [15]M. ボハネック
YouTube コメディ スラム嗜好データセットYouTube で表示される動画のペアに対するユーザー投票データ。ユーザーはより面白い動画に投票しました。ビデオのメタデータが指定されました。1,138,562文章分類2012[16] [17]グーグル
Skytrax ユーザーレビュー データセットSkytrax による航空会社、空港、座席、ラウンジのユーザー レビュー。評価はきめ細かく、空港での体験のさまざまな側面を網羅しています。41396文章分類、回帰2015[18]Q. グエン
ティーチングアシスタント評価データセットティーチングアシスタントのレビュー。クラス、クラスの規模、インストラクターなどの各インスタンスの特徴が示されます。151文章分類1997[19] [20]W. Loh 他
ベトナム人学生のフィードバック コーパス (UIT-VSFC)学生からのフィードバック。コメント16,000文章分類1997[21]Nguyenら
ベトナム語ソーシャルメディア感情コーパス(UIT-VSMEC)ユーザーの Facebook コメント。コメント6,927文章分類1997[22]Nguyenら
ベトナム語オープンドメイン苦情検出データセット(ViOCD)顧客による製品レビューコメント5,485文章分類2021[23]Nguyenら
ViHOS: ベトナム語におけるヘイトスピーチ検出ソーシャルメディアのテキストコメント11,000件のコメントに26,000のスパンが含まれています文章スパン検出2021[24]Hoangら

ニュース記事

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
NYSKデータセット元IMF理事ドミニク・ストロス=カーン氏に対する性的暴行疑惑に関する事件についての英語のニュース記事フィルタリングされ、XML 形式で表示されます。10,421XML、テキスト感情分析、トピック抽出2013[25]Dermouche、M. 他
ロイターコーパス第1巻英語のロイターニュース記事の大規模なコーパス。きめ細かな分類とトピック コード。81万文章分類、クラスタリング、要約2002[26]ロイター
ロイターコーパス第2巻複数の言語によるロイターのニュース記事の大規模なコーパス。きめ細かな分類とトピック コード。487,000文章分類、クラスタリング、要約2005[27]ロイター
トムソン・ロイター・テキスト・リサーチ・コレクションニュース記事の大規模なコーパス。詳細は記載されておりません。1,800,370文章分類、クラスタリング、要約2009[28]T. ローズら
サウジアラビアの新聞コーパスアラビア語の新聞記事 31,030 件。メタデータを抽出しました。31,030JSON要約、クラスタリング2015[29]M. アルハグリ
RE3D(関係性とエンティティ抽出評価データセット)様々なニュースや政府機関の情報源から収集した、エンティティと関係性を示すデータ。Dstl提供ヒゲクジラの種類によるフィルタリング、分類不明JSON分類、実体、関係の認識2017[30]Dstl
審査官のスパムクリックベイトカタログ2010年から2015年までのクリックベイト、スパム、クラウドソーシングによる見出し公開日と見出し3,089,781CSVクラスタリング、イベント、感情2016[31]R. クルカルニ
ABCオーストラリアニュースコーパス2003年から2019年までのABCオーストラリアのニュースコーパス全体公開日と見出し1,186,018CSVクラスタリング、イベント、感情2020[32]R. クルカルニ
世界のニュース – 2万件のフィードを集約20以上の言語で1週間分のオンラインニュースの見出しをまとめたスナップショット公開時間、URL、見出し1,398,431CSVクラスタリング、イベント、言語検出2018[33]R. クルカルニ
ロイターニュースワイヤーの見出しニュースワイヤーに掲載された11年間のタイムスタンプ付きイベント公開時間、見出しテキスト16,121,310CSVNLP、計算言語学、イベント2018[34]R. クルカルニ
アイリッシュ・タイムズアイルランド・ニュース・コーパス1996年から2019年までの24年間のアイルランドニュース公開時間、見出しカテゴリ、テキスト1,484,340CSVNLP、計算言語学、イベント2020[35]R. クルカルニ
皮肉検出のためのニュース見出しデータセット皮肉なニュースの見出しと皮肉ではないニュースの見出しを含む高品質のデータセット。クリーンで正規化されたテキスト26,709JSONNLP、分類、言語学2018[36]リシャブ・ミスラ

メッセージ

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
エンロンコーパスエンロンの従業員からのメールがフォルダに整理されています。添付ファイルが削除され、無効な電子メール アドレスが [email protected] または [email protected] に変換されました。約50万文章ネットワーク分析、感情分析2004年(2015年)[37] [38]クリムト、B. と Y. ヤン
Ling-Spamデータセット正規のメールとスパムメールの両方を含むコーパス。見出し語化ツールまたはストップリストが有効になっているかどうかを含むコーパスの 4 つのバージョン。ハム 2,412 個、スパム 481 個文章分類2000[39] [40]Androutsopoulos、J. 他
SMSスパム収集データセット収集された SMS スパム メッセージ。なし。5,574文章分類2011[41] [42]T. Almeida 他
20のニュースグループデータセット20 の異なるニュースグループからのメッセージ。なし。2万文章自然言語処理1999[43]T. ミッチェル他
スパムベースデータセットスパムメール。多くのテキスト特徴が抽出されました。4,601文章スパム検出、分類1999[44]M. ホプキンス他

Twitterとツイート

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
映画ツイート公開され構造化されたツイートに基づく映画評価データセット約71万文章分類、回帰2018[45]S.ドゥームズ
ツイッター10万画像とツイートのペア10万テキストと画像クロスメディア検索2017[46] [47]Y. Hu 他
感情140元のテキスト、タイムスタンプ、ユーザー、感情を含む 2009 年のツイート データ。ツイート内の絵文字の存在から遠隔監視を使用して分類しました。1,578,627ツイート、カンマ区切り値感情分析2009[48] [49]A. Go ら
ASU TwitterデータセットTwitterネットワークデータであり、実際のツイートではありません。多数のユーザー間のつながりを示します。なし。11,316,811 ユーザー、85,331,846 接続文章クラスタリング、グラフ分析2009[50] [51]R. ザファラニ 他
SNAPソーシャルサークル:Twitterデータベース大規模な Twitter ネットワーク データ。ノード機能、サークル、エゴネットワーク。1,768,149文章クラスタリング、グラフ分析2012[52] [53]J. McAuley 他
アラビア語感情分析のためのTwitterデータセットアラビア語のツイート。サンプルは手動で陽性または陰性のラベルが付けられます。2000文章分類2014[54] [55]N.アブドゥラ
ソーシャルメディアデータセットの話題TwitterとTom's Hardwareのデータ。このデータセットは、これらのサイトで議論されている特定の話題に焦点を当てています。データはウィンドウ化されており、ユーザーはソーシャル メディアの話題につながるイベントを予測することができます。14万文章回帰、分類2013[56] [57]F. カワラ 他
Twitterにおける言い換えと意味的類似性(PIT)このデータセットは、ツイートが(ほぼ)同じ意味/情報を持っているかどうかに焦点を当てています。手動でラベル付けされています。トークン化、品詞、固有表現のタグ付け18,762文章回帰、分類2015[58] [59]Xuら
Geoparse Twitterベンチマークデータセットこのデータセットには、様々な国で発生した様々なニュースイベント中のツイートが含まれています。場所の言及は手動でラベル付けされています。JSONメタデータに追加された場所の注釈6,386ツイート、JSON分類、情報抽出2014[60] [61]SE ミドルトンら
反応的監督による皮肉の認識と意図(SPIRS)反応的監督を用いて収集された、意図的および知覚的皮肉ツイートとその文脈。同数の否定的(皮肉ではない)サンプル3万ツイートID、CSV分類2020[62] [63]B. シュムエリら
オランダのソーシャルメディアコレクションこのデータセットには、オランダ語話者またはオランダのユーザーによるCOVID-19関連のツイートが含まれています。データは機械でラベル付けされています。感情分類、ツイート本文、ユーザー説明を英語に翻訳。業界に関する言及を抽出271,342JSONL感情、マルチラベル分類、機械翻訳2020[64] [65] [66]アークシュ・グプタ、コロナワイ
ReactionGIFデータセット3万件のツイートとそのGIFリアクションのデータセット感情、反応、感情に基づいて分類3万ツイートID、JSONL感情、反応、感情に基づいて分類2021[67] [68]B. シュムエリら

対話

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
NPSチャットコーパス年齢別のオンライン チャット ルームからの投稿。手のプライバシーはマスクされ、品詞と会話行為のタグが付けられています。約50万XMLNLP、プログラミング、言語学2007[69]フォーサイス、E.、リン、J.、マーテル、C.
TwitterトリプルコーパスTwitter から抽出された ABA トリプル。4,232文章NLP2016[70]ソルディーニ、A. 他
UseNetコーパスUseNet フォーラムの投稿。匿名化された電子メールとURL。500語未満または50万語を超える、あるいは英語が90%未満の文書は除外しました。70億文章2011[71]Shaoul、C.、および Westbury C.
NUS SMSコーパス2 人のユーザー間で収集された SMS メッセージとタイミング分析。約10,000XMLNLP2011[72]カン、M
Redditのすべてのコメントコーパスすべての Reddit コメント (2015 年時点)。約17億JSONNLP、研究2015[73]マトリックスに閉じ込められた
Ubuntu 対話コーパスIRC 上の Ubuntu チャット ストリームから抽出されたダイアログ。93万の対話、710万の発話CSV対話システム研究2015[74]Lowe, R. 他
ダイアログ状態追跡チャレンジダイアログ状態追跡チャレンジ 2 および 3 (DSTC2 および 3) は、音声対話システムの状態追跡の最先端技術の向上に重点を置いた研究チャレンジでした。ラベル付けによる音声対話の書き起こしDSTC2には約3.2千回の通話が含まれ、DSTC3には約2.3千回の通話が含まれます。JSON対話状態の追跡2014[75]ヘンダーソン、マシュー、トムソン、ブレイズ、ウィリアムズ、ジェイソンD
クリンク-150Amazon Mechanical Turkから収集された単一ターンの発話。150 の分類「意図」カテゴリと、「範囲外」の発話に関する追加データ。23,700JSON意図分類2019[76]ラーソン、S. 他
データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
フリーローFreeLaw プロジェクトの一部である Court Listener からフィルタリングされたデータ。クリーンアップされ正規化されたテキスト4,940,710JSONNLP、言語学2020[77]T. ホッペ
法律の山法的および行政的データのコーパス浄化され、標準化され、民営化された約50,000,000JSONNLP、言語学、感情2022[78] [79]L.鄭; N.グハ; B.アンダーソン。 P. ヘンダーソン; D.ホー
判例アクセスプロジェクト書籍として出版された公式の州法および連邦法の判例すべて、つまり米国内の裁判所による判決の公式報告書として指定されたすべての書籍または判例。クリーンアップされ正規化されたテキスト約10,000JSONNLP、言語学2022[80]A. Aizman、S. Chapman、J. Cushman、K. Dulin、H. Eidolon、他

その他のテキスト

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
ハンサード(フランス語-英語)カナダの議事録。2869040個の仏英文ペア、フランス語4630万語、英語3866語(IBM部分)、および6000万語(ベル部分)フランス語と英語の文のペア翻訳1995[81]IBM、ベル研究所
Web of Science データセットテキスト分類のための階層的データセットなし。46,985文章分類、

分類

2017[82] [83]K. Kowsari 他
訴訟事件報告2006 年から 2009 年までのオーストラリア連邦裁判所の事件。なし。4,000文章要約、

引用分析

2012[84] [85]F. Galgani ら
ブロガー著者コーパスblogger.com からの 19,320 人のブログエントリ。ブロガーが自ら提供した性別、年齢、業種、星座。681,288文章感情分析、要約、分類2006[86] [87]J. Schler 他
Facebookネットワークの社会構造Facebook のソーシャル構造に関する大規模なデータセット。なし。100の大学をカバー文章ネットワーク分析、クラスタリング2012[88] [89]A. Traud ら
テキストの機械理解のためのデータセットテキストの理解度をテストするためのストーリーと関連する質問。なし。660文章自然言語処理、機械理解2013[90] [91]M.リチャードソン他
ペン・ツリーバンク・プロジェクト言語構造が注釈された自然発生テキスト。テキストはセマンティックツリーに解析されます。約100万語文章自然言語処理、要約1995[92] [93]M. マーカスら
ウェブ 1T 5グラムWeb ページからのテキスト。1つのスライスはデータを文に分割します。もう1つのスライスはデータをn = 1~5のnグラムに分割します。約1000語テキストとnグラムテーブル教師なし学習2006[94] [95]グーグル
DEXTERデータセット与えられた課題は、与えられた特徴から、どの記事が企業買収に関するものであるかを判断することです。抽出された特徴には語幹が含まれます。誤導関数の特徴も含まれます。2600文章分類2008[96]ロイター
GoogleブックスのNグラム膨大な書籍コーパスからのNグラムなし。2.2 TBのテキスト文章分類、クラスタリング、回帰2011[97] [98]グーグル
ペルソナコーパス作者帰属と性格予測の実験のために収集された。145編のオランダ語エッセイから構成される。通常のテキストに加えて、構文注釈付きのテキストも提供されます。145文章分類、回帰2008[99] [100]K. Luyckx 他
プッシュシフトRedditTwitterHackernewsなどのソーシャル メディア サイトのアーカイブWARCから抽出され正規化されたテキスト約1億件の投稿JSONNLP、感情、言語学2022[101] [102]J. バウムガートナー
SEC提出書類EDGAR | 会社提出書類テキストを抽出しました。csvNLP
CNAE-9データセットブラジルの企業の自由記述テキストの分類タスク。単語の頻度が抽出されました。1080文章分類2012[103] [104]P. Ciarelli 他
感情ラベル付き文データセット感情ラベルが付けられた 3000 個の文章。各文の感情は、肯定的か否定的か手動でラベル付けされています。3000文章分類、感情分析2015[105] [106]D. コツィアス
ブログフィードバックデータセット投稿の特徴に基づいて、投稿が受け取るコメントの数を予測するデータセット。各投稿の多くの特徴を抽出しました。60,021文章回帰2014[107] [108]K. ブザ
PubMedセントラルPubMed® は、MEDLINE、生命科学ジャーナル、オンライン書籍からの 3,500 万件を超える生物医学文献の引用で構成されています。なし3500万文章NLP
米国特許商標庁米国特許商標庁文章NLP
PhilPapers哲学出版物のオープンアクセスコレクション文章NLP
書籍コーパス人気の大規模テキストコーパス。なし文章NLP2015[109]Zhu、Yukun 他
スタンフォード自然言語推論(SNLI)コーパス画像のキャプションを新しく構築された文と照合して、含意、矛盾、または中立のペアを形成します。含意クラスラベル、スタンフォードPCFGパーサーによる構文解析57万文章自然言語推論/テキスト含意の認識2015[110]S. Bowman 他
DSL コーパス コレクション (DSLCC)類似の言語および方言でのジャーナリズムのテキストの短い抜粋の多言語コレクション。なし294,000のフレーズ文章類似言語の区別2017[111]Tan、Liling 他
アーバンディクショナリーデータセット単語、投票、定義のコーパスユーザー名は匿名化されています2,580,925CSVNLP、機械理解2016年5月[112]匿名
T-RExウィキペディアの要約はウィキデータエンティティと整合していますWikidataトリプルとWikipediaアブストラクトの整合11MアラインメントトリプルJSONとNIF [4]NLP、関係抽出2018[113]H. Elsahar 他
一般言語理解評価(GLUE)9つのタスクのベンチマーク様々な約100万の文と文のペアNLU2018[114] [115] [116]王ら
契約理解 Atticus データセット (CUAD) (旧称 Atticus Open Contract Dataset (AOK))専門家による豊富な注釈が付いた法的契約のデータセット約13,000個のラベルCSVとPDF自然言語処理、QnA2021アティカス・プロジェクト
ベトナム語画像キャプション データセット (UIT-ViIC)ベトナム語画像キャプションデータセット3,850枚の画像に19,250個のキャプションCSVとPDF自然言語処理、コンピュータービジョン2020[117]ラムら
性別を付したベトナム語名(UIT-ViNames)性別を付したベトナム語の名前性別が記されたベトナム語のフルネーム26,850件CSV自然言語処理2020[118]To et al.
ベトナム語の建設的および有害な発言検出データセット(UIT-ViCTSD)ベトナム語の建設的および有害な発言検出データセット10ドメインのオンライン新聞におけるベトナム人ユーザー1万人のコメントCSV自然言語処理2021[119]Nguyenら
PG-19プロジェクト・グーテンベルクの書籍ライブラリから抽出された書籍セット文章自然言語処理2019Jack W 他
ディープマインド数学数学の質問と回答のペア。文章自然言語処理2018[120]D Saxton ら
アンナのアーカイブ出版された書籍や論文の包括的なアーカイブなし1億356641テキスト、epub、PDF自然言語処理2024

音声データ

これらのデータセットは、音声認識音声合成などのタスクに使用される音と音の特徴で構成されています

スピーチ

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
配電盤-1電話での会話。テキサス インスツルメンツ社が 1990 年から 1991 年にかけて収集した、米国全土の 543 人の話者 (男性 302 人、女性 241 人) による約 2,400 回の双方向電話会話、260 時間の音声。音声、テキストトランスクリプト、単語レベルのタイムスタンプ、音声トランスクリプト音声認識、音声転写。1992年(2000年)[121] [122]NIST
ハブ5'00電話での会話。全米各地から集まった543名(男性302名、女性241名)の260時間分の音声を収録。約2,400件の双方向電話会話を収録。収録語数は約300万語。テキサス・インスツルメンツ社が1990年から1991年にかけて収集。音声、テキストトランスクリプト、単語レベルのタイムスタンプ、音声トランスクリプト音声認識、音声転写。このデータセットで最もよく使われるテストセットは「Hub5'00」です。1992年(2000年)[121] [122]NIST
ゼロリソーススピーチチャレンジ2015自発的なスピーチ(英語)、スピーチ(ツォンガ語)を読む。なし、生の WAV ファイル。英語:5時間、話者12名;ツォンガ語:2時間30分、話者24名WAV(音声のみ)音声特徴/サブワード単位/単語単位の教師なし発見2015[123] [124]Versteeghら
パーキンソン病音声データセットパーキンソン病患者と非患者の複数の記録。音声の特徴を抽出し、医師が統一パーキンソン病評価尺度を使用して病気のスコアをつけた。1,040文章分類、回帰2013[125] [126]BE Sakar ら
アラビア語の数字の音声男性 44 名と女性 44 名によるアラビア数字の音声。メル周波数ケプストラム係数の時系列8,800文章分類2010[127] [128]M. Bedda ら
ISOLETデータセット文字の名前を音声で表します。音から抽出された特徴。7797文章分類1994[129] [130]R. コールら
日本語母音データセット9人の男性話者が2つの日本語の母音を連続して発声した。これに 12 度の線形予測分析を適用して、12 個のケプストラム係数を持つ離散時系列を取得します。640文章分類1999[131] [132]工藤 正之 他
パーキンソン病の遠隔モニタリング データセットパーキンソン病患者と非患者の複数の記録。抽出されたサウンドの特徴。5875文章分類2009[133] [134]A. Tsanas ら
ティミットアメリカ英語の 8 つの主要方言の 630 人の話者が、それぞれ音声的に豊かな 10 個の文章を読み上げた録音です。音声は語彙的および音韻的に書き起こされます。6300文章音声認識、分類。1986[135] [136]J. Garofolo 他
アラビア語音声コーパス音素レベルに合わせた音声および綴り書き起こしを備えた、単一話者の現代標準アラビア語(MSA) 音声コーパス。スピーチは、ストレスマークを使用して綴字法と音声法で転記されます。1900年頃テキスト、WAV音声合成、音声認識、コーパスアライメント、言語療法、教育。2016[137]N. ハラビ
共通の声幅広い方言にわたるクラウドソーシングデータパブリック ドメイン データベース。他のユーザーによる検証。英語: 1,118時間対応するテキストファイルを含むMP3音声認識2017年6月(2019年12月)[138]モジラ
LJSpeech句読点ごとに短いクリップに分割された、 英語のパブリック ドメインオーディオブック録音の単一話者コーパス。品質チェック、正規化された転写をオリジナルと並べて表示します。13,100CSV、WAV音声合成2017[139]キース・イトウ、リンダ・ジョンソン
アラビア語音声コマンドデータセット30 人の寄稿者から収集され、40 個のキーワードにグループ化されています。生のWAVファイル1万2000WAV、CSV音声認識、キーワードスポッティング2021[140]アブドゥルカデル・ガンドゥーラ

音楽

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
音楽データセットの地理的起源さまざまな場所からの音楽サンプルのオーディオ機能。MARSYAS ソフトウェアを使用して抽出されたオーディオ機能。1,059文章地理的分類、クラスタリング2014[141] [142]F. Zhou ら
100万曲のデータセット100 万曲以上のオーディオ機能。抽出されたオーディオ機能。100万文章分類、クラスタリング2011[143] [144]T. Bertin-Mahieux 他
MUSDB18マルチトラックのポピュラー音楽録音生のオーディオ150MP4、WAVソース分離2017[145]Z. Rafii ら
無料音楽アーカイブ10 万曲 (343 日、1TiB) のCreative Commonsオーディオ。161のジャンルの階層、メタデータ、ユーザー データ、自由形式のテキストが含まれます。生のオーディオとオーディオ機能。106,574テキスト、MP3分類、推奨2017[146]M. Defferrard 他
バッハ合唱ハーモニーデータセットバッハのコラールコード。抽出されたオーディオ機能。5665文章分類2014[147] [148]D. ラディシオーニら

その他の音

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
アーバンサウンドエアコン、車のクラクション、子供の遊び音などのラベル付き音声録音。イベントのクラス別にフォルダーに分類され、JSON ファイル内のメタデータと CSV ファイル内の注釈も分類されます。1,059

WAV

分類2014[149] [150]J. サラモン 他
オーディオセットYouTube 動画からの 10 秒間のサウンド スニペットと、500 を超えるラベルのオントロジー。1 秒ごとに 128 次元の PCA を適用した VGG 風の特徴。2,084,320テキスト(CSV)およびTensorFlow Recordファイル分類2017[151]J. Gemmeke 他、Google
鳥の音声検出チャレンジ環境モニタリングステーションからの音声とクラウドソーシングによる録音17,000以上分類2016年(2018年)[152] [153]クイーン・メアリー大学IEEE信号処理学会
WSJ0 ヒップスター・アンビエント・ミクスチャーWSJ0の音声にサンフランシスコ湾岸地域で録音されたノイズが混ざったものWSJ0クリップに一致するノイズクリップ2万8000サウンド(WAV音源分離2019[154]Wichern, G., et al., Whisper and MERL
クロト長さ 15 ~ 30 秒の音声サンプル 4,981 件。各音声サンプルには 8 ~ 20 語の 5 つの異なるキャプションが含まれています。24,905サウンド(WAV)とテキスト(CSV自動音声字幕2020[155] [156]K. ドロッソス、S. リッピング、T. ヴィルタネン

信号データ

さらなる分析のために何らかの信号処理を必要とする電気信号情報を含むデータセット。

電気

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
ウィッティワームデータセットWitty ワームの拡散と感染したコンピュータの詳細を示すデータセット。公開セットと、IP および UDP ヘッダーなどのより機密性の高い情報を含む制限付きセットに分割します。55,909個のIPアドレス文章分類2004[157] [158]応用インターネットデータ分析センター
カフレス血圧推定データセット血圧を推定するために使用できる、人間の患者からのクリーンなバイタル信号。125 Hz のバイタルサインがクリーンになりました。1万2000文章分類、回帰2015[159] [160]M. Kachuee 他
ガスセンサーアレイドリフトデータセットドリフト補正のシミュレーションで使用される 16 個の化学センサーからの測定値。豊富な機能が提供されます。13,910文章分類2012[161] [162]A. ベルガラ
サーボデータセットサーボアンプ回路で観察される非線形関係をカバーするデータ。さまざまなコンポーネントのレベルが他のコンポーネントの関数として示されます。167文章回帰1993[163] [164]K. ウルリッヒ
UJIIndoorLoc-Magデータセット屋内測位システムをテストするための屋内位置データベース。データは磁場に基づいています。トレーニングとテストの分割が指定されました。4万文章分類、回帰、クラスタリング2015[165] [166]D. ランブラ他
センサレスドライブ診断データセット部品に欠陥のあるモーターからの電気信号。抽出された統計的特徴。58,508文章分類2015[167] [168]M. バトール

モーショントラッキング

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
ウェアラブルコンピューティング:体の姿勢と動きの分類(PUC-Rio)モーショントラッカーを装着しながら 5 つの標準的な動作を実行している人々。なし。165,632文章分類2013[169] [170]リオデジャネイロ教皇庁カトリック大学
ジェスチャーフェーズセグメンテーションデータセットさまざまなジェスチャーをしている人々のビデオから抽出された特徴。抽出された特徴は、ジェスチャフェーズのセグメンテーションを研究することを目的としています。9900文章分類、クラスタリング2014[171] [172]R. マデオら
Vicon 物理アクションデータセット3D トラッカーによって追跡された人間の活動を測定する 10 個の通常の身体動作と 10 個の積極的な身体動作。3D トラッカーによって記録された多くのパラメータ。3000文章分類2011[173] [174]T. テオドリディス
日常生活とスポーツ活動のデータセット19 の日常およびスポーツ活動のモーター センサー データ。多くのセンサーが指定されていますが、信号の前処理は行われていません。9120文章分類2013[175] [176]B. Barshan ら
スマートフォンを用いた人間の活動認識データセットスマートフォンを装着して通常の動作を行っている人のジャイロスコープと加速度計のデータ。実行されたアクションにはラベルが付けられ、すべての信号はノイズに対して前処理されます。10,299文章分類2012[177] [178]J. Reyes-Ortiz 他
オーストラリア手話モーショントラッキンググローブで捉えられたオーストラリア手話。なし。2565文章分類2002[179] [180]M. カドゥス
慣性計測ユニットで監視されたウェイトリフティングエクササイズIMU で監視される上腕二頭筋カール運動の 5 つのバリエーション。生データから計算されたいくつかの統計。39,242文章分類2013[181] [182]W. Ugulino 他
基本的な手の動きのsEMGデータセット6 つの手の動きの表面筋電図信号の 2 つのデータベース。なし。3000文章分類2014[183]​​ [184]C. Sapsanis ら
REALDISP アクティビティ認識データセットウェアラブルアクティビティ認識におけるセンサー変位の影響を扱う技術を評価します。なし。1419文章分類2014[184] [185]O. Banos ら
異質性活動認識データセットさまざまな活動を実行する人間に関する、複数の異なるスマート デバイスからのデータ。なし。43,930,257文章分類、クラスタリング2015[186] [187]A. Stisen ら
RSSデータからの屋内ユーザー移動予測オフィス内の人の動きを追跡するために使用できる一時的なワイヤレス ネットワーク データ。なし。13,197文章分類2016[188] [189]D. バッチュ
PAMAP2 身体活動モニタリングデータセット3 つの IMU を装着した 9 人の被験者が行った 18 種類の身体活動。なし。3,850,505文章分類2012[190]A. ライス
OPPORTUNITY活動認識データセットウェアラブル、オブジェクト、環境センサーからの人間の活動認識は、人間の活動認識アルゴリズムのベンチマークのために考案されたデータセットです。なし。2551文章分類2012[191] [192]D. ロゲンら
実世界活動認識データセットウェアラブルデバイスによる人間の活動認識。デバイス装着時の7つの位置を識別し、6種類のセンサーを搭載しています。なし。3,150,000(センサーあたり)文章分類2016[193]T. Sztyler 他
トロントリハビリテーション脳卒中ポーズデータセット脳卒中リハビリテーション ロボットを使用して一連のタスクを実行する脳卒中患者と健康な参加者の 3D 人間姿勢推定 (Kinect)。なし。健康な人10人と脳卒中患者9人(1人あたり3500~6000フレーム)CSV分類2017[194] [195] [196]E. Dolatabadi 他
社会的接触のコーパス(CoST)31人の被験者による14種類のソーシャルタッチジェスチャーを7805回キャプチャしました。ジェスチャーは、マネキンの腕に巻き付けられた圧力センサーグリッド上で、優しい、普通、激しいの3つのバリエーションで行われました。実行されたタッチ ジェスチャはセグメント化され、ラベルが付けられます。7805 ジェスチャーキャプチャCSV分類2016[197] [198]M. Jung 他

その他の信号

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
ワインデータセットイタリアの同じ地域で栽培されているが、3 つの異なる栽培品種から作られたワインの化学分析。各ワインには13の特性が与えられている178文章分類、回帰1991[199] [200]M. Forina 他
複合サイクル発電所データセット6年間稼働している発電所内のさまざまなセンサーからのデータ。なし9568文章回帰2014[201] [202]P. Tufekci 他

化学データ

物理システムからのデータセット。

遷移状態を伴う化学反応(TS)

オープンリアクト-CHON-EFH

OpenReACT-CHON-EFH ( Open Re action Dataset of A tomic C onfigura T ionsincluding CHO and N with E nergies, F orces and H essians) は、機械学習による原子間ポテンシャルの 2025 年オープンアクセス ベンチマークです。

  • **RTP セット** – 11,961 個の素反応から抽出された 35,087 個の定常点ジオメトリ (反応物、遷移状態、生成物)。それぞれに密度汎関数エネルギー、原子間力、ωB97X-D/6-31G(d) レベルの完全ヘッセ行列のラベルが付けられています。
  • **IRC セット** – 600 の最小エネルギー反応経路に沿った 34,248 の構造。トレーニング済みの定常点を超えた外挿をテストするために使用されます。
  • **NMS セット** – 熱摂動下でのモデルの堅牢性を調査するために、通常モード サンプリングによって生成された 62,527 個の非平衡ジオメトリ。

このコレクションは、「ヘッセデータは機械学習ポテンシャルのパフォーマンスを向上させるか?」という研究の基礎となっており、そこで報告されている機械学習の原子間ポテンシャルの訓練とベンチマークに使用されました。[203]

データセット自体は、Figshareを通じてCCライセンスの下で配布されています。[204]

物理データ

物理システムからのデータセット。

高エネルギー物理学

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
HIGGSデータセット粒子加速器衝突のモンテカルロシミュレーション。各衝突の 28 の特徴が示されています。11M文章分類2014[205] [206] [207]D. ホワイトソン
HEPMASSデータセット粒子加速器衝突のモンテカルロシミュレーション。信号とノイズを分離することが目的です。各衝突の 28 の特徴が示されています。10,500,000文章分類2016[206] [207] [208]D. ホワイトソン

システム

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
ヨットの流体力学データセット寸法に基づいたヨットの性能。各ヨットには 6 つの機能が備わっています。308文章回帰2013[209] [210]R. ロペス
ロボット実行失敗データセット一般的なタスクを実行できないロボットに焦点を当てた 5 つのデータ セット。トルクやその他のセンサー測定値などの整数値の特徴。463文章分類1999[211]L. Seabra 他
ピッツバーグ橋データセット設計の説明は、さまざまな橋梁のいくつかの特性に基づいて行われます。さまざまなブリッジ機能が提供されます。108文章分類1990[212] [213]Y. ライヒ他
自動車データセット自動車、その保険リスク、標準化された損失に関するデータ。車の特徴を抽出しました。205文章回帰1987[214] [215]J. Schimmer 他
自動車のMPGデータセット車の MPG データ。各車の8つの特徴を紹介します。398文章回帰1993[216]カーネギーメロン大学
エネルギー効率データセット建物のパラメータに応じて与えられる暖房と冷房の要件。建物パラメータが指定されました。768文章分類、回帰2012[217] [218]A. Xifara ら
翼型自己騒音データセット2 次元および 3 次元の翼ブレードセクションの一連の空力および音響テスト。周波数、迎え角などのデータが提供されます。1503文章回帰2014[219]R. ロペス
チャレンジャー号(米国スペースシャトル)のOリングデータセット過去のチャレンジャー号のデータに基づいて、O リングの問題を予測する試み。打ち上げ温度など、各飛行のいくつかの特徴が示されています。23文章回帰1993[220] [221]D. Draper 他
Statlog(シャトル)データセットNASA スペースシャトルのデータセット。9 つの機能が与えられます。58,000文章分類2002[222]米航空宇宙局(NASA)

天文学

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
金星の火山 – JARtool実験データセットマゼラン宇宙船から送られてきた金星の画像。画像は人間によってラベル付けされます。与えられていない画像分類1991[223] [224]M. バール
MAGICガンマ望遠鏡データセットモンテカルロ法は高エネルギーガンマ粒子イベントを生成しました。シミュレーションから抽出された多数の機能。19,020文章分類2007[224] [225]R. ボック
太陽フレアデータセット24 時間以内に発生する特定の種類の太陽フレア イベントの数の測定。太陽フレア特有の特徴が多数示されています。1389文章回帰、分類1989[226]G. ブラッドショー
CAMELS マルチフィールド データセット宇宙論的および天体物理学的パラメータの値が広範囲にわたる数千のN体および最先端の流体力学シミュレーションからの2Dマップと3Dグリッド各マップとグリッドには、6つの宇宙論的および天体物理学的パラメータが関連付けられています。405,000 枚の 2D マップと 405,000 枚の 3D グリッド2Dマップと3Dグリッド回帰2021[227]フランシスコ・ビジャエスクーサ・ナバロら。

地球科学

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
世界の火山地球上のすべての既知の火山活動に関する火山噴火データ。地域、サブ地域、地殻構造、主な岩石の種類などの詳細が示されています。1535文章回帰、分類2013[228]E. Venzke 他
地震バンプデータセット炭鉱からの地震活動。地震活動は危険かどうかに分類されました。2584文章分類2013[229] [230]M. Sikora 他
キャメルズ-US水文気象時系列とさまざまな属性を含む集水域水文学データセット参照671CSV、テキスト、シェープファイル回帰2017[231] [232]N.アドールら。 / A. Newman et al.
ラクダ-チリ水文気象時系列とさまざまな属性を含む集水域水文学データセット参照516CSV、テキスト、シェープファイル回帰2018[233]C. Alvarez-Garreton 他
ラクダ-ブラジル水文気象時系列とさまざまな属性を含む集水域水文学データセット参照897CSV、テキスト、シェープファイル回帰2020[234]V. Chagas ら
キャメルズ-GB水文気象時系列とさまざまな属性を含む集水域水文学データセット参照671CSV、テキスト、シェープファイル回帰2020[235]G. コクソン 他
ラクダ-オーストラリア水文気象時系列とさまざまな属性を含む集水域水文学データセット参照222CSV、テキスト、シェープファイル回帰2021[236]K. Fowler 他
ラマH -CE水文気象時系列とさまざまな属性を含む集水域水文学データセット参照859CSV、テキスト、シェープファイル回帰2021[237]C. クリングラー他

その他の身体的

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
コンクリート圧縮強度データセットコンクリートの特性と圧縮強度のデータセット。各サンプルには 9 つの特徴が与えられます。1030文章回帰2007[238]
[239]
I. イェ
コンクリートスランプ試験データセットコンクリートのスランプフローを特性の観点から示します。フライアッシュ、水などコンクリートの特性を示します。103文章回帰2009[240]
[241]
I. イェ
マスクデータセット特徴に基づいて、分子がムスクの香りか非ムスクの香りかを予測します。各分子には 168 個の特徴が与えられます。6598文章分類1994[242]アリス製薬株式会社
鋼板断層データセット7種類の異なる鋼板。各サンプルには 27 個の特徴が与えられます。1941文章分類2010[243]セミオン研究センター
貴金属単金属ナノ粒子データセット単一金属ナノ粒子の処理と構造的特徴、ラベルは形成エネルギーです。各サンプルには 85 ~ 182 個の特徴が与えられます。425から4000CSV回帰2017年から2023年[244]
[245]
[246] [
247]
[248]
[249]
A. バーナードとG. オプレタル
貴金属二金属ナノ粒子データセット二金属ナノ粒子の処理と構造的特徴、ラベルは形成エネルギーです。各サンプルには 922 個の特徴が与えられます。138147から162770CSV回帰2023[250]
[251]
[252]
[253]
[254
] [255]
[256]
[257]
[258]
[259]
[260]
[261]
J. Ting 他
AuPdPt三金属ナノ粒子データセットAuPdPt ナノ粒子の処理と構造的特徴、ラベルは形成エネルギーです。各サンプルには 1958 個の特徴が与えられます。48136CSV回帰2023[262]K. Lu ら

生物学的データ

生物システムからのデータセット。

人間

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
年齢データセット122万人の著名人の生涯、仕事、そして死に関する構造化された汎用データセット。パブリックドメイン。Wikipedia プロジェクトのすべての言語バージョンにコミュニティから送信されたデータから、生年、死亡年、性別、職業を推測する 5 段階の方法。1,223,009文章回帰、分類2022論文[263]

データセット[264]

Amoradnejadら
合成眼底データセット[265]写実的な網膜画像と血管セグメンテーション。パブリックドメイン。単一背景上の静脈と動脈の分割と分類に役立つ、1500 x 1152 ピクセルの 2500 枚の画像。2500画像分類、セグメンテーション2020[266]C. ヴァレンティら
EEGデータベースアルコール依存症の遺伝的素因と EEG の相関関係を調べる研究。頭皮に置いた 64 個の電極からの測定値を 256 Hz (3.9 ミリ秒エポック) で 1 秒間サンプリングしました。122文章分類1999[267]H. ベグレイター
P300インターフェースデータセット障害を持つ被験者のための P300 ベースの脳コンピューターインターフェースを使用して収集された 9 人の被験者のデータ。各科目ごとに 4 つのセッションに分かれています。MATLABコード提供されます。1,224文章分類2008[268] [269]U. ホフマン他
心臓病データセット心臓病のある患者とない患者に分類されます。各患者には 75 個の属性が与えられますが、一部に欠損値があります。303文章分類1988[270] [271]A. Janosi 他
ウィスコンシン州乳がん(診断)データセット乳房腫瘤の特徴に関するデータセット。医師による診断が記載されています。各サンプルには 10 個の特徴が与えられます。569文章分類1995[272] [273]W. Wolberg 他
薬物使用と健康に関する全国調査米国における健康と薬物使用に関する大規模調査。なし。55,268文章分類、回帰2012[274]米国保健福祉省
肺がんデータセット属性定義のない肺がんデータセット各ケースには56の特徴が与えられている32文章分類1992[275] [276]Z. Hong 他
不整脈データセット心臓不整脈を患っている患者を含む患者グループのデータ。各インスタンスに 276 個の機能。452文章分類1998[277] [278]H. Altay ら
糖尿病 130-米国病院 1999-2008年データセット米国の 130 の病院における糖尿病患者の 9 年間の再入院データ。それぞれの再入院の特徴が多数示されています。10万文章分類、クラスタリング2014[279] [280]J. Clore 他
糖尿病網膜症デブレツェンデータセット糖尿病網膜症のある眼とない眼の画像から抽出された特徴。特徴を抽出し、状態を診断します。1151文章分類2014[281] [282]B. Antalら
糖尿病網膜症メシドールデータセット網膜眼科学分野におけるセグメンテーションおよびインデックス技術の評価方法(MESSIDOR)網膜症の程度と黄斑浮腫のリスクを特徴とする1200画像、テキスト分類、セグメンテーション2008[283] [284]メシドールプロジェクト
肝疾患データセット肝疾患のある人に関するデータ。各患者に与えられた 7 つの生物学的特徴。345文章分類1990[285] [286]ブパメディカルリサーチ株式会社
甲状腺疾患データセット甲状腺疾患患者データのデータベース10件。なし。7200文章分類1987[287] [288]R. クインラン
中皮腫データセット中皮腫患者データ。アスベスト暴露を含む多数の特徴が示されています。324文章分類2016[289] [290]A. Tanrikulu 他
パーキンソン病の視覚ベースの姿勢推定データセットさまざまなタスクを実行するパーキンソン病患者の 2D 人間姿勢推定。軌道からカメラの揺れが削除されました。134文章分類、回帰2017[291] [292] [293]M. Li ら
KEGG代謝反応ネットワーク(無向)データセット代謝経路のネットワーク。反応ネットワークと関係ネットワークが与えられます。各ネットワーク ノードと経路の詳細な機能が提供されます。65,554文章分類、クラスタリング、回帰2011[294]M. Naeem 他
修正ヒト精子形態解析データセット(MHSMA)男性因子による不妊症の患者 235 名の精子の画像。正常または異常な精子の先体、頭部、空胞、尾部がラベル付けされています。精子頭部のみを切り取り、倍率を正規化しました。トレーニング、検証、テスト用の分割セットを作成しました。1,540.npyファイル分類2019[295] [296]S. ジャヴァディとSA ミロシャンデル

動物

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
アワビデータセットアワビの物理的測定値。気象パターンと位置も示されています。なし。4177文章回帰1995[297]海洋研究所 – タローナ
動物園データセット7 つのクラスの動物を網羅した人工データセット。動物は7つのカテゴリーに分類され、それぞれに特徴が与えられています。101文章分類1990[298]R. フォーサイス
普通海綿動物データセット海綿動物に関するデータ。普通海綿類の 503 種の海綿動物は、さまざまな特徴によって説明されます。503文章分類2010[299]E. アルメンゴル他
農場動物データPLF データ インベントリ (牛、豚、位置、加速度など)。ラベル付けされたデータセット。リストは常に更新されます文章分類2020[300]V. ブロッホ
スプライスジャンクション遺伝子配列データセット霊長類のスプライスジャンクション遺伝子配列 (DNA) とそれに関連する不完全ドメイン理論。なし。3190文章分類1992[276]G. Towell ら
マウスタンパク質発現データセットマウスの大脳皮質で測定された 77 種類のタンパク質の発現レベル。なし。1080文章分類、クラスタリング2015[301] [302]C. Higuera 他

菌類

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
UCIキノコデータセットキノコの属性と分類。それぞれのキノコの多くの特性が示されています。8124文章分類1987[303]J. シュリマー
二次キノコデータセットキノコの特性と分類より大規模で現実的なキノコの一次分布からシミュレートされたデータ。完全に再現可能です。61069文章分類2020[304] [305]D. ワグナーら

植物

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
森林火災データセット森林火災とその特性。各火災の13の特徴が抽出されます。517文章回帰2008[306] [307]P. Cortez 他
アイリスデータセット3 種類のアイリス植物は 4 つの異なる属性によって説明されます。なし。150文章分類1936[308] [309]R. フィッシャー
植物種の葉のデータセット100 種類の植物の葉のサンプルをそれぞれ 16 個ずつ。形状記述子、微細スケールマージン、およびテクスチャヒストグラムが提供されます。1600文章分類2012[310] [311]J. Cope 他
大豆データセット病気にかかった大豆植物のデータベース。各植物には35の特徴があり、19のカテゴリーに分類されます。307文章分類1988[312]R. ミハルスキ他
種子データセット3 種類の異なる小麦品種に属する穀粒の幾何学的特性の測定。なし。210文章分類、クラスタリング2012[313] [314]Charytanowicz ら
カバータイプデータセット地図変数から厳密に森林被覆タイプを予測するためのデータ。多くの地理的特徴が示されています。581,012文章分類1998[315] [316]J. Blackard 他
アブシシン酸シグナリングネットワークデータセット植物シグナル伝達ネットワークのデータ。目標は、ネットワークを制御する一連のルールを決定することです。なし。300文章因果発見2008[317]J. Jenkens ら
フォリオデータセット32 種の葉の写真をそれぞれ 20 枚ずつ掲載。なし。637画像、テキスト分類、クラスタリング2015[318] [319]T. ムニサミ 他
オックスフォードフラワーデータセット花の17カテゴリデータセット。トレーニング/テストの分割、ラベル付けされた画像、1360画像、テキスト分類2006[320] [321]M.-E. Nilsback 他
植物苗データセット植物苗の 12 カテゴリのデータセット。ラベル付き画像、セグメント化された画像、5544画像分類、検出2017[322]ギゼルソンら
フルーツ360194 種類の果物、野菜、ナッツ、種子の画像を含むデータベース。100x100 ピクセル、白背景。132739画像(jpg)分類2017~2025年[323]ミハイ・オルテアン
Weed-ID.アプリ1,025 種、13,500 枚以上の画像、120,000 以上の特性を含むデータベース大きさや背景は様々。植物学者博士によるラベル付け。13,500画像、テキスト分類1999-2024[324]リチャード・オールド
CottonWeedDet3 データセット綿花栽培システムのための3クラスの雑草検出データセット雑草3種。848画像分類2022[325]ラーマンら

微生物

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
Ecoliデータセットタンパク質の局在部位。タンパク質局在部位のさまざまな特徴が示されています。336文章分類1996[326] [327]中井 健一 他
マイクロマスデータセット質量分析データからの微生物の識別。質量分析計のさまざまな機能。931文章分類2013[328] [329]P. Mahe ら
酵母データセットタンパク質の細胞内局在部位の予測。インスタンスごとに 8 つの機能が提供されます。1484文章分類1996[330] [331]中井 健一 他

創薬

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
Tox21データセット生物学的アッセイの結果の予測。分子の化学的記述子が与えられます。12707文章分類2016[332]A. Mayr 他

異常データ

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
Numentaアノマリーベンチマーク(NAB)データは順序付けされ、タイムスタンプが付与された単一値のメトリクスです。特に明記されていない限り、すべてのデータファイルには異常値が含まれています。なし50以上のファイルCSV異常検出2016年(継続的に更新)[333]ヌメンタ
スコルテック異常ベンチマーク (SKAB)各ファイルは単一の実験を表し、単一の異常を含みます。データセットは、テストベッドに設置されたセンサーから収集された多変量時系列を表します。外れ値検出(点異常)と変化点検出(集合異常)の問題には2つのマークアップがあります。30以上のファイル(v0.9)CSV異常検出2020年(継続的に更新)

[334] [335]

ユリー・D・カツェルとヴャチェスラフ・O・コジツィン
教師なし外れ値検出の評価について:尺度、データセット、および実証研究ほとんどのデータ ファイルは UCI 機械学習リポジトリ データから適応されており、一部は文献から収集されています。欠損値、数値属性のみ、異常値の異なる割合、ラベル1000以上のファイルARFF異常検出2016年(新しいデータセットや結果で更新される可能性があります)

[336]

Camposら
安全な水処理(SWaT)6段階のSWaTテストベッドから収集されたデータ。通常状態と異常状態(攻撃)のデータが含まれています。ウィンドウとそれに応じた平滑化/平均化3つのファイルCSV異常検出2016

(最終更新日 - 2020年)

[337]ジョナサン・ゴー他

質問回答データ

このセクションには、構造化データを扱うデータセットが含まれています。

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
DBpedia ニューラル質問応答 (DBNQA) データセットDBpedia ナレッジベースでのオープン ドメイン ニューラル質問回答用に特別に設計された、SPARQL への質問の大規模なコレクションです。このデータセットには、Neural SPARQL マシンをトレーニングするための Open Neural SPARQL テンプレートとインスタンスの大規模なコレクションが含まれており、半自動注釈ツールと 3 人の SPARQL エキスパートによって前処理されています。894,499質問とクエリのペア質問応答2018[338] [339]ハートマン、ソル、マルクスら。
ベトナム語質問応答データセット(UIT-ViQuAD)MRC モデルを評価するためのベトナム語の質問の大規模なコレクション。このデータセットは、Wikipedia のベトナム語記事 174 件の 5,109 節に基づいて、人間が生成した 23,000 を超える質問と回答のペアで構成されています。23,074質問と回答のペア質問応答2020[340]Nguyenら
ベトナム語多肢選択式機械読解コーパス(ViMMRC)MRC モデルを評価するためのベトナム語の多肢選択式の質問のコレクション。このコーパスには、ベトナム語の多肢選択問題が 2,783 件含まれています。2,783質問と回答のペア質問応答/機械読解2020[341]Nguyenら
オープンドメインの質問応答は質問の書き換えによって会話型になるエンドツーエンドのオープンドメインの質問応答。このデータセットには、81,000 件の質問と回答のペアを含む 14,000 件の会話が含まれています。コンテキスト、質問、書き換え、回答、回答 URL、会話番号、ターン番号、会話ソース

詳細については、プロジェクトの GitHub リポジトリとそれぞれの Hugging Face データセット カードをご覧ください。

質問応答2021[342]Anantha と Vakulenko ら
統合QA質問回答データ処理済みデータセット質問応答2020[343]Khashabiら

ダイアログまたは指示によって促されるデータ

このセクションには、少なくとも2つのアクター(「ユーザー」と「エージェント」)を含むマルチターンテキストを含むデータセットが含まれています。ユーザーはエージェントにリクエストを送信し、エージェントはリクエストを実行します。

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
タスクマスター3つのデータセットには、複数のドメインにわたる55,000以上のタスク指向の音声および書面による対話が含まれています。[344]6 + 7 + 1 のタスク ドメインで、13,215 + 17,289 + 23,757 のダイアログ。1と2: 会話ID、発話、指示ID

3: 会話 ID、発話、垂直、シナリオ、指示。

タスクを実行します。2019[345] [346]Byrne と Krishnamoorthi ら
ドクターリペアプログラム修復用のラベル付きデータセット。プロジェクトのワークシートで形式の詳細を確認します。タスクを実行します。2020[347]道弘ら
超自然的な指示自然言語で指定されたタスク。76 種類のタスクに 1,616 個の NLP タスク。自然言語命令によるタスク定義、入力/出力の例。タスクを実行します。2022[348] [349]王ら
ランバダ最後の単語が省略された物語の文章。最後の単語を推測してください。2016[350] [351]Papernoら
フランゼロショット、少数ショット、思考連鎖のテンプレートを組み合わせた命令調整データ。命令の調整。タスクを実行します。2021[352] [353]Weiら

サイバーセキュリティ

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
マイター攻撃ATT&CK は、敵対者の戦術と技術に関する、世界中からアクセス可能な知識ベースです。データは、次の2つのGitHubリポジトリからダウンロードできます: バージョン2.1とバージョン2.0[354]マイター攻撃
CAPEC一般的な攻撃パターンの列挙と分類データはCAPECのウェブサイトからダウンロードできます。

攻撃のメカニズム 攻撃領域

[355]CAPEC
CVECVE は、公開されているサイバーセキュリティの脆弱性のリストであり、自由に検索、使用、製品やサービスに組み込むことができます。データは以下からダウンロードできます: Allitems[356]CVE
CWE共通の弱点列挙データ。データは以下からダウンロードできます:

ソフトウェア開発 ハードウェア設計[ permanent dead link ]研究コンセプト

[357]CWE
マルウェアテキストDBマルウェアテキストの注釈付きデータベース。プロジェクトの GitHub リポジトリにはダウンロードするデータが含まれています。[358]Kiatら
USENIXセキュリティシンポジウム議事録USENIX セキュリティ シンポジウムのセキュリティ議事録 (1995 年から 2022 年までの技術セッション) のコレクション。このデータは前処理されていません。1995年、1996年、1997年、1998年、1999年、2000年、2001年、2002年、2003年、2004年、2005年、2006年、2007年、2008年、

2009、2010、2011、2012、2013、2014、2015、2016、2017、2018、2019、2020、2021、2022。

[359]USENIXセキュリティシンポジウム
APTノートAPT攻撃に関する公開文書、ホワイトペーパー、記事のコレクション。すべての文書は公開データです。このデータは前処理されていません。プロジェクトの GitHub リポジトリには、ボックスに保存されているデータへのリンクを含むファイルが含まれています。

データファイルもここからダウンロードできます。

[360]APTノート
arXiv 暗号化とセキュリティに関する論文サイバーセキュリティに関する記事集このデータは前処理されていません。すべての記事はここからご覧いただけます。[361]arXiv
セキュリティ電子書籍を無料で公開されているセキュリティ 電子書籍とセキュリティ プレゼンテーションの小さなコレクション。このデータは前処理されていません。[362]
[363]
[364]
[365]
[366
] [367]
[368]
[369]
[370]
[371]
[372]
[373]
国家サイバーセキュリティ戦略リポジトリサイバーセキュリティに関する世界的な戦略文書のリポジトリ。このデータは前処理されていません。[374]
サイバーセキュリティ自然言語処理75 か国以上のサイバーセキュリティ戦略に関するデータ。トークン化、意味のない頻出単語の削除。[375]Yanlin Chen、Yunjian Wei、Yifan Yu、Wen Xue、Xianya Qin
APTレポートコレクションAPTレポート、マルウェア、テクノロジー、インテリジェンス収集のサンプル生データとトークン化されたデータが利用可能です。すべてのデータは、この GitHub リポジトリで入手できます。[要引用]ブラックバード
攻撃的言語識別データセット(OLID)データはプロジェクトのウェブサイトで入手できます。

データもここから入手できます。

[376]ザンピエリら
国立サイバーセキュリティセンターからのサイバーレポートこのデータは前処理されていません。脅威レポート、レポートとアドバイス、ニュース、ブログ投稿、スピーチ。

レポートの代替リスト。

[377]
カスペルスキーによるAPTレポートこのデータは前処理されていません。[378]
サイバーワイヤーこのデータは前処理されていません。ニュースレター、ポッドキャスト、ストーリー。[379]
データ侵害のニュースこのデータは前処理されていません。ニュース、2022年8月から2023年2月までのニュース一覧[380]
サイバーニュースこのデータは前処理されていません。ニュース、厳選されたニュースリスト[381]
ブリーピングコンピューターこのデータは前処理されていません。ニュース[382]
記録このデータは前処理されていません。サイバー犯罪ニュース[383]
ハックリードこのデータは前処理されていません。ハッキングニュース[384]
セキュアリストこのデータは前処理されていません。APT レポート、アーカイブ、DDOS レポート、インシデント、カスペルスキー セキュリティ速報、産業脅威、マルウェア レポート、意見、出版物、調査、SAS。[385]
スタッコプロジェクトStucco プロジェクトは、通常はセキュリティ システムに統合されていないデータを収集します。このデータは前処理されていませんデータ情報を含むプロジェクトのウェブサイトデータソースへのリンクを含むレビュー済みソース[386]
ファーサイトセキュリティセキュリティに関する技術情報、レポートなどを掲載した Web サイト。このデータは前処理されていません技術情報、調査、レポート。[387]
シュナイアーセキュリティに関する学術論文を掲載したウェブサイト。このデータは前処理されていません論文はカテゴリ別に、論文は日付別にアーカイブされます。[388]
トレンドマイクロセキュリティに関するトピックについての調査、ニュース、見解を掲載した Web サイト。このデータは前処理されていませんトレンドマイクロの調査、ニュース、展望のリストを確認しました。[389]
ハッカーニュースサイバーセキュリティに関するニュース。このデータは前処理されていませんデータ侵害、サイバー攻撃、脆弱性、マルウェアのニュース。[390]
クレブソンセキュリティセキュリティニュースと調査このデータは前処理されていません厳選されたニュースリスト[391]
マイターディフェンド防御アーティファクトのマトリックスjsonファイル[392]
ミトラアトラスMitre Atlas は、現実世界の観察に基づいた機械学習 (ML) システムに対する敵対者の戦術、手法、ケース スタディの知識ベースです。このデータは前処理されていません[393]
マイターエンゲージMITRE Engage は、敵対者と交戦し、サイバーセキュリティの目標を達成できるようにするための、敵対者交戦作戦を計画および議論するためのフレームワークです。このデータは前処理されていません[394]
ハッキングチュートリアルこのデータは前処理されていません[395]

気候と持続可能性

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
TCFDレポートTCFD関連の開示を含む企業レポートのデータベース。このデータは前処理されていませんレポートへの直接リンクレポートの厳選リスト[396]TCFDナレッジハブ
企業の社会的責任報告書インターネット上の責任レポートのリスト。このデータは前処理されていません厳選されたレポートリスト[397]責任レポート
気候変動に関する政府間パネル(IPCC)気候変動、その原因、潜在的な影響、対応策に関する知識に関する包括的な評価報告書のコレクションこのデータは前処理されていませんレポートレポートの厳選リスト[398]IPCC
企業の持続可能性に関する研究連合このデータは前処理されていませんブログ投稿の厳選リスト[399]アークス
ESGコーパス:持続可能性会計の知識ハブこのデータは前処理されていませんガイド、ケーススタディ、ブログ、レポート、調査。[400]Mehraら
気候熱インターネット上で収集された気候変動に関する実際の主張 1,535 件で構成される、FEVER 方法論を採用したデータセット。それぞれの主張には、英語版ウィキペディアから取得した5つの手作業で注釈が付けられた証拠文が添付されており、その主張を裏付けるか、反証するか、あるいは主張を検証するのに十分な情報を提供していないかを示すもので、合計7,675の主張と証拠のペアがある。[401]データセット HF カード、およびプロジェクトの GitHub リポジトリ。[402]Diggelmannら
気候ニュースデータセットNLPと気候変動メディア研究者のためのデータセットデータセットは、多数のデータ成果物(JSON、JSONL、CSVテキストファイル、SQLiteデータベース)で構成されています。気候ニュースDB、プロジェクトのGitHubリポジトリ[403]ADGEfficiency
気候テキストClimatext は、文章ベースの気候変動トピック検出用のデータセットです。HFデータセット[404]チューリッヒ大学
グリーンビズ気候と持続可能性に関する記事とニュースのコレクションこのデータは前処理されていません気候関連記事の厳選リスト持続可能性関連記事の厳選リスト[405]
気候と持続可能性に関するトップ研究プレプリントロイターのホットリストに掲載された研究者のプレプリントのリストこのデータは前処理されていませんプレプリントの厳選リスト[406]モーリス・タマン
アークスこのデータは前処理されていません企業のサステナビリティに関するブログの厳選リスト[407]
グリーンビズ気候と持続可能性に関する記事を掲載したウェブサイトこのデータは前処理されていません[408]グリーンビズ
CSRワイヤーこのデータは前処理されていません厳選された記事リスト[409]CSRワイヤー
CDP気候、水、森林に関する記事このデータは前処理されていません[410]CDP

コードデータ

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
スタック30 種類のプログラミング言語の許容ライセンスのソース コードで構成される 3.1 TB のデータセット。ライセンス検出と重複排除によってフィルタリングされます。6 TB、51.76B ファイル (重複排除前)、3 TB、5.28B ファイル (重複排除後)。358 種類のプログラミング言語。寄木細工言語モデリング、自動補完、プログラム合成。2022[411] [412]D. コチェトコフ、R. リー、L. ベン・アラル、L. フォン・ヴェラ、H. デ・フリース
LEMUR ニューラルネットワークデータセットAutoMLタスクとLLMによるモデル分析を容易にするために設計された、標準化されたニューラルネットワークモデルの構造化リポジトリライセンス検出と重複排除によってフィルタリングされます。PyTorch モデル。Python スクリプト。画像分類、オブジェクト検出、画像セグメンテーション、自然言語処理。2024[413]A. グダルジ、R. コチネフ、W. ハリド、F. チン、T. ウズン、Y. ダメリヤ、Y. カティリヤ、Z. ベンティン、D. イグナトフ、R. ティモフテ
GitHubリポジトリこのデータは前処理されていませんGitHubのリポジトリの厳選リスト: 61 62 63 64 65 66 67 68 69 70 71, 72, 73, 74, 75, 76, 77 101
IBM パブリック GitHub リポジトリこのデータは前処理されていませんGitHubのリポジトリの厳選リスト
RedHat パブリック GitHub リポジトリこのデータは前処理されていませんGitHubのリポジトリの厳選リスト
StackExchange Public Archive.org ファイルこのデータは前処理されていませんArchive.org からのファイルの厳選リスト
Gitlab パブリックリポジトリこのデータは前処理されていませんGitlabのリポジトリの厳選リスト: 1 2
Ansible Collections パブリックリポジトリこのデータは前処理されていませんGitHubからのリポジトリの厳選リスト
CodeParrot GitHub コードデータセットこのデータは前処理されていませんHugging Faceのリポジトリのキュレーションリスト:1 2 3 4 5 6 7 8 9 10
OKDRed Hat OpenShift を支える Kubernetes のコミュニティ ディストリビューションこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
オープンシフト開発者と運用に優しいKubernetesディストリビューションプロジェクトのGitHubリポジトリのリスト
Kubernetesこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
レッドハット開発者Red Hat Developer プログラムの GitHub ホームこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
レッドハット

ワークショップ

このデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Kubernetes SIGこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
コンベアこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
RedHatマーケットプレイスこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Redhatブログこのデータは前処理されていません[414]
Kubernetes ioこのデータは前処理されていません[415]
ドキュメント Openshiftこのデータは前処理されていません[416]
cncf ioこのデータは前処理されていません[417]
Kubernetesのプレゼンテーション公開されているKubernetesプレゼンテーションのリストこのデータは前処理されていませんデータリンク
レッドハットオープンイノベーションラボこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Red Hat デモこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Red Hat OpenShift オンラインこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
ソフトウェアコレクションこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
レッドハットインサイトこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
レッドハット政府このデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
レッドハットコンサルティングこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Red Hat 実践コミュニティこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Red Hat パートナー テックこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Red Hat ドキュメントこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
IBMこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
IBMクラウドこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
ビルドラボチームこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Terraform IBM モジュールこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
クラウド スケマティックこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
OCP パワーデモこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
IBM アプリのモダナイゼーション このデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Kubernetes オペレーターハブ このデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
クラウドネイティブコンピューティング財団(CNCF) このデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
オペレーターフレームワークこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト[418]
artifacthub.io で参照される GitHub リポジトリこのデータは前処理されていませんartifacthub.io の GitHub リポジトリのリスト
Red Hat 実践コミュニティこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Red Hatパートナーこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
IBM リポジトリこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
ビルドラボチームこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
オペレーターフレームワークこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
GitHubリポジトリこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
レッドハットこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Kubernetesパターンこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
Kubernetes のデプロイメントとセキュリティパターンこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
フルスタック開発者向けKubernetesこのデータは前処理されていませんプロジェクトのGitHubリポジトリのリスト
ロードバランサーの Cloudwatch メトリクスこのデータは前処理されていませんプロジェクトのGitHubリポジトリ
ダイナトレースこのデータは前処理されていません[5]
AIOpsチャレンジ2020データこのデータは前処理されていませんプロジェクトのGitHubリポジトリ
ログハブこのデータは前処理されていませんリポジトリのリスト
HTMLページこのデータは前処理されていませんHTMLページのリスト
Opensift電子書籍このデータは前処理されていません[419]
Kubernetes電子書籍このデータは前処理されていませんKubernetes パターン、Kubernetes デプロイメント、フルスタック開発者向け Kubernetes
フルスタック開発者向けKubernetesこのデータは前処理されていませんフルスタック開発者向けKubernetes
公開およびライセンスされた GitHub リポジトリのリストこのデータは前処理されていませんリポジトリのリスト

多変量データ

金融

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
ダウ・ジョーンズ指数2011 年第 1 四半期および第 2 四半期の株式の週次データ。パーセンテージの変化や遅延などの計算値が含まれます。750カンマ区切り値分類、回帰、時系列2014[420] [421]M.ブラウン他
Statlog(オーストラリアの信用承認)承認または拒否されたクレジットカード申請と、その申請に関する属性。属性名と識別情報は削除され、因子のラベルが変更されました。690カンマ区切り値分類1987[422] [423]R. クインラン
eBayオークションデータさまざまな長さのオークションにおけるさまざまな eBay.com オブジェクトのオークションデータすべての入札、入札者ID、入札時間、開始価格が含まれます。約550文章回帰、分類2012[424] [425]G. Shmueli
Statlog(ドイツの信用データ)多くの特徴を持つ「良い」または「悪い」の2値信用分類各人のさまざまな財務特徴が示されています。690文章分類1994[426]H. ホフマン
銀行マーケティングデータセット大手銀行が実施した大規模なマーケティング キャンペーンのデータ。連絡を受けた顧客の多くの属性が提供されます。顧客が銀行に加入しているかどうかも提供されます。45,211文章分類2012[427] [428]S. Moro 他
イスタンブール証券取引所データセット約2年間追跡されたいくつかの株価指数。なし。536文章分類、回帰2013[429] [430]O. アクビルギッチ
クレジットカード顧客の債務不履行台湾の債権者の信用不履行データ。各アカウントに関するさまざまな機能が提供されます。3万文章分類2016[431] [432]I. イェ
ストックネットツイートと過去の株価から株価動向を予測なし文章NLP2018[433]ユモ・シューとシェイ・B・コーエン

天気

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
クラウドデータセット1024 種類の異なるクラウドに関するデータ。抽出された画像の特徴。1024文章分類、クラスタリング1989[434]P. コラード
エルニーニョデータセット赤道太平洋全域に設置された一連のブイから取得した海洋学および表面気象の測定値。各ブイでは 12 の気象特性が測定されます。178080文章回帰1999[435]太平洋海洋環境研究所
温室効果ガス観測ネットワークデータセット気象シミュレーションを使用して作成された、カリフォルニア州の 2921 グリッド セルにおける温室効果ガス濃度の時系列。なし。2921文章回帰2015[436]D.ルーカス
マウナロア天文台の連続大気サンプルからの大気中CO2米国ハワイ州における継続的な空気サンプル採取。44 年間の記録。なし。44年文章回帰2001[437]マウナロア天文台
電離層データセット電離層からのレーダーデータ。良好なレーダー反射と不良なレーダー反射に分類することが課題です。多くのレーダー機能が提供されます。351文章分類1989[288] [438]ジョンズ・ホプキンス大学
オゾンレベル検出データセット地上オゾンレベルのデータセット 2 つ。測定時の気象条件など、多くの特徴が示されています。2536文章分類2008[439] [440]K. Zhang 他

国勢調査

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
成人データセット成人の人口統計学的特徴と収入を含む 1994 年の国勢調査データ。クリーンアップされ匿名化されました。48,842カンマ区切り値分類1996[441]アメリカ合衆国国勢調査局
国勢調査所得(KDD)1994 年および 1995 年の最新人口調査からの加重国勢調査データ。トレーニング セットとテスト セットに分割します。299,285カンマ区切り値分類2000[442] [443]アメリカ合衆国国勢調査局
IPUMS国勢調査データベースロサンゼルスとロングビーチ地域の国勢調査データ。なし256,932文章分類、回帰1999[444]IPUMS
1990年の米国国勢調査データ1990 年の米国国勢調査からの部分的なデータ。結果はランダム化され、有用な属性が選択されました。2,458,285文章分類、回帰1990[445]アメリカ合衆国国勢調査局

交通機関

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
自転車シェアリングデータセット大都市におけるレンタル自転車の 1 時間ごとおよび 1 日ごとのカウント。天気、旅行の長さなど、多くの機能が提供されます。17,389文章回帰2013[446] [447]H. ファナエ-T
ニューヨーク市のタクシー乗車データニューヨーク市内の黄色と緑のタクシーの運行データ。乗車場所と降車場所、運賃、その他の旅行の詳細を表示します。6年文章分類、クラスタリング2015[448]ニューヨーク市タクシー・リムジン委員会
タクシーサービスの軌跡 ECML PKDD大都市におけるすべてのタクシーの軌跡。開始ポイントと停止ポイントを含む多くの機能が提供されます。1,710,671文章クラスタリング、因果発見2015[449] [450]M. Ferreira 他
METR-LAロサンゼルス郡の高速道路のループ検出器からの速度。5 分間のタイムステップでの平均速度。207個のセンサーと34,272個のタイムステップから7,094,304カンマ区切り値回帰、予測2014[451]Jagadishら
ペムス米国カリフォルニア州の高速道路のループ検出器やその他のセンサーから得られる速度、流れ、占有率などの指標。メトリックは通常、平均を介して 5 分のタイムステップに集計されます。39,000個の個別検出器、それぞれに何年分の時系列データが含まれているカンマ区切り値回帰、予測、ナウキャスティング、補間(リアルタイム更新)[452]カリフォルニア州運輸局

インターネット

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
Common Crawl 2012 のウェブページ膨大なウェブページと、それらがハイパーリンクを介してどのように接続されているかを示すコレクションなし。35億文章クラスタリング、分類2013[453]V. グランヴィル
インターネット広告データセット特定の画像が広告であるかどうかを予測するためのデータセット。機能は、URL に出現する広告やフレーズの形状をエンコードします。3279文章分類1998[454] [455]N. クシュメリック
インターネット利用データセットインターネット ユーザーの一般的な人口統計。なし。10,104文章分類、クラスタリング1999[456]D. クック
URLデータセット大規模会議の 120 日間の URL データ。各 URL の多くの機能が提供されます。2,396,130文章分類2009[457] [458]J. マ
フィッシングウェブサイトデータセットフィッシング Web サイトのデータセット。各サイトの多くの特徴が紹介されています。2456文章分類2015[459]R. ムスタファ 他
オンライン小売データセット英国のオンライン小売業者のオンライン取引。各取引の詳細が記載されています。541,909文章分類、クラスタリング2015[460]D. チェン
Freebase シンプルトピックダンプFreebase は、人類のあらゆる知識を構造化するためのオンライン プロジェクトです。Freebase からのトピックが抽出されました。大きい文章分類、クラスタリング2011[461] [462]フリーベース
農場広告データセットウェブサイトからの農場広告のテキスト。コンテンツ所有者による承認または不承認の二者択一が行われます。広告内のテキスト単語の SVMlight スパースベクトルを計算しました。4143文章分類2011[463] [464]C. Masterharm 他
山積み多様で非構造化テキストの大規模データセットを複数集める各種(ウェブサイトからHTMLとJavaScriptを削除、重複した文章を削除)825 GiB 英語テキストJSON行[465] [466]自然言語処理、テキスト予測2021[467] [465]Gaoら
オスカー150以上の言語をカバーするWebデータ(Common Crawl dumps)から抽出された単一言語コーパスの大規模なコレクション各種(フィルタリング、言語分類、アダルトコンテンツの検出、その他のラベル付け)英語テキスト 3.4 TB、中国語テキスト 1.4 TB、ロシア語テキスト 1.1 TB、ドイツ語テキスト 595 MB、フランス語テキスト 431 MB、および 150 以上の言語のデータ (バージョン 23.01 の数値)JSON行[468]自然言語処理、テキスト予測2021[469] [470]オルティス・スアレス、アバジ、サゴット 他
オープンウェブテキストWebTextコーパスをオープンソースで再現したものです。このテキストは、Redditで共有され、3つ以上の賛成票を獲得したURLから抽出されたウェブコンテンツです。抽出された非 HTML コンテンツ、重複除去、トークン化。8,013,769 文書、38GB文章自然言語処理、テキスト予測2019[471] [472]A. ゴカスラン、V. コーエン
ルーツデータが収集された人々のために、またその人々によって、良いことを行うという明確な目標を持つ、十分に文書化された代表的な多言語データセット。HTML 以外のコンテンツを抽出し、UI と広告をクリーンアップし、重複を排除し、PII を削除し、トークン化しました。1.6 TB、59 言語。寄木細工自然言語処理、テキスト予測2022[473] [474]H. ローレンソン、L. ソルニエ、T. ワン、C. アキキ、A. ビラノバ デル モラル、T. ル スカオ

ゲーム

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
ポーカーハンドデータセット標準の 52 枚のカードのデッキから 5 枚のカードの手札。各ハンドに含まれるカードによって形成されるポーカー ハンドを含む、各ハンドの属性が示されます。1,025,010文章回帰、分類2007[475]R. カトラル
Connect-4データセットどちらのプレイヤーもまだ勝っておらず、次の動きが強制されない、コネクト 4 ゲームにおけるすべての合法的な 8 プライ ポジションが含まれます。なし。67,557文章分類1995[476]J. トロンプ
チェス(キング・ルーク対キング)データセット白のキングとルークと黒のキングの対決の終盤データベース。なし。28,056文章分類1994[477] [478]M. ベインら
チェス(キング・ルーク vs. キング・ポーン)データセットa7 のキング+ルークとキング+ポーン。なし。3196文章分類1989[479]R. ホルテ
三目並べエンドゲームデータセット三目並べにおける勝利条件のバイナリ分類。なし。958文章分類1991[480]D. ああ

その他の多変量

データセット名簡単な説明前処理インスタンス形式デフォルトのタスク作成(更新)参照クリエイター
住宅データセットボストンの住宅価格の中央値と、それに関連する住宅および近隣地域の属性。なし。506文章回帰1993[481]D. ハリソン他
ゲッティ語彙集芸術やその他の物質文化、アーカイブ資料、視覚的代替物、書誌資料の構造化された用語集。なし。大きい文章分類2015[482]ゲッティセンター
Yahoo! フロントページ Today モジュール ユーザー クリック ログYahoo! フロントページの Today モジュールの注目タブに表示されたニュース記事のユーザークリックログ。双線形モデルによるコンジョイント分析。45,811,883回のユーザー訪問文章回帰、クラスタリング2009[483] [484]Chuら
英国海洋学データセンター海洋の生物学的、化学的、物理的、地球物理学的データ。22,000 個の変数が追跡されます。様々な。22Kの変数、多数のインスタンス文章回帰、クラスタリング2015[485]英国海洋学データセンター
議会投票記録データセット16 の問題に関する米国代表全員の投票データ。生の投票データ以外にも、さまざまな機能が提供されます。435文章分類1987[486]J. シュリマー
Entree Chicago 推奨データセットEntree Chicago 推奨システムとユーザーのやりとりの記録。各ユーザーのアプリの使用状況が詳細に記録されます。50,672文章回帰、推奨2000[487]R.バーク
保険会社ベンチマーク(COIL 2000)保険会社の顧客に関する情報。各顧客のさまざまな特徴と、顧客が利用するサービス。9,000文章回帰、分類2000[488] [489]P. ファン・デル・プッテン
保育園データセット保育園の入園希望者データです。申請者の家族やその他のさまざまな要素に関するデータが含まれます。12,960文章分類1997[490] [491]V. Rajkovic 他
大学データセット多数の大学の属性を記述したデータ。なし。285文章クラスタリング、分類1988[492]S. Soundersら
輸血サービスセンターデータセット輸血サービスセンターのデータ。献血者の返却率、頻度などのデータを提供します。なし。748文章分類2008[493] [494]I. イェ
レコードリンク比較パターンデータセット膨大なレコードのデータセット。関連するレコードをリンクすることが課題です。特定のレコード ペアのみを選択するために適用されるブロッキング手順。5,749,132文章分類2011[495] [496]マインツ大学
NomaoデータセットNomaoは様々なソースから場所に関するデータを収集します。タスクは同じ場所を表すアイテムを検出することです。重複したラベルが付けられています。34,465文章分類2012[497] [498]ノマオラボ
映画データセット10,000本の映画のデータ。各映画にはいくつかの特徴が示されています。10,000文章クラスタリング、分類1999[499]G. ヴィーダーホールド
オープン大学学習分析データセット学生と仮想学習環境でのやり取りに関する情報。なし。約3万文章分類、クラスタリング、回帰2015[500] [501]J. Kuzilek 他
携帯電話の記録電気通信活動と交流地理グリッドセルごとに 15 分ごとに集計します。大きい文章分類、クラスタリング、回帰2015[502]G. Barlacchi 他

データセットのキュレーションされたリポジトリ

データセットにはさまざまな形式があり、使いにくい場合もあるため、機械学習の研究で使いやすくするために、データセットの形式を整理および標準化するための作業がかなり行われてきました。

  • OpenML: [503]数百の機械学習データセットをダウンロードし、データセット上でアルゴリズムを評価し、数十の他のアルゴリズムと比較してアルゴリズムのパフォーマンスをベンチマークするためのPython、R、Java、およびその他のAPIを備えたWebプラットフォーム。
  • PMLB: [504]教師あり機械学習アルゴリズムを評価するためのベンチマークデータセットを厳選した大規模なリポジトリ。Python APIからアクセスできる標準化された形式で分類および回帰データセットを提供します。
  • Metatext NLP: https://metatext.io/datasets はコミュニティによって管理されているウェブリポジトリで、約1,000のベンチマークデータセットが含まれており、現在も増え続けています。分類から品質保証まで、様々なタスクに対応しており、英語、ポルトガル語、アラビア語など、様々な言語に対応しています。
  • Appen:同社がホスト・管理する既製品およびオープンソースのデータセット。生物学、画像、物理、質問応答、信号、音声、テキスト、ビデオなど、250種類以上のリソースが揃っており、25以上の異なるユースケースに適用できます。[505] [506]

参照

参考文献

  1. ^ Wissner-Gross, A. 「Datasets Over Algorithms」. Edge.com . 2016年1月8日閲覧
  2. ^ Weiss, GM; Provost, F. (2003年10月). 「トレーニングデータのコストが高い場合の学習:クラス分布が木誘導に与える影響」. Journal of Artificial Intelligence Research . 19 : 315–354 . doi :10.1613/jair.1199.
  3. ^ アブニー、スティーブン(2007年)『計算言語学のための半教師あり学習』CRC Press. ISBN 978-1-4200-1080-0[ページが必要]
  4. ^ Žliobaitė, Indrė; Bifet, Albert; Pfahringer, Bernhard; Holmes, Geoff (2011). 「Active Learning with Evolving Streaming Data」.データベースにおける機械学習と知識発見. コンピュータサイエンス講義ノート. 第6913巻. pp.  597– 612. doi :10.1007/978-3-642-23808-6_39. ISBN 978-3-642-23807-9
  5. ^ アクタル、ムバシャラ;ベンジェロン、オマール。コンフォルティ、コスタンツァ。フォスキーニ、ルカ。ギスベルス、ピーター。ジネル・ミゲレス、ジョアン。ゴスワミ、スジャータ。ジャイナ教、ニティシャ。カラムサダキス、ミカリス。クリシュナ、サティヤプリヤ。クチニク、マイケル。ルサージュ、シルヴァン。ローエスト、クエンティン。マルセナック、ピエール。マニル、マスキー(2024年12月16日)。 「Croissant: ML 対応データセット用のメタデータ形式」。神経情報処理システムの進歩37 : 82133~ 82148。
  6. ^ James Bennett、Stan Lanning (2007年8月12日). 「Netflix Prize」(PDF) . KDD Cup and Workshop 2007 Proceedings of KDD Cup and Workshop 2007. 2007年9月27日時点のオリジナル(PDF)からアーカイブ。 2007年8月25日閲覧
  7. ^ McAuley, Julian; Targett, Christopher; Shi, Qinfeng; Anton van den Hengel (2015). 「画像ベースのスタイルと代替品に関する推奨」arXiv : 1506.04757 [cs.CV].
  8. ^ 「Amazonレビューデータ」. nijianmo.github.io . 2021年10月8日閲覧
  9. ^ Ganesan, Kavita; Zhai, Chengxiang (2012). 「意見に基づくエンティティランキング」.情報検索. 15 (2): 116– 150. doi :10.1007/s10791-011-9174-8. hdl : 2142/15252 . S2CID  16258727.
  10. ^ Lv, Yuanhua; Lymberopoulos, Dimitrios; Wu, Qiang (2012). 「モバイルローカル検索におけるランキングヒューリスティックスの探究」.第35回国際ACM SIGIR会議「情報検索における研究開発」の議事録. pp.  295– 304. doi :10.1145/2348283.2348325. ISBN 978-1-4503-1472-5
  11. ^ Harper, F. Maxwell; Konstan, Joseph A. (2015). 「MovieLensデータセット:歴史と文脈」. ACM Transactions on Interactive Intelligent Systems . 5 (4): 19. doi :10.1145/2827872. S2CID  16619709.
  12. ^ ケーニヒシュタイン、ノアム、ドロール、ギデオン、コーレン、イェフダ (2011). 「Yahoo! Music のレコメンデーション:時間的ダイナミクスとアイテム分類による音楽評価のモデリング」第5回ACMレコメンデーションシステム会議論文集. pp.  165– 172. doi :10.1145/2043932.2043964. ISBN 978-1-4503-0683-6
  13. ^ McFee, Brian; Bertin-Mahieux, Thierry; Ellis, Daniel PW; Lanckriet, Gert RG (2012). 「百万曲データセットチャレンジ」.第21回国際ワールドワイドウェブ会議議事録. pp.  909– 916. doi :10.1145/2187980.2188222. ISBN 978-1-4503-1230-1
  14. ^ Bohanec, Marko, Vladislav Rajkovic. 「多属性意思決定のための知識獲得と説明」第8回エキスパートシステムとその応用に関する国際ワークショップ. 1988年.
  15. ^ Tan, Peter J., David L. Dowe. 「多元結合を用いた決定グラフのMML推論」オーストラリア人工知能合同会議. 2002年.
  16. ^ 「YouTubeにおけるコメディの定量化:LOLにおける「o」の数が重要な理由」Metatext NLPデータベース。 2020年10月26日閲覧
  17. ^ キム・ビョンジュ (2012). 「ビッグデータのための分類器」.コンバージェンスとハイブリッド情報技術. コンピュータと情報科学におけるコミュニケーション. 第310巻. pp.  505– 512. doi :10.1007/978-3-642-32692-9_63. ISBN 978-3-642-32691-2
  18. ^ Pérezgonzález, Jose D.; Gilbey, Andrew (2011). 「顧客レビューからSkytrax空港ランキングを予測する」. Journal of Airport Management . 5 (4): 335– 339. doi :10.69554/RFZC4321.
  19. ^ Loh, Wei-Yin, Yu-Shan Shih. 「分類木のための分割選択法」Statistica sinica (1997): 815–840.
  20. ^ Lim, Tjen-Sien; Loh, Wei-Yin ; Shih, Yu-Shan (2000). 「33種類の新旧分類アルゴリズムの予測精度、複雑性、トレーニング時間の比較」.機械学習. 40 (3): 203– 228. doi :10.1023/a:1007608224229. S2CID  17030953.
  21. ^ グエン、キエット・ヴァン;グエン、ヴドゥック。グエン、フー15世。チュオン、タムTH;グエン、ガン・ルートゥイ (2018) 「UIT-VSFC: 感情分析のためのベトナム人学生のフィードバック コーパス」。2018 第 10 回知識とシステム工学に関する国際会議 (KSE)。 pp.  19–24 . doi :10.1109/KSE.2018.8573337。ISBN 978-1-5386-6113-0
  22. ^ ホー、ヴォン・アイン;グエン、ズオン・フィンコン。グエン、ダン・ホアン。ファム、リン・ティ・ヴァン。グエン、ドゥクヴー。グエン、キエット・ヴァン。グエン、ガン・ルートゥイ(2020)。 「ベトナムのソーシャルメディアテキストの感情認識」。計算言語学。コンピュータおよび情報科学におけるコミュニケーション。 Vol. 1215. pp.  319–333 . arXiv : 1911.09339土井:10.1007/978-981-15-6168-9_27。ISBN 978-981-15-6167-2. S2CID  208202333。
  23. ^ Nhung Thi-Hong Nguyen、Phuong Ha-Dieu Phan、Luan Thanh Nguyen、Kiet Van Nguyen、Ngan Luu-Thuy Nguyen (2021 年 4 月 24 日)。 「電子商取引 Web サイトにおけるベトナムのオープンドメイン苦情の検出」。arXiv : 2104.11969 [cs.CL]。{{cite arXiv}}: CS1 maint: multiple names: authors list (link)
  24. ^ フー・ギア・ホアン、カン・ドゥク・ルー、カイン・クオック・トラン、キエット・ヴァン・グエン、ガン・ルー=トゥイ・グエン(2023年1月26日)。 「ViHOS: ベトナム人に対するヘイトスピーチの検出範囲」。arXiv : 2301.10186 [cs.CL]。{{cite arXiv}}: CS1 maint: multiple names: authors list (link)
  25. ^ Dermouche, Mohamed; Velcin, Julien; Khouas, Leila; Loudcher, Sabine (2014). 「トピック・センチメントの時間的変化に関する統合モデル」. 2014 IEEE International Conference on Data Mining . IEEE. pp.  773– 778. doi :10.1109/icdm.2014.82. ISBN 978-1-4799-4302-9
  26. ^ ローズ、トニー、スティーブンソン、マーク、ホワイトヘッド、マイルズ (2002). 「ロイター・コーパス 第1巻 ― 昨日のニュースから明日の言語リソースまで」LREC . 2 . S2CID  9239414.
  27. ^ Amini, Massih R.; Usunier, Nicolas; Goutte, Cyril (2009). 「複数の部分観察ビューからの学習 - 多言語テキスト分類への応用」.ニューラル情報処理システムの進歩. 22 : 28–36 .
  28. ^ Liu, Ming; et al. (2015). 「VRCA: 膨大なテキストのためのクラスタリングアルゴリズム」. Proceedings of the 24th International Conference on Artificial Intelligence . AAAI Press. 2021年11月5日時点のオリジナルよりアーカイブ。 2019年8月6日閲覧
  29. ^ Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, MS; Al-Rajeh, A (2008). 「アラビア語テキストの自動分類」第9回国際テキストデータ統計分析会議議事録、フランス・リヨン
  30. ^ 「関係性とエンティティ抽出評価データセット:Dstl/re3d」。GitHub 2018年12月17日。
  31. ^ 「The Examiner – SpamClickBait カタログ」。
  32. ^ 「100万のニュースの見出し」。
  33. ^ 「1週間のグローバルニュースフィード」。
  34. ^ Kulkarni、Rohit (2018)、ロイター ニュースワイヤー アーカイブ、ハーバード データバース、doi :10.7910/DVN/XDB74W
  35. ^ 「IrishTimes – ワクシーワニーニュース」.
  36. ^ 「皮肉検出のためのニュース見出しデータセット」kaggle.com . 2019年4月27日閲覧
  37. ^ クリムト、ブライアン、ヤン・イーミン。 「エンロン コーパスのご紹介」CEAS。 2004年。
  38. ^ Kossinets, Gueorgi; Kleinberg, Jon; Watts, Duncan (2008). 「ソーシャルコミュニケーションネットワークにおける情報経路の構造」arXiv : 0806.3201 [physics.soc-ph].
  39. ^ Androutsopoulos, Ion; Koutsias, John; Chandrinos, Konstantinos V.; Paliouras, George; Spyropoulos, Constantine D. (2000). 「ナイーブベイズ法によるスパム対策フィルタリングの評価」. Potamias, G.; Moustakis, V.; van Someren, M. (編).新情報化時代における機械学習ワークショップ議事録. 第11回ヨーロッパ機械学習会議, バルセロナ, スペイン. 第11巻. pp.  9– 17. arXiv : cs/0006013 . Bibcode :2000cs........6013A.
  40. ^ Bratko, Andrej; et al. (2006). 「統計的データ圧縮モデルを用いたスパムフィルタリング」(PDF) . The Journal of Machine Learning Research . 7 : 2673– 2698.
  41. ^ Tiago A. Almeida、José María G. Hidalgo、Akebo Yamakami. 「SMSスパムフィルタリング研究への貢献:新しいコレクションと結果」第11回ACMドキュメントエンジニアリングシンポジウム議事録。ACM、2011年。
  42. ^ Delany; Jane, Sarah; Buckley, Mark; Greene, Derek (2012). 「SMSスパムフィルタリング:手法とデータ」. Expert Systems with Applications . 39 (10): 9899– 9908. doi :10.1016/j.eswa.2012.02.053. S2CID  15546924.
  43. ^ Joachims, Thorsten.テキスト分類のためのTFIDFを用いたRocchioアルゴリズムの確率的分析. No. CMU-CS-96-118. カーネギーメロン大学ピッツバーグ校 コンピュータサイエンス学部, 1996.
  44. ^ Dimitrakakis, Christos, Samy Bengio.アンサンブルアルゴリズムのためのオンラインポリシー適応. No. EPFL-REPORT-82788. IDIAP, 2002.
  45. ^ Dooms, S. 他「Movietweetings: Twitter から収集された映画評価データセット、2013 年。https://github.com/sidooms/MovieTweetings から入手可能。」
  46. ^ ロイ・チョードリー、アルニ;リン・ツンユー;マジ、サブランス。エリック・ラーンド・ミラー (2017)。 「Twitter100k: 弱く監視されたクロスメディア検索のための現実世界のデータセット」。arXiv : 1703.06618 [cs.CV]。
  47. ^ “huyt16/Twitter100k”. GitHub . 2018年3月26日閲覧
  48. ^ Go, Alec; Bhayani, Richa; Huang, Lei (2009). 「遠隔教師を用いたTwitter感情分類」. CS224Nプロジェクト報告書, スタンフォード大学. 1:12 .
  49. ^ Chikersal, Prerna, Soujanya Poria, Erik Cambria. 「SeNTU: ルールベース分類器と教師あり学習を組み合わせたツイートの感情分析」意味評価に関する国際ワークショップ論文集、SemEval、2015年。
  50. ^ Zafarani, Reza, Huan Liu . 「ASUのソーシャルコンピューティングデータリポジトリ」アリゾナ州立大学コンピューティング・情報科学・意思決定システム工学部(2009).
  51. ^ DataTrained Educationによるデータサイエンスコース「IBM認定データサイエンスコース」。IBM認定オンラインデータサイエンスコース
  52. ^ McAuley, Julian J.; Leskovec, Jure. 「自我ネットワークにおける社会的サークルの発見を学ぶ」NIPS . 2012 : 2012.
  53. ^ Šubelj, Lovro; Fiala, Dalibor; Bajec, Marko (2014). 「ネットワークベースの文献データベースの引用トポロジーの統計的比較」. Scientific Reports . 4 (6496): 6496. arXiv : 1502.05061 . Bibcode :2014NatSR...4.6496S. doi :10.1038/srep06496. PMC 4178292. PMID 25263231  . 
  54. ^ Abdulla, N., et al. 「アラビア語の感情分析:コーパスベースと語彙ベース。」 IEEE応用電気工学・コンピューティング技術会議(AEECT)議事録。2013年。
  55. ^ アブーライグ、ラダッド;アル・ズビ、シャディ。ケイナン、タレク。ハワシン、ビラル。アル・アユーブ、マフムード。イスマイル、フメイディ(2018年6月)。 「政治的方向性に基づいたアラビア語記事の自動分類」。デジタル調査25 : 24–41 .土井:10.1016/j.diin.2018.04.003。
  56. ^ カワラ、フランソワ、他。 「社会的社会の動きを予測する。」4 番目の会議は、モデルと研究の分析: 数学と情報のアプローチです。 2013年。
  57. ^ Sabharwal, Ashish; Samulowitz, Horst; Tesauro, Gerald (2015). 「増分データ割り当てによる準最適学習器の選択」arXiv : 1601.00024 [cs.LG].
  58. ^ Xu他「SemEval-2015 タスク1: Twitterにおける言い換えと意味的類似性 (PIT)」第9回国際意味評価ワークショップ議事録。2015年。
  59. ^ Xu他「Twitterからの語彙的に異なる言い換えの抽出」Transactions of the Association for Computational (TACL) 2014年。
  60. ^ Middleton, Stuart E; Middleton, Lee; Modafferi, Stefano (2014). 「ソーシャルメディアを用いた自然災害のリアルタイム危機マッピング」(PDF) . IEEE Intelligent Systems . 29 (2): 9– 17. Bibcode :2014IISys..29b...9M. doi :10.1109/MIS.2013.126. S2CID  15139204.
  61. ^ "geoparsepy". 2016年。Python PyPIライブラリ
  62. ^ Shmueli, Boaz; Ku, Lun-Wei; Ray, Soumya (2020). 「Reactive Supervision: A New Method for Collecting Sarcasm Data」. 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) Proceedings . Association for Computational Linguistics. pp.  2553– 2559. doi :10.18653/v1/2020.emnlp-main.201. S2CID  221970454.
  63. ^ シュムエリ、ボアズ。 「SPIRS 皮肉データセット」。GitHub
  64. ^ Gupta, Aakash (2020). 「オランダのソーシャルメディアコレクション」. COVID-19データハブ. doi :10.5072/FK2/MTPTL7 . 2023年11月11日閲覧
  65. ^ “Streamlit”. huggingface.co . 2020年12月18日閲覧
  66. ^ 「オランダのソーシャルメディアコレクション」kaggle.com . 2020年12月18日閲覧
  67. ^ Shmueli, Boaz; Ray, Soumya; Lun-Wei (2021). 「ハッピーダンス、スロークラップ:リアクションGIFを用いたTwitterにおける誘発感情の予測」. 計算言語学協会第59回年次会議および第11回国際自然言語処理合同会議議事録(第2巻:ショートペーパー). 計算言語学協会. pp.  395– 401. doi :10.18653/v1/2021.acl-short.50. S2CID  235125510.
  68. ^ Shmueli, Boaz (2023年5月5日)、ReactionGIF 、 2023年10月6日閲覧。
  69. ^ Forsyth, E., Lin, J., & Martell, C. (2008年6月25日). NPSチャットコーパス. http://faculty.nps.edu/cmartell/NPSChat.htmより
  70. ^ Sordoni, Alessandro; Galley, Michel; Auli, Michael; Brockett, Chris; Ji, Yangfeng; Mitchell, Margaret; Nie, Jian-Yun; Gao, Jianfeng; Dolan, Bill (2015). 「ニューラルネットワークによる文脈依存の会話応答生成」arXiv : 1506.06714 [cs.CL].
  71. ^ Shaoul, C. & Westbury C. (2013) A reduce redundancy USENET corpus (2005–2011) Edmonton, AB: University of Alberta (downloaded from http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html)
  72. ^ KAN, M. (2011年1月). NUSショートメッセージサービス(SMS)コーパス. http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/ より取得。2018年6月29日アーカイブ、Wayback Machineより
  73. ^ Stuck_In_the_Matrix (2015年7月3日). 研究のために、公開されているすべてのRedditコメントを所持しています。約17億件のコメントを250GB圧縮してあります。興味はありますか? [元の投稿]。投稿はhttps://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/です。
  74. ^ ロウ、ライアン、パウ、ニッサン、セルバン、ユリアン、ピノー、ジョエル (2015). 「Ubuntu対話コーパス:非構造化マルチターン対話システムの研究のための大規模データセット」arXiv : 1506.08909 [cs.CL].
  75. ^ ジェイソン・ウィリアムズ・アントワーヌ・ロー・マシュー・ヘンダーソン、「[1]」、対話と談話 | 2016 年 4 月。
  76. ^ Larson, S.; Mahendran, A.; Peper, JJ; Clarke, C.; Lee, A.; Hill, P.; Kummerfeld, JK; Leach, K.; Laurenzano, M.; Tang, L.; Mars, J. (2019). 「意図分類と範囲外予測のための評価データセット」. 2019年自然言語処理における経験的手法に関する会議および第9回自然言語処理国際合同会議 (EMNLP-IJCNLP) の議事録. 計算言語学協会. pp.  1311– 1316. doi :10.18653/v1/D19-1131. ISBN 978-1-4799-1805-8
  77. ^ Hoppe, Travis (2021年12月16日) The-Pile-FreeLaw 、 2023年1月11日閲覧。
  78. ^ Zheng, Lucia; Guha, Neel; Anderson, Brandon R.; Henderson, Peter; Ho, Daniel E. (2021年6月21日). 「事前学習はいつ役立つのか?」第18回人工知能と法律に関する国際会議議事録. ニューヨーク、ニューヨーク州、米国: ACM. pp.  159– 168. doi :10.1145/3462757.3466088. ISBN 978-1-4503-8526-8. S2CID  233296302。
  79. ^ “pile-of-law/pile-of-law · Datasets at Hugging Face”. huggingface.co . 2022年7月4日. 2023年1月11日閲覧
  80. ^ 「About | Caselaw Access Project」. case.law . 2023年1月11日閲覧
  81. ^ Roukos, Salim; Graff, David; Melamed, Dan (1995), Hansard French/English, Linguistic Data Consortium, doi :10.35111/JHGN-RV21 , 2025年2月26日閲覧
  82. ^ Kowsari, Kamran; Brown, Donald E.; Heidarysafa, Mojtaba; Jafari Meimandi, Kiana; Gerber, Matthew S.; Barnes, Laura E. (2017). 「HDLTex: テキスト分類のための階層的ディープラーニング」. 2017 第16回 IEEE 国際機械学習・応用会議 (ICMLA) . pp.  364– 371. arXiv : 1709.08267 . doi :10.1109/ICMLA.2017.0-134. ISBN 978-1-5386-1418-1
  83. ^ カムラン、コウサリ;ブラウン、ドナルド。ヘイダリサファ、モジタバ。ジャファリ・メイマンディ、キアナ。ガーバー、マシュー。ローラ・バーンズ (2018)。 「Web of Science データセット」。.メンデリー。土井:10.17632/9rw3vkcfy4.6。 {{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  84. ^ Galgani, Filippo, Paul Compton, Achim Hoffmann. 「法務文書における様々な要約手法の併用」テキストデータ処理における革新的なハイブリッドアプローチに関するワークショップ議事録。計算言語学協会、2012年。
  85. ^ Nagwani, NK (2015). 「MapReduceフレームワークに基づくトピックモデリングとクラスタリングを用いた大規模テキストコレクションの要約」. Journal of Big Data . 2 (1) 6: 1– 18. doi : 10.1186/s40537-015-0020-5 .
  86. ^ Schler, Jonathan; et al. (2006). 「年齢と性別がブログに与える影響」(PDF) . AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs . 6. 2020年11月14日時点のオリジナル(PDF)からのアーカイブ。2019年8月6日閲覧
  87. ^ アナンド、プラナフ他「信じてください。私たちにはできるんです!ブログテキストにおける説得行為の注釈付け」自然議論の計算モデル、2011年。
  88. ^ Traud, Amanda L., Peter J. Mucha, Mason A. Porter. 「Facebookネットワークの社会構造」『 Physica A: 統計力学とその応用』 391.16 (2012): 4165–4180.
  89. ^ リチャード、エミール;サヴァッレ、ピエールアンドレ。ヴァヤティス、ニコラス (2012)。 「スパース行列と低ランク行列の同時推定」。arXiv : 1206.6474 [cs.DS]。
  90. ^ リチャードソン, マシュー; バージェス, クリストファー JC; レンショー, エリン (2013). 「MCTest: オープンドメイン機械によるテキスト理解のためのチャレンジデータセット」. EMNLP . 1 .
  91. ^ ウェストン、ジェイソン、ボルデス、アントワーヌ、チョプラ、スミット、ラッシュ、アレクサンダー・M、バート・ヴァン・メリエンボア、ジョウリン、アルマンド、ミコロフ、トーマス (2015). 「AIによる完全な質問応答に向けて:前提条件となるトイタスクのセット」arXiv : 1502.05698 [cs.AI].
  92. ^ マーカス, ミッチェル P.; アン・マルチンキエヴィッチ, メアリー; サントリーニ, ベアトリス (1993). 「大規模注釈付き英語コーパスの構築:ペン・ツリーバンク」.計算言語学. 19 (2): 313– 330.
  93. ^ コリンズ、マイケル (2003). 「自然言語解析のための主辞駆動型統計モデル」.計算言語学. 29 (4): 589– 637. doi : 10.1162/089120103322753356 .
  94. ^ 「All Our N-gram are Belong to You」. research.google . 2006年8月3日. 2025年5月28日閲覧
  95. ^ 「Web 1T 5-gram バージョン1 - 言語データコンソーシアム」catalog.ldc.upenn.edu . 2006年9月19日. 2025年5月28日閲覧
  96. ^ Guyon, Isabelle, et al., eds.特徴抽出:基礎と応用. Vol. 207. Springer, 2008.
  97. ^ Lin, Yuri, et al. 「Google Books Ngramコーパスの構文注釈」ACL 2012システムデモンストレーション議事録。計算言語学協会、2012年。
  98. ^ Krishnamoorthy, Niveda; et al. (2013). 「テキストマイニングされた知識を用いた自然言語によるビデオ記述の生成」AAAI . 1. 2019年8月6日時点のオリジナルよりアーカイブ。 2019年8月6日閲覧
  99. ^ Luyckx, Kim; Daelemans, Walter (2008). 「Personae: テキストからの著者と性格予測のためのコーパス」.第6回国際言語資源評価会議LREC-2008議事録. hdl :10067/687330151162165141. ISBN 978-2-9517408-4-6
  100. ^ ソロリオ、タマール、ラギブ・ハサン、マイヌル・ミザン。 「ウィキペディアでのソックパペット検出のケーススタディ。」NAACL HLT でのソーシャルメディアにおける言語分析 (LASM) に関するワークショップ。 2013年。
  101. ^ “Pushshift Files”. files.pushshift.io . 2023年1月12日時点のオリジナルよりアーカイブ。 2023年1月12日閲覧
  102. ^ Baumgartner, Jason; Zannettou, Savvas; Keegan, Brian; Squire, Megan; Blackburn, Jeremy (2020年1月23日). 「Pushshift Redditデータセット」. arXiv : 2001.08435 [cs.SI].
  103. ^ Ciarelli, Patrick Marques; Oliveira, Elias (2009). 「次元削減のための項の凝集と除去」. 2009年 第9回 国際インテリジェントシステム設計・応用会議. pp.  547– 552. doi :10.1109/ISDA.2009.9. ISBN 978-1-4244-4735-0
  104. ^ 周, ミンユアン; パディージャ, オスカー・ヘルナン・マドリード; スコット, ジェームズ・G. (2016年7月2日). 「負の二項過程族から導出されるランダムカウント行列の事前分布」.アメリカ統計学会誌. 111 (515): 1144–1156 . arXiv : 1404.3331 . doi :10.1080/01621459.2015.1075407.
  105. ^ Kotzias, Dimitrios, et al. 「ディープフィーチャを用いたグループから個々のラベルへ」第21回ACM SIGKDD国際知識発見・データマイニング会議議事録。ACM、2015年。
  106. ^ Ning, Yue; Muthiah, Sathappan; Rangwala, Huzefa; Ramakrishnan, Naren (2016). 「ネストされたマルチインスタンス学習によるイベント予測のための前兆モデリング」arXiv : 1602.08033 [cs.SI].
  107. ^ Buza, Krisztian. 「ブログのフィードバック予測」データ分析、機械学習、知識発見. Springer International Publishing, 2014. 145–152.
  108. ^ Soysal, Ömer M (2015). 「主として関連するシーケンシャルパターンを用いた相関ルールマイニング」.エキスパートシステムとその応用. 42 (5): 2582– 2592. doi :10.1016/j.eswa.2014.10.049.
  109. ^ Zhu, Yukun, et al. 「本と映画の整合:映画鑑賞と読書による物語のような視覚的説明の実現に向けて」 IEEE国際コンピュータビジョン会議議事録。2015年。
  110. ^ Bowman, Samuel R.; Angeli, Gabor; Potts, Christopher; Manning, Christopher D. (2015). 「自然言語推論学習のための大規模注釈付きコーパス」arXiv : 1508.05326 [cs.CL].
  111. ^ 「DSLコーパスコレクション」. ttg.uni-saarland.de . 2017年9月22日閲覧
  112. ^ 「Urban Dictionary の単語と定義」。
  113. ^ H. Elsahar、P. Vougiouklis、A. Remaci、C. Gravier、J. Hare、F. Laforest、E. Simperl、「T-REx: 自然言語と知識ベーストリプルの大規模アライメント」、第11回国際言語資源評価会議(LREC-2018)の議事録。
  114. ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel R. (2018). 「GLUE: 自然言語理解のためのマルチタスクベンチマークおよび分析プラットフォーム」. arXiv : 1804.07461 [cs.CL].
  115. ^ 「コンピューターは読むことを学んでいるが、まだそれほど賢くはない」Wired . 2019年12月29日閲覧
  116. ^ 「GLUEベンチマーク」. gluebenchmark.com . 2019年2月25日閲覧
  117. ^ クアン、ホアン・ラム;クアン、デュイ・レ。ヴァン・キエット、グエン。ンガン、ルートゥイ・グエン。 「UIT-ViIC: ベトナム語の画像キャプションに関する最初の評価用のデータセット」。
  118. ^ To, Quoc Huy; Nguyen, Van Kiet; Nguyen, Luu Thuy Ngan; Nguyen, Gia Tuan Anh (2020). 「機械学習技術を用いたベトナム語名に基づく性別予測」.第4回国際自然言語処理・情報検索会議論文集. pp.  55– 60. arXiv : 2010.10852 . doi :10.1145/3443279.3443309. ISBN 978-1-4503-7760-7. S2CID  224814110。
  119. ^ Nguyen, Luan Thanh; Van Nguyen, Kiet; Nguyen, Ngan Luu-Thuy (2021年3月18日). 「ベトナム語におけるオープンドメインソーシャルメディアコメントの建設的および有害な発言の検出」.人工知能の進歩と動向. 人工知能実践. コンピュータサイエンス講義ノート. 第12798巻. pp.  572– 583. arXiv : 2103.10069 . doi :10.1007/978-3-030-79457-6_49. ISBN 978-3-030-79456-9. S2CID  232269671。
  120. ^ Saxton, David, et al. 「ニューラルモデルの数学的推論能力の分析」国際学習表現会議. 2018年.
  121. ^ ab Godfrey, JJ; Holliman, EC; McDaniel, J. (1992). 「SWITCHBOARD: 研究開発のための電話音声コーパス」[議事録] ICASSP-92: 1992 IEEE 国際音響・音声・信号処理会議. IEEE. pp. 517–520 vol.1. doi :10.1109/icassp.1992.225858. ISBN 0-7803-0532-9
  122. ^ ab "Switchboard-1 Release 2 - Linguistic Data Consortium". catalog.ldc.upenn.edu . 2024年11月30日閲覧
  123. ^ M. ヴァーステーグ、R. ティオリエール、T. シャッツ、X.-N. Cao、X. Anguera、A. Jansen、および E. Dupoux (2015)。 「ゼロ リソース スピーチ チャレンジ 2015」(INTERSPEECH-2015)
  124. ^ M. Versteegh、X. Anguera、A. Jansen、および E. Dupoux、(2016)。 SLTU-2016 の「ゼロ リソース スピーチ チャレンジ 2015: 提案されたアプローチと結果」。
  125. ^ Sakar, Betul Erdogdu; et al. (2013). 「複数種類の音声録音によるパーキンソン病音声データセットの収集と分析」. IEEE Journal of Biomedical and Health Informatics . 17 (4): 828– 834. Bibcode :2013IJBHI..17..828S. doi :10.1109/jbhi.2013.2245674. PMID  25055311. S2CID  15491516.
  126. ^ Zhao, Shunan; Rudzicz, Frank; Carvalho, Leonardo G.; Marquez-Chin, Cesar; Livingstone, Steven (2014). 「パーキンソン病における感情表現の自動検出」2014 IEEE 国際音響・音声・信号処理会議 (ICASSP) . pp.  4813– 4817. doi :10.1109/ICASSP.2014.6854516. ISBN 978-1-4799-2893-4
  127. ^ Hammami, Nacereddine; Bedda, Mouldi (2010年7月). 「アラビア語音声認識のための改良ツリーモデル」. 2010年第3回国際コンピュータサイエンス・情報技術会議. pp.  521– 526. doi :10.1109/ICCSIT.2010.5563892. ISBN 978-1-4244-5537-9
  128. ^ Maaten, Laurens. 「識別的フィッシャーカーネルの学習」第28回国際機械学習会議 (ICML-11) 議事録. 2011年.
  129. ^ コール、ロナルド、マーク・ファンティ。「音声文字認識」。第3回DARPA音声・自然言語ワークショップ議事録。1990年。
  130. ^ Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008). 「半教師ありサポートベクターマシンの最適化手法」(PDF) . The Journal of Machine Learning Research . 9 : 203– 233.
  131. ^ 工藤峰一; 外山純; 新保勝 (1999年11月). 「通過領域を用いた多次元曲線分類」.パターン認識レター. 20 ( 11–13 ): 1103–1111 . Bibcode :1999PaReL..20.1103K. doi :10.1016/s0167-8655(99)00077-x.
  132. ^ Jaeger, Herbert; Lukoševičius, Mantas; Popovici, Dan; Siewert, Udo (2007年4月). 「リーキーインテグレータニューロンを用いたエコー状態ネットワークの最適化と応用」. Neural Networks . 20 (3): 335– 352. doi :10.1016/j.neunet.2007.04.016. PMID  17517495.
  133. ^ Tsanas, A.; Little, MA; McSharry, PE; Ramig, LO (2010年4月). 「非侵襲的音声検査によるパーキンソン病進行の正確な遠隔モニタリング」. IEEE Transactions on Biomedical Engineering . 57 (4): 884– 893. Bibcode :2010ITBE...57..884T. doi :10.1109/tbme.2009.2036000. PMID  19932995.
  134. ^ Clifford, Gari D.; Clifton, David (2012). 「疾患管理と医療におけるワイヤレス技術」. Annual Review of Medicine . 63 : 479–492 . doi :10.1146/annurev-med-051210-114650. PMID  22053737.
  135. ^ Zue, Victor; Seneff, Stephanie; Glass, James (1990). 「MITにおける音声データベース開発:TIMITとその先」. Speech Communication . 9 (4): 351– 356. doi :10.1016/0167-6393(90)90010-7.
  136. ^ Kapadia, S.; Valtchev, V.; Young, SJ (1993). 「TIMITデータベースにおける連続音素認識のためのMMIトレーニング」. IEEE International Conference on Acoustics Speech and Signal Processing , Vol.2, pp. 491–494. doi :10.1109/ICASSP.1993.319349. ISBN 0-7803-0946-4
  137. ^ Halabi, Nawar (2016). 音声合成のための現代標準アラビア語音声学(PDF) (博士論文).サウサンプトン大学、電子情報科学部.
  138. ^ Ardila, Rosana; Branson, Megan; Davis, Kelly; Henretty, Michael; Kohler, Michael; Meyer, Josh; Morais, Reuben; Saunders, Lindsay; Tyers, Francis M.; Weber, Gregor (2019年12月13日). 「Common Voice: 大規模多言語音声コーパス」. arXiv : 1912.06670v2 [cs.CL].
  139. ^ 「LJ音声データセット」keithito.com . 2022年4月13日閲覧
  140. ^ Ghandoura, Abdulkader; Hjabo, Farouk; Al Dakkak, Oumayma (2021年6月). 「小規模なキーワードスポッティングのためのアラビア語音声コマンドデータセットの構築とベンチマーク」.人工知能のエンジニアリング応用. 102 104267. doi :10.1016/j.engappai.2021.104267.
  141. ^ 周, ファン; クレア, Q.; キング, ロス D. (2014). 「音楽の地理的起源の予測」. 2014 IEEE 国際データマイニング会議. pp.  1115– 1120. doi :10.1109/ICDM.2014.73. ISBN 978-1-4799-4302-9
  142. ^ Saccenti, Edoardo; Camacho, José (2015). 「PCAクロスバリデーションにおける観測ごとのk分割操作の利用について」. Journal of Chemometrics . 29 (8): 467– 478. doi :10.1002/cem.2726. hdl : 10481/55302 . S2CID  62248957.
  143. ^ Bertin-Mahieux, Thierry, et al. 「百万曲データセット」 ISMIR 2011: 第12回国際音楽情報検索学会会議議事録、2011年10月24~28日、フロリダ州マイアミ。マイアミ大学、2011年。
  144. ^ Henaff, Mikael; et al. (2011). 「スケーラブルな音声分類のためのスパース特徴量の教師なし学習」(PDF) . ISMIR . 11 .
  145. ^ Rafii, Zafar (2017). 「音楽」. MUSDB18 – 音楽分離のためのコーパス. doi :10.5281/zenodo.1117372.
  146. ^ ミカエル・デフェラール;ベンジー、キレル。ヴァンダーハインスト、ピエール。ザビエル・ブレッソン(2016年12月6日)。 「FMA: 音楽分析のためのデータセット」。arXiv : 1612.01840 [cs.SD]。
  147. ^ Esposito, Roberto; Radicioni, Daniele P. (2009). 「Carpediem: ビタビアルゴリズムの最適化と教師あり逐次学習への応用」(PDF) . The Journal of Machine Learning Research . 10 : 1851–1880 .
  148. ^ Sourati, Jamshid; et al. (2016). 「相互情報量に基づく分類能動学習」.エントロピー. 18 (2): 51. Bibcode :2016Entrp..18...51S. doi : 10.3390/e18020051 .
  149. ^ サラモン、ジャスティン、ヤコビー、クリストファー、ベロ、フアン・パブロ。「都市音響研究のためのデータセットと分類法」ACM国際マルチメディア会議議事録。ACM、2014年。
  150. ^ Lagrange, Mathieu; Lafay, Grégoire; Rossignol, Mathias; Benetos, Emmanouil; Roebel, Axel (2015). 「音響シーンの形態学的モデルを用いたイベント検出の評価フレームワーク」arXiv : 1502.00141 [stat.ML].
  151. ^ Gemmeke, Jort F., et al. 「オーディオセット:オーディオイベントのためのオントロジーと人間ラベル付きデータセット」 IEEE 国際音響・音声・信号処理会議(ICASSP)。2017年。
  152. ^ 「バードウォッチャーの皆さん、気をつけてください:人工知能が鳥の鳴き声から鳥の見分け方を学習」サイエンス | AAAS 2018年7月18日. 2018年7月22日閲覧
  153. ^ 「鳥の音声検出チャレンジ」クイーン・メアリー大学機械聴取ラボ2016年5月3日. 2018年7月22日閲覧
  154. ^ Wichern, Gordon; Antognini, Joe; Flynn, Michael; Licheng Richard Zhu; McQuinn, Emmett; Crow, Dwight; Manilow, Ethan; Jonathan Le Roux (2019). 「WHAM!:音声分離の雑音環境への拡張」arXiv : 1907.01160 [cs.SD].
  155. ^ Drossos, K., Lipping, S., Virtanen, T.「Clotho: オーディオキャプションデータセット」 IEEE 国際音響・音声・信号処理会議(ICASSP). 2020年。
  156. ^ Drossos, K.、Lipping, S.、および Virtanen, T. (2019)。 Croto データセット (バージョン 1.0) [データセット]。ゼノド。 http://doi.org/10.5281/zenodo.3490684
  157. ^ Witty Wormに関するCAIDA UCSDデータセット – 2004年3月19~24日、http://www.caida.org/data/passive/witty_worm_dataset.xml
  158. ^ Chen, Zesheng; Ji, Chuanyi (2007). 「脆弱なホスト分布を用いた最適なワームスキャン手法」. International Journal of Security and Networks . 2 (1/2): 71. doi :10.1504/IJSN.2007.012826.
  159. ^ Kachuee, Mohamad; Kiani, Mohammad Mahdi; Mohammadzade, Hoda; Shabany, Mahdi (2015). 「脈波伝播時間を用いたカフレス高精度キャリブレーションフリー血圧推定」. 2015 IEEE International Symposium on Circuits and Systems (ISCAS) . pp.  1006– 1009. doi :10.1109/ISCAS.2015.7168806. ISBN 978-1-4799-8391-9
  160. ^ Goldberger, Ary L.; Amaral, Luis AN; Glass, Leon; Hausdorff, Jeffrey M.; Ivanov, Plamen Ch.; Mark, Roger G.; Mietus, Joseph E.; Moody, George B.; Peng, Chung-Kang; Stanley, H. Eugene (2000年6月13日). 「PhysioBank, PhysioToolkit, and PhysioNet: Components of a New Research Resource for Complex Physiologic Signals. Circulation . 101 (23): E215-20. doi :10.1161/01.CIR.101.23.e215. PMID  10851218.
  161. ^ Vergara, Alexander; et al. (2012). 「分類器アンサンブルを用いた化学ガスセンサーのドリフト補正」Sensors and Actuators B: Chemical . 166 : 320– 329. Bibcode :2012SeAcB.166..320V. doi :10.1016/j.snb.2012.01.074.
  162. ^ Korotcenkov, G.; Cho, BK (2014). 「導電率ガスセンサーパラメータの改善に向けた工学的アプローチ。第2部:消費電力の低減と安定性および信頼性の向上」. Sensors and Actuators B: Chemical . 198 : 316– 341. Bibcode :2014SeAcB.198..316K. doi :10.1016/j.snb.2014.03.069.
  163. ^ Quinlan, John R (1992). 「連続クラスによる学習」(PDF) .第5回オーストラリア人工知能合同会議. 92 .
  164. ^ Merz, Christopher J.; Pazzani, Michael J. (1999). 「主成分分析による回帰推定値の統合」.機械学習. 36 ( 1–2 ): 9– 32. doi : 10.1023/a:1007507221352 .
  165. ^ Torres-Sospedra, Joaquin, et al. 「UJIIndoorLoc-Mag: 磁場ベースの位置推定問題のための新しいデータベース」屋内測位と屋内ナビゲーション(IPIN)、2015年国際会議。IEEE、2015年。
  166. ^ Berkvens, Rafael, Maarten Weyn, Herbert Peremans. 「確率的Wi-Fi位置推定における平均相互情報量」屋内測位と屋内ナビゲーション(IPIN)、2015年国際会議。カナダ、バンフ:IPIN。2015年。
  167. ^ パシュケ、ファビアン、他。 「センサーを失いました、同期モーターレン。」議事録。 23. ワークショップ コンピューティング インテリジェンス、ドルトムント、5.-6. 2013 年 12 月。 KIT 科学出版、2013 年。
  168. ^ Lessmeier, Christian, et al. "Data Acquisition and Signal Analysis from Measured Motor Currents for Defect Detection in Electromechanical Drive Systems."
  169. ^ Ugulino, Wallace, et al. "Wearable computing: Accelerometers' data classification of body postures and movements Archived 25 September 2020 at the Wayback Machine." Advances in Artificial Intelligence-SBIA 2012. Springer Berlin Heidelberg, 2012. 52–61.
  170. ^ Schneider, Jan; et al. (2015). "Augmenting the senses: a review on sensor-based learning support". Sensors. 15 (2): 4097–4133. Bibcode:2015Senso..15.4097S. doi:10.3390/s150204097. PMC 4367401. PMID 25679313.
  171. ^ Madeo, Renata CB, Clodoaldo AM Lima, and Sarajane M. Peres. "Gesture unit segmentation using support vector machines: segmenting gestures from rest positions." Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013.
  172. ^ Lun, Roanna; Zhao, Wenbing (2015). "A survey of applications and human motion recognition with Microsoft Kinect". International Journal of Pattern Recognition and Artificial Intelligence. 29 (5): 1555008. doi:10.1142/s0218001415550083.
  173. ^ Theodoridis, Theodoros; Huosheng Hu (2007). "Action classification of 3D human models using dynamic ANNs for mobile robot surveillance". 2007 IEEE International Conference on Robotics and Biomimetics (ROBIO). pp. 371–376. doi:10.1109/ROBIO.2007.4522190. ISBN 978-1-4244-1761-2.
  174. ^ Etemad, Seyed Ali; Arya, Ali (2009). "3D human action recognition and style transformation using resilient backpropagation neural networks". 2009 IEEE International Conference on Intelligent Computing and Intelligent Systems. pp. 296–301. doi:10.1109/ICICISYS.2009.5357690. ISBN 978-1-4244-4754-1.
  175. ^ Altun, Kerem; Barshan, Billur; Tunçel, Orkun (2010). "Comparative study on classifying human activities with miniature inertial and magnetic sensors". Pattern Recognition. 43 (10): 3605–3620. Bibcode:2010PatRe..43.3605A. doi:10.1016/j.patcog.2010.04.019. hdl:11693/11947.
  176. ^ Nathan, Ran; et al. (2012). "Using tri-axial acceleration data to identify behavioral modes of free-ranging animals: general concepts and tools illustrated for griffon vultures". The Journal of Experimental Biology. 215 (6): 986–996. Bibcode:2012JExpB.215..986N. doi:10.1242/jeb.058602. PMC 3284320. PMID 22357592.
  177. ^ Anguita, Davide, et al. "Human activity recognition on smartphones using a multiclass hardware-friendly support vector machine." Ambient assisted living and home care. Springer Berlin Heidelberg, 2012. 216–223.
  178. ^ Su, Xing; Tong, Hanghang; Ji, Ping (2014). "Activity recognition with smartphone sensors". Tsinghua Science and Technology. 19 (3): 235–249. doi:10.1109/tst.2014.6838194. S2CID 62751498.
  179. ^ Kadous, Mohammed Waleed. Temporal classification: Extending the classification paradigm to multivariate time series. Diss. The University of New South Wales, 2002.
  180. ^ Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. ACM, 2006.
  181. ^ Velloso, Eduardo, et al. "Qualitative activity recognition of weight lifting exercises."Proceedings of the 4th Augmented Human International Conference. ACM, 2013.
  182. ^ Mortazavi, Bobak Jack, et al. "Determining the single best axis for exercise repetition recognition and counting on smartwatches Archived 4 November 2021 at the Wayback Machine." Wearable and Implantable Body Sensor Networks (BSN), 2014 11th International Conference on. IEEE, 2014.
  183. ^ Sapsanis, Christos, et al. "Improving EMG based Classification of basic hand movements using EMD." Engineering in Medicine and Biology Society (EMBC), 2013 35th Annual International Conference of the IEEE. IEEE, 2013.
  184. ^ a b Andrianesis, Konstantinos; Tzes, Anthony (2015). "Development and control of a multifunctional prosthetic hand with shape memory alloy actuators". Journal of Intelligent & Robotic Systems. 78 (2): 257–289. doi:10.1007/s10846-014-0061-6. S2CID 207174078.
  185. ^ Banos, Oresti; et al. (2014). "Dealing with the effects of sensor displacement in wearable activity recognition". Sensors. 14 (6): 9995–10023. Bibcode:2014Senso..14.9995B. doi:10.3390/s140609995. PMC 4118358. PMID 24915181.
  186. ^ Stisen, Allan; Blunck, Henrik; Bhattacharya, Sourav; Prentow, Thor Siiger; Kjærgaard, Mikkel Baun; Dey, Anind; Sonne, Tobias; Jensen, Mads Møller (2015). "Smart Devices are Different: Assessing and MitigatingMobile Sensing Heterogeneities for Activity Recognition". Proceedings of the 13th ACM Conference on Embedded Networked Sensor Systems. pp. 127–140. doi:10.1145/2809695.2809718. ISBN 978-1-4503-3631-4.
  187. ^ Bhattacharya, Sourav; Lane, Nicholas D. (2016). "From smart to deep: Robust activity recognition on smartwatches using deep learning". 2016 IEEE International Conference on Pervasive Computing and Communication Workshops (PerCom Workshops). pp. 1–6. doi:10.1109/PERCOMW.2016.7457169. ISBN 978-1-5090-1941-0.
  188. ^ Bacciu, Davide; et al. (2014). "An experimental characterization of reservoir computing in ambient assisted living applications". Neural Computing and Applications. 24 (6): 1451–1464. doi:10.1007/s00521-013-1364-4. hdl:11568/237959. S2CID 14124013.
  189. ^ Palumbo, Filippo; Barsocchi, Paolo; Gallicchio, Claudio; Chessa, Stefano; Micheli, Alessio (2013). "Multisensor Data Fusion for Activity Recognition Based on Reservoir Computing". Evaluating AAL Systems Through Competitive Benchmarking. Communications in Computer and Information Science. Vol. 386. pp. 24–35. doi:10.1007/978-3-642-41043-7_3. ISBN 978-3-642-41042-0.
  190. ^ Reiss, Attila; Stricker, Didier (2012). "Introducing a New Benchmarked Dataset for Activity Monitoring". 2012 16th International Symposium on Wearable Computers. pp. 108–109. doi:10.1109/ISWC.2012.13. ISBN 978-0-7695-4697-1.
  191. ^ Roggen, Daniel; Forster, Kilian; Calatroni, Alberto; Holleczek, Thomas; Fang, Yu; Troster, Gerhard; Ferscha, Alois; Holzmann, Clemens; Riener, Andreas; Lukowicz, Paul; Pirkl, Gerald; Bannach, David; Kunze, Kai; Chavarriaga, Ricardo; Millan, Jose del R. (2009). "OPPORTUNITY: Towards opportunistic activity and context recognition systems". 2009 IEEE International Symposium on a World of Wireless, Mobile and Multimedia Networks & Workshops. pp. 1–6. doi:10.1109/WOWMOM.2009.5282442. ISBN 978-1-4244-4440-3.
  192. ^ Kurz, Marc, et al. "Dynamic quantification of activity recognition capabilities in opportunistic systems." Vehicular Technology Conference (VTC Spring), 2011 IEEE 73rd. IEEE, 2011.
  193. ^ Sztyler, Timo; Stuckenschmidt, Heiner (2016). "On-body localization of wearable devices: An investigation of position-aware activity recognition". 2016 IEEE International Conference on Pervasive Computing and Communications (PerCom). pp. 1–9. doi:10.1109/PERCOM.2016.7456521. ISBN 978-1-4673-8779-8.
  194. ^ Zhi, Ying Xuan; Lukasik, Michelle; Li, Michael H.; Dolatabadi, Elham; Wang, Rosalie H.; Taati, Babak (2018). "Automatic Detection of Compensation During Robotic Stroke Rehabilitation Therapy". IEEE Journal of Translational Engineering in Health and Medicine. 6: 1–7. Bibcode:2018IJTEH...6E0836Z. doi:10.1109/JTEHM.2017.2780836. PMC 5788403. PMID 29404226.
  195. ^ Dolatabadi, Elham; Zhi, Ying Xuan; Ye, Bing; Coahran, Marge; Lupinacci, Giorgia; Mihailidis, Alex; Wang, Rosalie; Taati, Babak (2017). "The toronto rehab stroke pose dataset to detect compensation during stroke rehabilitation therapy". Proceedings of the 11th EAI International Conference on Pervasive Computing Technologies for Healthcare. pp. 375–381. doi:10.1145/3154862.3154925. ISBN 978-1-4503-6363-1.
  196. ^ "Toronto Rehab Stroke Pose Dataset".
  197. ^ Jung, Merel M.; Poel, Mannes; Poppe, Ronald; Heylen, Dirk K. J. (March 2017). "Automatic recognition of touch gestures in the corpus of social touch". Journal on Multimodal User Interfaces. 11 (1): 81–96. doi:10.1007/s12193-016-0232-9.
  198. ^ Jung, M. M. (Merel) (1 June 2016). "Corpus of Social Touch (CoST)". University of Twente. doi:10.4121/uuid:5ef62345-3b3e-479c-8e1d-c922748c9b29. {{cite journal}}: Cite journal requires |journal= (help)
  199. ^ Aeberhard, S., D. Coomans, and O. De Vel. "Comparison of classifiers in high dimensional settings." Dept. Math. Statist., James Cook Univ., North Queensland, Australia, Tech. Rep 92-02 (1992).
  200. ^ Basu, Sugato. "Semi-supervised clustering with limited background knowledge." AAAI. 2004.
  201. ^ Tüfekci, Pınar (2014). "Prediction of full load electrical power output of a base load operated combined cycle power plant using machine learning methods". International Journal of Electrical Power & Energy Systems. 60: 126–140. Bibcode:2014IJEPE..60..126T. doi:10.1016/j.ijepes.2014.02.027.
  202. ^ Kaya, Heysem, Pınar Tüfekci, and Fikret S. Gürgen. "Local and global learning methods for predicting power of a combined gas & steam turbine." International conference on emerging trends in computer and electronics engineering (ICETCEE'2012), Dubai. 2012.
  203. ^ Rodriguez, Austin; Smith, Justin S.; Mendoza-Cortés, José L. (2025). "Does Hessian Data Improve the Performance of Machine Learning Potentials?". Journal of Chemical Theory and Computation. 21 (14): 6698–6710. arXiv:2503.07839. Bibcode:2025JCTC...21.6698R. doi:10.1021/acs.jctc.5c00402. PMC 12288065. PMID 40601303.
  204. ^ Rodriguez, Austin; Smith, Justin S.; Mendoza-Cortes, Jose L. (2025). "OpenREACT-CHON-EFH — Open REaction Dataset of Atomic ConfiguraTions comprising C, H, O, N with Energies, Forces, and Hessians". 4. Figshare. Retrieved 30 May 2025.
  205. ^ Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2014). "Searching for exotic particles in high-energy physics with deep learning". Nature Communications. 5 4308: 2014. arXiv:1402.4735. Bibcode:2014NatCo...5.4308B. doi:10.1038/ncomms5308. PMID 24986233. S2CID 195953.
  206. ^ a b Baldi, Pierre; Sadowski, Peter; Whiteson, Daniel (2015). "Enhanced Higgs Boson to τ+ τ− Search with Deep Learning". Physical Review Letters. 114 (11) 111801. arXiv:1410.3469. Bibcode:2015PhRvL.114k1801B. doi:10.1103/physrevlett.114.111801. PMID 25839260. S2CID 2339142.
  207. ^ a b Adam-Bourdarios, C.; Cowan, G.; Germain-Renaud, C.; Guyon, I.; Kégl, B.; Rousseau, D. (2015). "The Higgs Machine Learning Challenge". Journal of Physics: Conference Series. 664 (7) 072015. Bibcode:2015JPhCS.664g2015A. doi:10.1088/1742-6596/664/7/072015.
  208. ^ Baldi, Pierre; Cranmer, Kyle; Faucett, Taylor; Sadowski, Peter; Whiteson, Daniel (2016). "Parameterized neural networks for high-energy physics". The European Physical Journal C. 76 (5): 235. arXiv:1601.07913. Bibcode:2016EPJC...76..235B. doi:10.1140/epjc/s10052-016-4099-4. S2CID 254108545.
  209. ^ Ortigosa, I.; Lopez, R.; Garcia, J. "A neural networks approach to residuary resistance of sailing yachts prediction". Proceedings of the International Conference on Marine Engineering MARINE. 2007.
  210. ^ Gerritsma, J., R. Onnink, and A. Versluis.Geometry, resistance and stability of the delft systematic yacht hull series. Delft University of Technology, 1981.
  211. ^ Liu, Huan, and Hiroshi Motoda. Feature extraction, construction and selection: A data mining perspective. Springer Science & Business Media, 1998.
  212. ^ Reich, Yoram. Converging to Ideal Design Knowledge by Learning. [Carnegie Mellon University], Engineering Design Research Center, 1989.
  213. ^ Todorovski, Ljupčo; Džeroski, Sašo (1999). "Experiments in Meta-level Learning with ILP". Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 1704. pp. 98–106. doi:10.1007/978-3-540-48247-5_11. ISBN 978-3-540-66490-1. S2CID 39382993.
  214. ^ Wang, Yong. A new approach to fitting linear models in high dimensional spaces. Diss. The University of Waikato, 2000.
  215. ^ Kibler, Dennis; Aha, David W.; Albert, Marc K. (1989). "Instance-based prediction of real-valued attributes". Computational Intelligence. 5 (2): 51–57. doi:10.1111/j.1467-8640.1989.tb00315.x. S2CID 40800413.
  216. ^ Palmer, Christopher R.; Faloutsos, Christos (2003). "Electricity Based External Similarity of Categorical Attributes". Advances in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science. Vol. 2637. pp. 486–500. doi:10.1007/3-540-36175-8_49. ISBN 978-3-540-04760-5.
  217. ^ Tsanas, Athanasios; Xifara, Angeliki (2012). "Accurate quantitative estimation of energy performance of residential buildings using statistical machine learning tools". Energy and Buildings. 49: 560–567. Bibcode:2012EneBu..49..560T. doi:10.1016/j.enbuild.2012.03.003.
  218. ^ De Wilde, Pieter (2014). "The gap between predicted and measured energy performance of buildings: A framework for investigation". Automation in Construction. 41: 40–49. doi:10.1016/j.autcon.2014.02.009.
  219. ^ Brooks, Thomas F., D. Stuart Pope, and Michael A. Marcolini. Airfoil self-noise and prediction. Vol. 1218. National Aeronautics and Space Administration, Office of Management, Scientific and Technical Information Division, 1989.
  220. ^ Draper, David. "Assessment and propagation of model uncertainty." Journal of the Royal Statistical Society, Series B (Methodological) (1995): 45–97.
  221. ^ Lavine, Michael (1991). "Problems in extrapolation illustrated with space shuttle O-ring data". Journal of the American Statistical Association. 86 (416): 919–921. doi:10.1080/01621459.1991.10475132.
  222. ^ Wang, J.; Yu, B.; Gasser, L. (2002). "Concept tree based clustering visualization with shaded similarity matrices". 2002 IEEE International Conference on Data Mining, 2002. Proceedings. pp. 697–700. doi:10.1109/ICDM.2002.1184032. ISBN 0-7695-1754-4.
  223. ^ Pettengill, Gordon H.; Ford, Peter G.; Johnson, William T. K.; Raney, R. Keith; Soderblom, Laurence A. (12 April 1991). "Magellan: Radar Performance and Data Products". Science. 252 (5003): 260–265. Bibcode:1991Sci...252..260P. doi:10.1126/science.252.5003.260. PMID 17769272.
  224. ^ a b Aharonian, F.; et al. (2008). "Energy spectrum of cosmic-ray electrons at TeV energies". Physical Review Letters. 101 (26) 261104. arXiv:0811.3894. Bibcode:2008PhRvL.101z1104A. doi:10.1103/PhysRevLett.101.261104. hdl:2440/51450. PMID 19437632. S2CID 41850528.
  225. ^ Bock, R. K.; et al. (2004). "Methods for multidimensional event classification: a case study using images from a Cherenkov gamma-ray telescope". Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment. 516 (2): 511–528. Bibcode:2004NIMPA.516..511B. doi:10.1016/j.nima.2003.08.157.
  226. ^ Li, Jinyan; et al. (2004). "Deeps: A new instance-based lazy discovery and classification system". Machine Learning. 54 (2): 99–124. doi:10.1023/b:mach.0000011804.08528.7d.
  227. ^ Villaescusa-Navarro, Francisco; al., et (2022). "The CAMELS Multifield Data Set: Learning the Universe's Fundamental Parameters with Artificial Intelligence". The Astrophysical Journal Supplement Series. 259 (2): 61. arXiv:2109.10915. Bibcode:2022ApJS..259...61V. doi:10.3847/1538-4365/ac5ab0. S2CID 237604997.
  228. ^ Siebert, Lee, and Tom Simkin. "Volcanoes of the world: an illustrated catalog of Holocene volcanoes and their eruptions." (2014).
  229. ^ Sikora, Marek; Wróbel, Łukasz (2010). "Application of rule induction algorithms for analysis of data collected by seismic hazard monitoring systems in coal mines". Archives of Mining Sciences. 55 (1): 91–114.
  230. ^ Sikora, Marek; Sikora, Beata (2012). "Rough Natural Hazards Monitoring". Rough Sets: Selected Methods and Applications in Management and Engineering. Advanced Information and Knowledge Processing. pp. 163–179. doi:10.1007/978-1-4471-2760-4_10. ISBN 978-1-4471-2759-8.
  231. ^ Addor, Nans; Newman, Andrew J.; Mizukami, Naoki; Clark, Martyn P. (20 October 2017). "The CAMELS data set: catchment attributes and meteorology for large-sample studies". Hydrology and Earth System Sciences. 21 (10): 5293–5313. Bibcode:2017HESS...21.5293A. doi:10.5194/hess-21-5293-2017.
  232. ^ Newman, A. J.; Clark, M. P.; Sampson, K.; Wood, A.; Hay, L. E.; Bock, A.; Viger, R. J.; Blodgett, D.; Brekke, L.; Arnold, J. R.; Hopson, T.; Duan, Q. (14 January 2015). "Development of a large-sample watershed-scale hydrometeorological data set for the contiguous USA: data set characteristics and assessment of regional variability in hydrologic model performance". Hydrology and Earth System Sciences. 19 (1): 209–223. Bibcode:2015HESS...19..209N. doi:10.5194/hess-19-209-2015.
  233. ^ Alvarez-Garreton, Camila; Mendoza, Pablo A.; Boisier, Juan Pablo; Addor, Nans; Galleguillos, Mauricio; Zambrano-Bigiarini, Mauricio; Lara, Antonio; Puelma, Cristóbal; Cortes, Gonzalo; Garreaud, Rene; McPhee, James; Ayala, Alvaro (13 November 2018). "The CAMELS-CL dataset: catchment attributes and meteorology for large sample studies – Chile dataset". Hydrology and Earth System Sciences. 22 (11): 5817–5846. Bibcode:2018HESS...22.5817A. doi:10.5194/hess-22-5817-2018.
  234. ^ Chagas, Vinícius B. P.; Chaffe, Pedro L. B.; Addor, Nans; Fan, Fernando M.; Fleischmann, Ayan S.; Paiva, Rodrigo C. D.; Siqueira, Vinícius A. (8 September 2020). "CAMELS-BR: hydrometeorological time series and landscape attributes for 897 catchments in Brazil". Earth System Science Data. 12 (3): 2075–2096. Bibcode:2020ESSD...12.2075C. doi:10.5194/essd-12-2075-2020.
  235. ^ Coxon, Gemma; Addor, Nans; Bloomfield, John P.; Freer, Jim; Fry, Matt; Hannaford, Jamie; Howden, Nicholas JK; Lane, Rosanna; Lewis, Melinda; Robinson, Emma L.; Wagener, Thorsten; Woods, Ross (2020年10月12日). 「CAMELS-GB: hydrometeorological time series and landscape properties for 671 catchments in Great Britain. Earth System Science Data . 12 (4): 2459– 2483. Bibcode :2020ESSD...12.2459C. doi : 10.5194/essd-12-2459-2020 .
  236. ^ Fowler, Keirnan JA; Acharya, Suwash Chandra; Addor, Nans; Chou, Chihchung; Peel, Murray C. (2021年8月6日). 「CAMELS-AUS: オーストラリアの222の集水域における水文気象学的時系列と景観特性」.地球システム科学データ. 13 (8): 3847– 3867. Bibcode :2021ESSD...13.3847F. doi : 10.5194/essd-13-3847-2021 .
  237. ^ Klingler, Christoph; Schulz, Karsten; Herrnegger, Mathew (2021年9月16日). 「LamaH-CE: 中央ヨーロッパの水文学および環境科学のための大規模サンプルデータ」.地球システム科学データ. 13 (9): 4529– 4565. Bibcode :2021ESSD...13.4529K. doi : 10.5194/essd-13-4529-2021 .
  238. ^ Yeh, I–C (1998). 「人工ニューラルネットワークを用いた高性能コンクリートの強度モデリング」.セメント・コンクリート研究. 28 (12): 1797– 1808. doi :10.1016/s0008-8846(98)00165-3.
  239. ^ Zarandi, MH Fazel; et al. (2008). 「コンクリートの圧縮強度の近似値を求めるためのファジー多項式ニューラルネットワーク」. Applied Soft Computing . 8 (1): 488– 498. Bibcode :2008ApSoC...8...79S. doi :10.1016/j.asoc.2007.02.010.
  240. ^ Yeh, I.「フライアッシュと高性能減水剤を用いたコンクリートのスランプモデリング」 Computers and Concrete 5.6 (2008): 559–572.
  241. ^ Gencel, Osman; et al. (2011). 「コンクリートの摩耗解析における人工ニューラルネットワークと一般線形モデルアプローチの比較」.建設・建築材料. 25 (8): 3486– 3494. doi :10.1016/j.conbuildmat.2011.03.040.
  242. ^ Dietterich, Thomas G., et al. 「薬物活性予測における動的再配置と接線距離の比較」(2019年12月7日アーカイブ、Wayback MachineAdvances in Neural Information Processing Systems(1994年):216–216。
  243. ^ Buscema, Massimo; Tastle, William J.; Terzi, Stefano (2013). 「Meta Net: A New Meta-Classifier Family」.人工適応システムを用いたデータマイニングアプリケーション. pp.  141– 182. doi :10.1007/978-1-4614-4223-3_5. ISBN 978-1-4614-4222-6
  244. ^ バーナード、アマンダ;孫、白川。モテヴァリ・ソウメサラエイ、ベン。 & Opletal、ジョージ (2019): 銀ナノ粒子データセット。 v3.シロ。データ収集。 https://doi.org/10.25919/5d22d20bc543e
  245. ^ バーナード、アマンダ;孫、白川。 & Opletal、ジョージ (2019): プラチナ ナノ粒子データ セット。 v2.シロ。データ収集。 https://doi.org/10.25919/5d3958d9bf5f7
  246. ^ バーナード、アマンダ; オプレタル、ジョージ (2019): 金ナノ粒子データセット v1. CSIRO. データ収集. https://doi.org/10.25919/5d395ef9a4291
  247. ^ バーナード、アマンダ; オプレタル、ジョージ (2019): ルテニウムナノ粒子データセット v1. CSIRO. データ収集. https://doi.org/10.25919/5e30b8fa67484
  248. ^ バーナード、アマンダ; オプレタル、ジョージ (2019): 銅ナノ粒子データセット v1. CSIRO. データ収集. https://doi.org/10.25919/5e30ba386311f
  249. ^ バーナード、アマンダ; オプレタル、ジョージ (2023): パラジウムナノ粒子データセット v2. CSIRO. データ収集. https://doi.org/10.25919/epxd-8p61
  250. ^ Ting, Jonathan; Barnard, Amanda; Opletal, George (2023): AuCoナノ粒子データセット. v2. CSIRO. データ収集. https://doi.org/10.25919/7h3x-1343
  251. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtCoナノ粒子データセット. v1. CSIRO. データ収集. https://doi.org/10.25919/jzh8-rd31
  252. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtAuナノ粒子データセット. v1. CSIRO. データ収集. https://doi.org/10.25919/tdnv-jp30
  253. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdPtナノ粒子データセット. v1. CSIRO. データ収集. https://doi.org/10.25919/qced-2e85
  254. ^ ティン、ジョナサン;バーナード、アマンダ。 & Opletal、George (2023): PdCo ナノ粒子データ セット。 v1.シロ。データ収集。 https://doi.org/10.25919/az9t-vr97
  255. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoPtナノ粒子データセット. v1. CSIRO. データ収集. https://doi.org/10.25919/0bs4-sn79
  256. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoPdナノ粒子データセット. v1. CSIRO. データ収集. https://doi.org/10.25919/em3a-9a89
  257. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): CoAuナノ粒子データセット. v1. CSIRO. データ収集. https://doi.org/10.25919/991j-hg07
  258. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPtナノ粒子データセット. v1. CSIRO. データ収集. https://doi.org/10.25919/7zh9-3f67
  259. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PtPdナノ粒子データセット. v1. CSIRO. データ収集. https://doi.org/10.25919/9sz9-3a85
  260. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): PdAuナノ粒子データセット. v1. CSIRO. データ収集. https://doi.org/10.25919/6ajg-1275
  261. ^ Ting, Jonathan; Barnard, Amanda; & Opletal, George (2023): AuPdナノ粒子データセット. v1. CSIRO. データ収集. https://doi.org/10.25919/v0r5-sw08
  262. ^ ルー、カイハン;ティン、ジョナサン。バーナード、アマンダ。 & Opletal、George (2023): AuPdPt ナノ粒子データセット。 v1.シロ。データ収集。 https://doi.org/10.25919/psvw-am47
  263. ^ Amoradnejad, Issa; Amoradnejad, Rahimberdi; et al. (2022). 「年齢データセット:122万人の著名人の人生、仕事、そして死に関する構造化された汎用データセット」.第16回国際AAAIウェブ・ソーシャルメディア会議ワークショップ議事録. 3. ICWSM: 1–4 . doi :10.36190/2022.82. S2CID  249668669.
  264. ^ 「年齢データセット」GitHub 2022年6月7日
  265. ^ “Synthetic Fundus Dataset”. 2021年11月29日時点のオリジナルよりアーカイブ2023年2月22日閲覧。
  266. ^ Lo Castro, Dario; et al. (2020). 「診断目的のためのフォトリアリスティックな網膜血管を作成するための視覚フレームワーク」Journal of Biomedical Informatics . 108 103490. doi :10.1016/j.jbi.2020.103490. PMID  32640292. S2CID  220429697.
  267. ^ Ingber, Lester (1997). 「大脳新皮質相互作用の統計力学:脳波の標準運動量指標」. Physical Review E. 55 ( 4): 4578– 4593. arXiv : physics/0001052 . Bibcode :1997PhRvE..55.4578I. doi :10.1103/PhysRevE.55.4578. S2CID  6390999.
  268. ^ ホフマン, ウルリッヒ; ヴェシン, ジャン=マルク; エブラヒミ, トゥラジ; ディセレンス, カリン (2008年1月). 「障害者のための効率的なP300ベースの脳–コンピュータインターフェース」. Journal of Neuroscience Methods . 167 (1): 115– 125. doi :10.1016/j.jneumeth.2007.03.005. PMID  17445904.
  269. ^ ドンチン, エマニュエル; スペンサー, ケビン・M.; ウィジェシンゲ, ランジス (2000). 「メンタルプロテーゼ:P300ベースの脳コンピュータインターフェースの速度評価」. IEEE Transactions on Rehabilitation Engineering . 8 (2): 174– 179. Bibcode :2000ITRE....8..174D. doi :10.1109/86.847808. PMID  10896179. S2CID  84043.
  270. ^ Detrano, Robert; et al. (1989). 「冠動脈疾患診断のための新しい確率アルゴリズムの国際的応用」. The American Journal of Cardiology . 64 (5): 304– 310. doi :10.1016/0002-9149(89)90524-9. PMID  2756873.
  271. ^ Bradley, Andrew P (1997). 「機械学習アルゴリズムの評価におけるROC曲線下面積の利用」(PDF) .パターン認識. 30 (7): 1145– 1159. Bibcode :1997PatRe..30.1145B. doi :10.1016/s0031-3203(96)00142-2. S2CID  13806304.
  272. ^ Street, WN; Wolberg, WH; Mangasarian, OL (1993). 「乳がん診断のための核特徴抽出」 Acharya, Raj S.; Goldgof, Dmitry B. (編). Biomedical Image Processing and Biomedical Visualization . Vol. 1905. pp.  861– 870. doi :10.1117/12.148698.
  273. ^ Demir, Cigdem; Yener, Bülent (2005). 組織病理学的画像に基づく自動癌診断:体系的調査(PDF) (報告書). S2CID  8952443.
  274. ^ 薬物乱用。「精神保健サービス局、『2010年薬物使用と健康に関する全国調査の結果:全国調査結果の要約』NSDUHシリーズH-41、HHS出版物番号(SMA)11-4658」メリーランド州ロックビル:薬物乱用・精神保健サービス局201(2011年)。
  275. ^ Hong, Zi-Quan; Yang, Jing-Yu (1991). 「少数サンプルに対する最適判別平面と平面上の分類器の設計法」.パターン認識. 24 (4): 317– 324. Bibcode :1991PatRe..24..317H. doi :10.1016/0031-3203(91)90074-f.
  276. ^ ab Li, Jinyan; Wong, Limsoon (2003). 「ルールを用いたバイオメディカルデータの分析:C4.5とPCLの比較」. Web時代の情報管理の進歩. コンピュータサイエンス講義ノート. 第2762巻. pp.  254– 265. doi :10.1007/978-3-540-45160-0_25. ISBN 978-3-540-40715-7
  277. ^ Guvenir, HA; Acar, B.; Demiroz, G.; Cekin, A. (1997). 「不整脈解析のための教師あり機械学習アルゴリズム」Computers in Cardiology 1997. pp.  433– 436. doi :10.1109/CIC.1997.647926. hdl :11693/27699. ISBN 0-7803-4445-6
  278. ^ Lagus, Krista; Alhoniemi, Esa; Seppä, Jeremias; Honkela, Antti; Wagner, Paul (2005). 「データのコンパクト表現学習における独立変数グループ分析」(PDF) .適応的知識表現と推論に関する国際学際会議 (AKRR'05), ヘルシンキ, フィンランド, 2005年6月15日~17日. pp.  49~ 56.
  279. ^ Strack, Beata; Deshazo, Jonathan P.; Gennings, Chris; Olmo, Juan L.; Ventura, Sebastian; Cios, Krzysztof J.; Clore, John N. (2014). 「HbA1c測定による入院再入院率への影響:70,000件の臨床データベース患者記録の分析」BioMed Research International : 1–11 . doi : 10.1155/2014/781670 . PMC 3996476. PMID  24804245 . 
  280. ^ Rubin, Daniel J (2015). 「糖尿病患者の再入院」Current Diabetes Reports . 15 (4) 17: 1– 9. doi :10.1007/s11892-015-0584-7. PMID  25712258. S2CID  3908599.
  281. ^ Antal, Bálint; Hajdu, András (2014). 「糖尿病網膜症の自動スクリーニングのためのアンサンブルベースシステム」Knowledge-Based Systems . 60 (2014): 20– 27. arXiv : 1410.8576 . Bibcode :2014arXiv1410.8576A. doi :10.1016/j.knosys.2013.12.023. S2CID  13984326.
  282. ^ Haloi, Mrinal (2015). 「ディープニューラルネットワークを用いた微小動脈瘤検出の改善」arXiv : 1505.04424 [cs.CV].
  283. ^ ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. 「ADCIS ダウンロード サードパーティ: Messidor データベース」. adcis.net . 2018年2月25日閲覧{{cite web}}: CS1 maint: multiple names: authors list (link)
  284. ^ デサンシエール、エティエンヌ;張、西偉。カズゲル、ガイ。レイ、ブルーノ。コッシェナー、ベアトリス。トロン、キャロライン。ゲイン、フィリップ。リチャード・オルドネス。マッシン、パスカル。エルジナイ、アリ。ベアトリス、シャルトン。クライン、ジャン=クロード(2014 年 8 月 26 日)。 「公的に配布された画像データベースに関するフィードバック: メシドール データベース」。画像解析とステレオロジー33 (3): 231.土井:10.5566/ias.1155。
  285. ^ Bagirov, AM; Rubinov, AM; Soukhoroukova, NV; Yearwood, J. (2003年6月). 「非平滑法および大域的最適化による教師なしおよび教師ありデータ分類」. Top . 11 (1): 1– 75. doi :10.1007/bf02578945.
  286. ^ Fung, Glenn; Dundar, Murat; Bi, Jinbo; Rao, Bharat (2004). 「異種カーネルを用いたフィッシャー判別分析のための高速反復アルゴリズム」. Greiner, Russell; Schuurmans, Dale (編). Proceedings of the Twenty-first International Conference on Machine Learning . ACM. p. 40. doi :10.1145/1015330.1015409. ISBN 978-1-58113-838-2
  287. ^ Quinlan, JR; Compton, PJ; Horn, KA; Lazarus, L. (1987). 「帰納的知識獲得:事例研究」. Quinlan, John Ross (編). 『エキスパートシステムの応用:第2回オーストラリア会議議事録に基づく』 . チューリング研究所出版. pp.  137– 156. ISBN 978-0-201-17449-6
  288. ^ ab Zhi-Hua Zhou; Yuan Jiang (2004). 「NeC4.5: ニューラルアンサンブルベースのC4.5」. IEEE Transactions on Knowledge and Data Engineering . 16 (6): 770– 773. Bibcode :2004IDSO...16..770Z. doi :10.1109/tkde.2004.11.
  289. ^ Er, Orhan; et al. (2012). 「中皮腫の診断のための確率的ニューラルネットワークに基づくアプローチ」. Computers & Electrical Engineering . 38 (1): 75– 81. doi :10.1016/j.compeleceng.2011.09.001.
  290. ^ えー、オルハン;タンリクル、A. チェティン。アバカイ、アブドゥラフマン(2015年5月10日)。 「悪性胸膜中皮腫の診断における人工知能技術の使用」。Dicle Medical Journal / Dicle Tip Dergisi42 (1)。doi :10.5798/diclemedj.0921.2015.01.0520 (2025 年 7 月 12 日に非アクティブ)。{{cite journal}}: CS1 maint: DOI inactive as of July 2025 (link)
  291. ^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (2017年7月25日). 「深層学習による姿勢推定を用いたパーキンソン病およびレボドパ誘発性ジスキネジアの視覚ベース評価」. Journal of Neuroengineering and Rehabilitation . 15 (1): 97. arXiv : 1707.09416 . Bibcode :2017arXiv170709416L. doi : 10.1186/s12984-018-0446-z . PMC 6219082. PMID  30400914 . 
  292. ^ Li, Michael H.; Mestre, Tiago A.; Fox, Susan H.; Taati, Babak (2018年8月). 「レボドパ誘発性ジスキネジアの自動評価:ビデオベースの特徴に対する反応性の評価」. Parkinsonism & Related Disorders . 53 : 42– 45. doi :10.1016/j.parkreldis.2018.04.036. PMID  29748112.
  293. ^ 「パーキンソン病の視覚ベースの姿勢推定データセット | Kaggle」kaggle.com . 2018年8月22日閲覧
  294. ^ Shannon, Paul; et al. (2003). 「Cytoscape:生体分子相互作用ネットワークの統合モデルのためのソフトウェア環境」. Genome Research . 13 (11): 2498– 2504. doi :10.1101/gr.1239303. PMC 403769. PMID  14597658 . 
  295. ^ Javadi, Soroush; Mirroshandel, Seyed Abolghasem (2019年6月). 「ヒト精子画像の自動評価のための新たなディープラーニング手法」. Computers in Biology and Medicine . 109 : 182–194 . doi :10.1016/j.compbiomed.2019.04.030. PMID  31059902.
  296. ^ "soroushj/mhsma-dataset: MHSMA: The Modified Human Sperm Morphology Analysis Dataset". github.com . 2019年5月3日閲覧
  297. ^ クラーク、デイビッド、ゾルタン・シュレーター、アンソニー・アダムス。「Dystalとバックプロパゲーションの定量的比較」 1996年オーストラリアニューラルネットワーク会議議事録。1996年。
  298. ^ Jiang, Yuan, Zhi-Hua Zhou. 「ニューラルネットワークアンサンブルを用いたkNN分類器のトレーニングデータの編集」Advances in Neural Networks–ISNN 2004. Springer Berlin Heidelberg, 2004. 356–361.
  299. ^ オンタニョン, サンティアゴ; プラザ, エンリック (2009). 「リファインメント・ラティスに基づく類似度尺度について」.事例ベース推論の研究開発. コンピュータサイエンス講義ノート. 第5650巻. pp.  240– 255. doi :10.1007/978-3-642-02998-1_18. ISBN 978-3-642-02997-4
  300. ^ 「PLFデータインベントリ」。GitHub 2021年11月5日。
  301. ^ Higuera, Clara; Gardiner, Katheleen J.; Cios, Krzysztof J. (2015). 「自己組織化特徴マップはダウン症候群マウスモデルにおける学習に重要なタンパク質を特定する」. PLOS ONE . 10 (6) e0129126. Bibcode :2015PLoSO..1029126H. doi : 10.1371/journal.pone.0129126 . PMC 4482027. PMID  26111164 . 
  302. ^ Ahmed, Md Mahiuddin; et al. (2015). 「ダウン症候群Ts65Dnマウスモデルにおける学習の失敗と回復に関連するタンパク質ダイナミクス」. PLOS ONE . 10 (3) e0119491. Bibcode :2015PLoSO..1019491A. doi : 10.1371/journal.pone.0119491 . PMC 4368539. PMID  25793384 . 
  303. ^ Langley, PAT (2014). 「漸進的概念学習における単純さとカバレッジのトレードオフ」(PDF) .機械学習論文集. 1988 : 73. 2019年8月6日時点のオリジナル(PDF)からアーカイブ。 2019年8月6日閲覧
  304. ^ “Mushroom Data Set 2020”. mushroom.mathematik.uni-marburg.de . 2021年4月6日閲覧
  305. ^ Wagner, Dennis; Heider, Dominik; Hattab, Georges (2021年4月14日). 「分類タスクを支援するためのキノコデータの作成、キュレーション、シミュレーション」. Scientific Reports . 11 (1): 8134. Bibcode :2021NatSR..11.8134W. doi :10.1038/s41598-021-87602-3. PMC 8046754. PMID  33854157 . 
  306. ^ コルテス、パウロ、アニバル・デ・ヘスス・ライムンド・モライス。 「気象データを使用して森林火災を予測するデータマイニング アプローチ。」 (2007)。
  307. ^ Farquad, MAH; Ravi, V.; Raju, S. Bapi (2010). 「予測のためのサポートベクター回帰に基づくハイブリッドルール抽出法」. Expert Systems with Applications . 37 (8): 5577– 5589. doi :10.1016/j.eswa.2010.02.055.
  308. ^ フィッシャー、ロナルド・A (1936). 「分類学的問題における多重測定の利用」Annals of Eugenics . 7 (2): 179– 188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 .
  309. ^ Ghahramani、Zoubin、Michael I. Jordan。「EMアプローチによる不完全データからの教師あり学習」(2017年4月22日アーカイブ、Wayback Machine神経情報処理システムの進歩、6、1994年。
  310. ^ マラー、チャールズ、コープ、ジェームズ、オーウェル、ジェームズ (2013). 「形状、テクスチャ、および縁の特徴の確率的統合を用いた植物の葉の分類」コンピュータグラフィックスおよびイメージング / 798: 信号処理、パターン認識およびアプリケーション. doi :10.2316/P.2013.798-098. ISBN 978-0-88986-944-8
  311. ^ Yahiaoui, Itheri; Mzoughi, Olfa; Boujemaa, Nozha (2012). 「樹木種識別のための葉形状記述子」. 2012 IEEE International Conference on Multimedia and Expo . pp.  254– 259. doi :10.1109/ICME.2012.130. ISBN 978-1-4673-1659-0
  312. ^ Tan, Ming; Eshelman, Larry (1988). 「重み付きネットワークを用いたノイズの多い領域における分類知識の表現」機械学習論文集 1988. pp.  121– 134. doi :10.1016/B978-0-934613-64-4.50018-9. ISBN 978-0-934613-64-4
  313. ^ Charytanowicz, Małgorzata, et al. 「X線画像の特徴分析のための完全勾配クラスタリングアルゴリズム」バイオメディシンにおける情報技術Springer Berlin Heidelberg, 2010. 15–24.
  314. ^ サンチェス、マウリシオ A.; 他 (2014). 「多変量データのためのファジー粒状重力クラスタリングアルゴリズム」.情報科学. 279 : 498–511 . doi :10.1016/j.ins.2014.04.005.
  315. ^ Blackard, Jock A.; Dean, Denis J. (1999年12月). 「地図変数から森林被覆タイプを予測する際の人工ニューラルネットワークと判別分析の精度比較」. Computers and Electronics in Agriculture . 24 (3): 131– 151. Bibcode :1999CEAgr..24..131B. doi :10.1016/s0168-1699(99)00046-0.
  316. ^ Fürnkranz, Johannes (2001). 「ラウンドロビンルール学習」(PDF) . Danyluk, Andrea Pohoreckyj; Brodley, Carla E. (編).機械学習:第18回国際会議 (ICML 2001) 議事録: ウィリアムズ大学、2001年6月28日~7月1日. Morgan Kaufmann Publishers. pp.  146– 153. ISBN 978-1-55860-778-1
  317. ^ Li, Song; Assmann, Sarah M.; Albert, Réka (2006). 「シグナル伝達ネットワークの必須構成要素の予測:ガード細胞におけるアブシジン酸シグナル伝達の動的モデル」. PLOS Biol . 4 (10) e312. arXiv : q-bio/0610012 . Bibcode :2006q.bio....10012L. doi : 10.1371/journal.pbio.0040312 . PMC 1564158. PMID  16968132 . 
  318. ^ Munisami, Trishen; et al. (2015). 「K近傍法を用いた形状特徴と色ヒストグラムを用いた植物の葉の認識」Procedia Computer Science . 58 : 740–747 . doi : 10.1016/j.procs.2015.08.095 .
  319. ^ Li, Bai (2016). 「原子ポテンシャルマッチング:エッジ特徴に基づく進化的ターゲット認識アプローチ」. Optik . 127 (5): 3162– 3168. Bibcode :2016Optik.127.3162L. doi :10.1016/j.ijleo.2015.11.186.
  320. ^ Razavian, Ali他「CNNの既成機能:認識のための驚異的なベースライン」IEEEコンピュータビジョンおよびパターン認識ワークショップ会議論文集。2014年。
  321. ^ Nilsback, Maria-Elena, Andrew Zisserman. 「花の分類のための視覚語彙」Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on . 第2巻. IEEE, 2006.
  322. ^ Giselsson, Thomas M.; et al. (2017). 「植物苗分類アルゴリズムのベンチマークのための公開画像データベース」arXiv : 1711.05458 [cs.CV].
  323. ^ オルティアン、ミハイ (2017). 「Fruits-360 データセット」。GitHub
  324. ^ Old, Richard (2024). 「Weed-ID.Appデータセット」
  325. ^ Rahman, Abdur; Lu, Yuzhen; Wang, Haifeng (2023年2月). 「綿花における雑草検出のためのディープラーニング物体検出器の性能評価」. Smart Agricultural Technology . 3 100126. doi :10.1016/j.atech.2022.100126.
  326. ^ 中井健太; 金久実 (1991). 「グラム陰性細菌におけるタンパク質局在部位予測のためのエキスパートシステム」.タンパク質:構造、機能、バイオインフォマティクス. 11 (2): 95– 110. doi :10.1002/prot.340110203. PMID  1946347. S2CID  27606447.
  327. ^ Ling, Charles X., et al. 「最小限のコストで決定木を構築する」機械学習に関する第21回国際会議議事録。ACM、2004年。
  328. ^ マヘ、ピエール;アルサック、モード。シャテリエ、ソニア;モナン、ヴァレリー。ペロー、ナディーン。メイラー、サンドリーヌ。ビクトリア州ジラール。ラムジート、マヘンドラシン。そうですか、ジェレミー。ラクロワ、ブルーノ。ファン・ベルクム、アレックス。ヴェリエラ、ジャン=バティスト(2014 年 5 月)。 「MALDI-TOF 質量スペクトルにおける混合細菌種の指紋の自動識別」。バイオインフォマティクス30 (9): 1280–1286土井:10.1093/bioinformatics/btu022。PMID  24443381。
  329. ^ Barbano, Duane; et al. (2015). 「マトリックス支援レーザー脱離イオン化飛行時間型質量分析法(MALDI-TOF MS)を用いた微細藻類および微細藻類混合物の迅速な特性評価」. PLOS ONE . 10 (8) e0135337. Bibcode :2015PLoSO..1035337B. doi : 10.1371/journal.pone.0135337 . PMC 4536233. PMID  26271045 . 
  330. ^ Horton, Paul; Nakai, Kenta (1996). 「タンパク質の細胞内局在部位を予測するための確率的分類システム」(PDF) . ISMB-96 Proceedings . 4 : 109–15 . PMID 8877510. 2021年11月4日時点 のオリジナル(PDF)からアーカイブ。 2019年8月6日閲覧
  331. ^ Allwein, Erin L.; Schapire, Robert E.; Singer, Yoram (2001). 「多クラスから二値への縮減:マージン分類器のための統一的アプローチ」(PDF) . The Journal of Machine Learning Research . 1 : 113– 141.
  332. ^ Mayr, Andreas; Klambauer, Guenter; Unterthiner, Thomas; Hochreiter, Sepp (2016). 「DeepTox: ディープラーニングを用いた毒性予測」. Frontiers in Environmental Science . 3 : 80. Bibcode :2016FrEnS...3...80M. doi : 10.3389/fenvs.2015.00080 .
  333. ^ Lavin, Alexander; Ahmad, Subutai (2015年10月12日). 「リアルタイム異常検知アルゴリズムの評価 ― Numenta異常ベンチマーク」. 2015 IEEE 第14回国際機械学習・応用会議 (ICMLA) . pp.  38– 44. arXiv : 1510.03336 . doi :10.1109/ICMLA.2015.141. ISBN 978-1-5090-0287-0. S2CID  6842305。
  334. ^ イウリイ・D・カッツァー;ヴャチェスラフ・O・コジツィン。 「SKAB GitHub リポジトリ」。GitHub2021 年1 月 12 日に取得
  335. ^ イウリイ・D・カッツァー;ヴャチェスラフ・O・コジツィン(2020)。 「スコルテック異常ベンチマーク(SKAB)」。カグル。ドイ:10.34740/KAGGLE/DSV/1693952 2021 年1 月 12 日に取得 {{cite journal}}:ジャーナルを引用するには|journal=ヘルプ)が必要です
  336. ^ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo JGB; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016年7月). 「教師なし外れ値検出の評価について:指標、データセット、および実証研究」.データマイニングと知識発見. 30 (4): 891– 927. doi :10.1007/s10618-015-0444-8.
  337. ^ Goh, Jonathan; Adepu, Sridhar; Junejo, Khurum Nazir; Mathur, Aditya (2017). 「安全な水処理システムの設計研究を支援するデータセット」. Havarneanu, Grigore; Setola, Roberto; Nassopoulos, Hypatia; Wolthusen, Stephen (編).重要情報インフラストラクチャのセキュリティ. コンピュータサイエンス講義ノート. 第10242巻. シュプリンガー・インターナショナル・パブリッシング. pp.  88– 99. doi :10.1007/978-3-319-71368-7_8. ISBN 978-3-319-71368-7
  338. ^ Ann-Kathrin Hartmann、Tommaso Soru、Edgard Marx. DBpediaナレッジベースを用いたニューラル質問応答のための大規模データセットの生成. 2018.
  339. ^ ソル、トンマソ;マルクス、エドガルド。ムサレム、ディエゴ。パブリオ、グスタボ。ヴァルデスティリャス、アンドレ。エステベス、ディエゴ。ネト、チロ男爵(2017)。外国語としての SPARQL (プレプ​​リント)。arXiv : 1708.07624
  340. ^ キエット・ヴァン・グエン、ドゥク=ヴー・グエン、アン・ギア=トゥアン・グエン、ガン・ルウ=トゥイ・グエン。機械読解力を評価するためのベトナム語データセット。コーリング2020。
  341. ^ Nguyen, Kiet Van; Tran, Khiem Vinh; Luu, Son T.; Nguyen, Anh Gia-Tuan; Nguyen, Ngan Luu-Thuy (2020). 「ベトナム語多肢選択式機械読解における外部知識を用いた語彙ベースアプローチの強化」. IEEE Access . 8 : 201404–201417 . Bibcode :2020IEEEA...8t1404N. doi :10.1109/ACCESS.2020.3035701.
  342. ^ アナンタ、ラヴィテヤ;ヴァクレンコ、スヴィトラーナ。土、朱城。ロングプレ、シェイン。プルマン、スティーブン。チャッピディ、スリニバス(2020)。 「オープンドメインの質問応答は、質問の書き換えによって会話型になります」。arXiv : 2010.04898 [cs.IR]。
  343. ^ Khashabi, Daniel; Min, Sewon; Khot, Tushar; Sabharwal, Ashish; Tafjord, Oyvind; Clark, Peter; Hajishirzi, Hannaneh (2020年11月). 「UNIFIEDQA:単一のQAシステムでフォーマットの境界を越える」. Findings of the Association for Computational Linguistics: EMNLP 2020 . Online: Association for Computational Linguistics: 1896– 1907. arXiv : 2005.00700 . doi :10.18653/v1/2020.findings-emnlp.171. S2CID  218487109.
  344. ^ Taskmaster、Google Research Datasets、2022年12月17日、 2023年1月7日閲覧
  345. ^ ビル、バーン;クリシュナモーティ、カルティク。サンカール、チンナドゥライ。ニーラカンタン、アルヴィンド。ダックワース、ダニエル。ヤヴズ、セミ;グッドリッチ、ベン。ダベイ、アミット。セディルニク、アンディ。キム・ギュヨン(2019年9月1日)。 「タスクマスター-1: 現実的で多様な対話データセットを目指して」。arXiv : 1909.05358 [cs.CL]。
  346. ^ google-research-datasets/Taskmaster、Google Research Datasets、2025年5月19日、 2025年5月28日閲覧
  347. ^ 安永 道弘; Liang Percy (2020年11月21日). 「グラフベースの自己教師ありプログラム修復による診断フィードバック」.国際機械学習会議. PMLR: 10799–10808 . arXiv : 2005.10636 .
  348. ^ 王一中;ミシュラ、スワループ。アリプールモラバシ、ペガ。コルディ、イェガネ。ミルザイ、アミレザ。アルンクマール、アンジャナ。アショク、アルジュン。ダナセカラン、アルット・セルバン。ナイク、アタルヴァ。タップ、デイビッド。パタク、エシャーン;カラマノラキス、ヤニス。ライ・ハイジー・ゲイリー。プロヒット、イシャン。イシャニ、モンダル(2022年10月24日)。 「Super-Natural命令: 1600以上のNLPタスクの宣言命令による一般化」。arXiv : 2204.07705 [cs.CL]。
  349. ^ allenai/natural-instructions、Ai2、2025年5月28日、 2025年5月28日閲覧。
  350. ^ Paperno, Denis; Kruszewski, Germán; Lazaridou, Angeliki; Pham, Ngoc Quan; Bernardi, Raffaella; Pezzelle, Sandro; Baroni, Marco; Boleda, Gemma; Fernández, Raquel (2016年8月). 「LAMBADAデータセット:広範な談話文脈を必要とする単語予測」.計算言語学協会第54回年次会議議事録(第1巻:長文論文) . ベルリン、ドイツ:計算言語学協会:1525–1534 . doi :10.18653/v1/P16-1144. hdl :10230/32702. S2CID  2381275.
  351. ^ デニス・ペーパーノ;クルシェフスキー、ドイツ。ラザリドゥ、アンジェリキ。ファム、クアン・ゴック。ベルナルディ、ラファエラ。ペッゼル、サンドロ。バローニ、マルコ。ボレダ、ジェンマ。 Fernández、Raquel (2016 年 8 月 7 日)、LAMBADA データセット、doi :10.5281/zenodo.2630551、20255 月 28 日に取得
  352. ^ ウェイ、ジェイソン;ボスマ、マールテン。チャオ、ヴィンセント。グー、ケルビン。ユウ、アダムス・ウェイ。レスター、ブライアン。ドゥ、ナン。ダイ、アンドリュー M.ル、クオック V. (2022 年 2 月 10 日)。 Finetuned 言語モデルはゼロショット学習者 (プレプ​​リント) です。arXiv : 2109.01652
  353. ^ google-research/FLAN、Google Research、2025年5月27日、 2025年5月28日閲覧
  354. ^ 「ATT&CKの活用 | MITRE ATT&CK®」. attack.mitre.org . 2023年1月14日閲覧
  355. ^ 「CAPEC - 共通攻撃パターンの列挙と分類(CAPEC™)」capec.mitre.org . 2023年1月14日閲覧
  356. ^ 「CVE - ホーム」. cve.mitre.org . 2023年1月14日閲覧
  357. ^ 「CWE - 共通脆弱性列挙」cwe.mitre.org . 2023年1月14日閲覧
  358. ^ Lim, Swee Kiat; Muis, Aldrian Obaja; Lu, Wei; Ong, Chen Hui (2017年7月). 「MalwareTextDB: 注釈付きマルウェア記事データベース」.計算言語学会第55回年次会議議事録 (第1巻: 長編論文) . バンクーバー, カナダ: 計算言語学会: 1557– 1567. doi :10.18653/v1/P17-1143. S2CID  7816596.
  359. ^ "USENIX". USENIX . 2023年1月19日閲覧
  360. ^ “APTnotes | Read the Docs”. readthedocs.org . 2023年1月19日閲覧
  361. ^ 「暗号化とセキュリティの著者/タイトルの最近の投稿」. arxiv.org . 2023年1月19日閲覧
  362. ^ 「Holistic Info-Sec for Web Developers - Fascicle 0」. f0.holisticinfosecforwebdevelopers.com . 2023年1月20日閲覧
  363. ^ 「Web開発者のためのHolistic Info-Sec - Fascicle 1」. f1.holisticinfosecforwebdevelopers.com . 2023年1月20日閲覧
  364. ^ヴィンセント、アダム。 Web サービスのハッキングと強化」(PDF)。owasp.org
  365. ^ McCray, Joe. 「高度なSQLインジェクション」(PDF) . defcon.org .
  366. ^ Shah, Shreeraj. 「ブラインドSQLインジェクションの検出と悪用手法」(PDF) . blueinfy.com .
  367. ^ Palcer, CC「倫理的ハッキング」(PDF) .テキストファイル.
  368. ^ 「ハッキングの秘密が明らかに - 情報と指導ガイド」(PDF
  369. ^ パーク、アレクシス。「どんなウェブサイトでもハッキングできる」(PDF)
  370. ^ Cerrudo, Cesar; Martinez Fayo, Esteban. 「データベースハッキングによるデータ所有権の確保」(PDF) . blackhat .
  371. ^ O'Connor, Tj. 「Violent Python - ハッカー、フォレンジックアナリスト、侵入テスター、セキュリティエンジニアのためのクックブック」(PDF) . Github .
  372. ^ Grand, Joe. 「ハードウェアリバースエンジニアリング:アクセス、分析、そして無効化」(PDF) . blackhat .
  373. ^ Chang, Jason V.「コンピュータハッキング:国家報告義務化の根拠」(PDF) . cyber.harvard.edu .
  374. ^ 「国家サイバーセキュリティ戦略リポジトリ」ITU . 2023年1月20日閲覧
  375. ^ Chen, Yanlin (2022年8月31日)、サイバーセキュリティ自然言語処理2023年1月20日閲覧。
  376. ^ ザンピエリ、マルコス、マルマシ、シェルビン、ナコフ、プレスラフ、ローゼンタール、サラ、ファラ、ヌーラ、クマール、リテシュ(2019年4月16日)「ソーシャルメディアにおける攻撃的な投稿の種類とターゲットの予測」arXiv1902.09666 [cs.CL]。
  377. ^ 「脅威レポート」www.ncsc.gov.uk . 2023年1月20日閲覧
  378. ^ 「カテゴリー: APTレポート | Securelist」. securelist.com . 2023年1月23日閲覧
  379. ^ 「Your Cyber​​security News Connection - Cyber​​ News | Cyber​​Wire」。Cyber ​​Wire . 2023年1月23日閲覧
  380. ^ “ニュース”. 2016年8月21日. 2023年1月23日閲覧
  381. ^ 「サイバーニュース」.サイバーニュース.
  382. ^ “BleepingComputer”. BleepingComputer . 2023年1月23日閲覧
  383. ^ 「ホームページ」。Recorded Future Newsの記録2023年1月23日閲覧。
  384. ^ 「HackRead | 最新のサイバー犯罪 - 情報セキュリティ - 技術 - ハッキングニュース」. 2022年1月8日. 2023年1月23日閲覧
  385. ^ 「Securelist | Kasperskyの脅威調査とレポート」securelist.com . 2023年1月31日閲覧
  386. ^ Harshaw, Christopher R.; Bridges, Robert A.; Iannacone, Michael D.; Reed, Joel W.; Goodall, John R. (2016年4月5日). 「GraphPrints」.第11回サイバー・情報セキュリティ研究会議議事録. CISRC '16. ニューヨーク州ニューヨーク: Association for Computing Machinery. pp.  1– 4. doi :10.1145/2897795.2897806. ISBN 978-1-4503-3752-6
  387. ^ 「Farsight Security、サイバーセキュリティインテリジェンスソリューション」Farsight Security . 2023年2月13日閲覧
  388. ^ 「Schneier on Security」www.schneier.com . 2023年2月13日閲覧
  389. ^ 「クラウドセキュリティとエンドポイントサイバーセキュリティで第1位」トレンドマイクロ. 2023年2月13日閲覧
  390. ^ 「The Hacker News | 信頼できるサイバーセキュリティニュースサイト第1位」The Hacker News . 2023年2月13日閲覧
  391. ^ 「Krebs on Security – 詳細なセキュリティニュースと調査」 。 2023年2月25日閲覧
  392. ^ 「MITRE D3FEND Knowledge Graph」. d3fend.mitre.org . 2023年3月31日閲覧
  393. ^ “MITRE | ATLAS™”. atlas.mitre.org . 2023年3月31日閲覧
  394. ^ 「MITRE Engage™ | MITREの敵対者攻撃フレームワーク」 。 2023年4月1日閲覧
  395. ^ 「ハッキングチュートリアル - 最高のステップバイステップのハッキングチュートリアル」。ハッキングチュートリアル。 2023年4月1日閲覧
  396. ^ 「TCFDナレッジハブ」. TCFDナレッジハブ. 2023年2月3日閲覧
  397. ^ "ResponsibilityReports.com". www.responsibilityreports.com . 2023年2月3日閲覧
  398. ^ 「About — IPCC」 . 2023年2月20日閲覧
  399. ^ 「企業の持続可能性に関する研究連合 | ARCSは、企業の持続可能性に関する問題に関する厳密な学術研究を推進する手段として機能します」corporate-sustainability.org . 2023年3月2日閲覧
  400. ^ Mehra, Srishti; Louka, Robert; Zhang, Yixun (2022). 「ESGBERT: 企業の環境・社会・ガバナンス慣行に関する分類タスクを支援する言語モデル」. Embedded Systems and Applications . pp.  183– 190. doi :10.5121/csit.2022.120616. ISBN 978-1-925953-65-7
  401. ^  この記事には、CC BY 4.0 ライセンスに基づいて利用可能なテキストが組み込まれています。
  402. ^ ディゲルマン(トーマス)、ボイド=グレーバー(ジョーダン)、ブリアン(ヤニス)、シアラミタ(マッシミリアーノ)、ライポルド(マルクス)(2021年1月2日)「CLIMATE-FEVER:現実世界の気候に関する主張の検証のためのデータセット」arXiv2012.00614 [cs.CL]。
  403. ^ "climate-news-db". www.climate-news-db.com . 2023年2月3日閲覧
  404. ^ "Climatext". www.sustainablefinance.uzh.ch . 2023年2月19日閲覧
  405. ^ “Greenbiz”. www.greenbiz.com . 2023年3月2日閲覧
  406. ^ 「@Reutersのホットリストでトップ1000人の気候科学者を探る」ロイター. 2023年3月22日閲覧
  407. ^ 「ブログ | 企業の持続可能性に関する研究連合」corporate-sustainability.org . 2023年3月27日閲覧
  408. ^ “Greenbiz”. www.greenbiz.com . 2023年3月29日閲覧
  409. ^ 「CSRニュース」www.csrwire.com . 2023年3月29日閲覧
  410. ^ 「CDPホームページ」www.cdp.net . 2023年3月29日閲覧
  411. ^ de Vries, Harm (2022). 「スタック:3 TB の許容ライセンスのソースコード」arXiv : 2211.15533 [cs.CL].
  412. ^ 「The Stack Dedup」Huggingface . 2023年8月29日閲覧
  413. ^ Goodarzi、Arash Torabi (2025). 「LEMUR ニューラル ネットワーク データセット: シームレスな AutoML に向けて」。arXiv : 2504.10552 [cs.CL]。
  414. ^ 「ハイブリッドクラウドブログ」. content.cloud.redhat.com . 2023年4月9日閲覧
  415. ^ 「プロダクショングレードのコンテナオーケストレーション」Kubernetes . 2023年4月9日閲覧
  416. ^ 「ホーム | 公式Red Hat OpenShiftドキュメント」. docs.openshift.com . 2023年4月9日閲覧
  417. ^ “Cloud Native Computing Foundation”. Cloud Native Computing Foundation . 2023年4月9日閲覧
  418. ^ CNCFコミュニティプレゼンテーション、Cloud Native Computing Foundation(CNCF)、2023年4月11日、 2023年4月11日閲覧
  419. ^ 「Red Hat - エンタープライズ向けのオープンソーステクノロジーを開発しています」www.redhat.com . 2023年5月1日閲覧
  420. ^ ブラウン、マイケル・スコット、ペロシ、マイケル・J、ディルスカ、ヘンリー (2013). 「ダウ・ジョーンズ指数銘柄の財務予測のための動的半径種保存型遺伝的アルゴリズム」.パターン認識における機械学習とデータマイニング. コンピュータサイエンス講義ノート. 第7988巻. pp.  27– 41. doi :10.1007/978-3-642-39712-7_3. ISBN 978-3-642-39711-0
  421. ^ Shen, Kao-Yi; Tzeng, Gwo-Hshiung (2015). "Fuzzy Inference-Enhanced VC-DRSA Model for Technical Analysis: Investment Decision Aid". International Journal of Fuzzy Systems. 17 (3): 375–389. doi:10.1007/s40815-015-0058-8. S2CID 68241024.
  422. ^ Quinlan, J. R. (September 1987). "Simplifying decision trees". International Journal of Man-Machine Studies. 27 (3): 221–234. doi:10.1016/s0020-7373(87)80053-6. hdl:1721.1/6453.
  423. ^ Hamers, Bart; Suykens, Johan AK; De Moor, Bart (2003). "Coupled transductive ensemble learning of kernel models" (PDF). Journal of Machine Learning Research. 1: 1–48.
  424. ^ Shmueli, Galit; Russo, Ralph P.; Jank, Wolfgang (December 2007). "The BARISTA: A model for bid arrivals in online auctions". The Annals of Applied Statistics. 1 (2). doi:10.1214/07-AOAS117.
  425. ^ Peng, Jie; Müller, Hans-Georg (September 2008). "Distance-based clustering of sparsely observed stochastic processes, with applications to online auctions". The Annals of Applied Statistics. 2 (3). doi:10.1214/08-AOAS172.
  426. ^ Eggermont, Jeroen; Kok, Joost N.; Kosters, Walter A. (2004). "Genetic Programming for data classification: Partitioning the search space". Proceedings of the 2004 ACM symposium on Applied computing. pp. 1001–1005. doi:10.1145/967900.968104. ISBN 978-1-58113-812-2.
  427. ^ Moro, Sérgio; Cortez, Paulo; Rita, Paulo (2014). "A data-driven approach to predict the success of bank telemarketing". Decision Support Systems. 62: 22–31. doi:10.1016/j.dss.2014.03.001. hdl:10071/9499. S2CID 14181100.
  428. ^ Payne, Richard D.; Mallick, Bani K. (2014). "Bayesian Big Data Classification: A Review with Complements". arXiv:1411.5653 [stat.ME].
  429. ^ Akbilgic, Oguz; Bozdogan, Hamparsum; Balaban, M. Erdal (2014). "A novel Hybrid RBF Neural Networks model as a forecaster". Statistics and Computing. 24 (3): 365–375. doi:10.1007/s11222-013-9375-7. S2CID 17764829.
  430. ^ Jabin, Suraiya (20 August 2014). "Stock Market Prediction using Feed-forward Artificial Neural Network". International Journal of Computer Applications. 99 (9): 4–8. Bibcode:2014IJCA...99i...4J. doi:10.5120/17399-7959.
  431. ^ Yeh, I-Cheng; Che-hui, Lien (2009). "The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients". Expert Systems with Applications. 36 (2): 2473–2480. doi:10.1016/j.eswa.2007.12.020. S2CID 15696161.
  432. ^ Lin, Shu Ling (2009). "A new two-stage hybrid approach of credit risk in banking industry". Expert Systems with Applications. 36 (4): 8333–8341. doi:10.1016/j.eswa.2008.10.015.
  433. ^ Xu, Yumo; Cohen, Shay B. (2018). "Stock Movement Prediction from Tweets and Historical Prices". Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). pp. 1970–1979. doi:10.18653/v1/P18-1183.
  434. ^ Pelckmans, Kristiaan; et al. (2005). "The differogram: Non-parametric noise variance estimation and its use for model selection". Neurocomputing. 69 (1): 100–122. doi:10.1016/j.neucom.2005.02.015.
  435. ^ Bay, Stephen D.; Kibler, Dennis; Pazzani, Michael J.; Smyth, Padhraic (December 2000). "The UCI KDD archive of large data sets for data mining research and experimentation". ACM SIGKDD Explorations Newsletter. 2 (2): 81–85. doi:10.1145/380995.381030.
  436. ^ Lucas, D. D.; et al. (2015). "Designing optimal greenhouse gas observing networks that consider performance and cost". Geoscientific Instrumentation, Methods and Data Systems. 4 (1): 121. Bibcode:2015GI......4..121L. doi:10.5194/gi-4-121-2015.
  437. ^ Pales, Jack C.; Keeling, Charles D. (1965). "The concentration of atmospheric carbon dioxide in Hawaii". Journal of Geophysical Research. 70 (24): 6053–6076. Bibcode:1965JGR....70.6053P. doi:10.1029/jz070i024p06053.
  438. ^ Sigillito, Vincent G., et al. "Classification of radar returns from the ionosphere using neural networks." Johns Hopkins APL Technical Digest10.3 (1989): 262–266.
  439. ^ Zhang, Kun; Fan, Wei (March 2008). "Forecasting skewed biased stochastic ozone days: analyses, solutions and beyond". Knowledge and Information Systems. 14 (3): 299–326. doi:10.1007/s10115-007-0095-1.
  440. ^ Reich, Brian J.; Fuentes, Montserrat; Dunson, David B. (March 2011). "Bayesian Spatial Quantile Regression". Journal of the American Statistical Association. 106 (493): 6–20. doi:10.1198/jasa.2010.ap09237. PMC 3583387. PMID 23459794.
  441. ^ Kohavi, Ron (1996). "Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid". KDD. 96.
  442. ^ Oza, Nikunj C., and Stuart Russell. "Experimental comparisons of online and batch versions of bagging and boosting." Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2001.
  443. ^ Bay, Stephen D. (November 2001). "Multivariate Discretization for Set Mining". Knowledge and Information Systems. 3 (4): 491–512. doi:10.1007/pl00011680.
  444. ^ Ruggles, Steven (1995). "Sample designs and sampling errors". Historical Methods. 28 (1): 40–46. doi:10.1080/01615440.1995.9955312.
  445. ^ Meek, Christopher, Bo Thiesson, and David Heckerman. "The Learning Curve Method Applied to Clustering." AISTATS. 2001.
  446. ^ Fanaee-T, Hadi; Gama, Joao (2013). "Event labeling combining ensemble detectors and background knowledge". Progress in Artificial Intelligence. 2 (2–3): 113–127. doi:10.1007/s13748-013-0040-3. S2CID 3345087.
  447. ^ Giot, Romain; Cherrier, Raphael (2014). "Predicting bikeshare system usage up to one day ahead". 2014 IEEE Symposium on Computational Intelligence in Vehicles and Transportation Systems (CIVTS) (PDF). pp. 22–29. doi:10.1109/CIVTS.2014.7009473. ISBN 978-1-4799-4497-2.
  448. ^ Zhan, Xianyuan; et al. (2013). "Urban link travel time estimation using large-scale taxi data with partial information". Transportation Research Part C: Emerging Technologies. 33: 37–49. Bibcode:2013TRPC...33...37Z. doi:10.1016/j.trc.2013.04.001.
  449. ^ Moreira-Matias, Luis; et al. (2013). "Predicting taxi–passenger demand using streaming data". IEEE Transactions on Intelligent Transportation Systems. 14 (3): 1393–1402. Bibcode:2013ITITr..14.1393M. doi:10.1109/tits.2013.2262376. S2CID 14764358.
  450. ^ Hwang, Ren-Hung; Hsueh, Yu-Ling; Chen, Yu-Ting (2015). "An effective taxi recommender system based on a spatio-temporal factor analysis model". Information Sciences. 314: 28–40. doi:10.1016/j.ins.2015.03.068.
  451. ^ H. V. Jagadish, Johannes Gehrke, Alexandros Labrinidis, Yannis Papakonstantinou, Jignesh M. Patel, Raghu Ramakrishnan, and Cyrus Shahabi. Big data and its technical challenges. Commun. ACM, 57(7):86–94, July 2014.
  452. ^ Caltrans PeMS
  453. ^ Meusel, Robert, et al. "The Graph Structure in the Web—Analyzed on Different Aggregation Levels."The Journal of Web Science 1.1 (2015).
  454. ^ Kushmerick, Nicholas (1999). "Learning to remove Internet advertisements". Proceedings of the third annual conference on Autonomous Agents. pp. 175–181. doi:10.1145/301136.301186. ISBN 978-1-58113-066-9.
  455. ^ Fradkin, Dmitriy; Madigan, David (2003). "Experiments with random projections for machine learning". Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. pp. 517–522. doi:10.1145/956750.956812. ISBN 978-1-58113-737-8.
  456. ^ This data was used in the American Statistical Association Statistical Graphics and Computing Sections 1999 Data Exposition.
  457. ^ Ma, Justin; Saul, Lawrence K.; Savage, Stefan; Voelker, Geoffrey M. (2009). "Identifying suspicious URLs: An application of large-scale online learning". Proceedings of the 26th Annual International Conference on Machine Learning. pp. 681–688. doi:10.1145/1553374.1553462. ISBN 978-1-60558-516-1.
  458. ^ Levchenko, K.; Pitsillidis, A.; Chachra, N.; Enright, B.; Felegyhazi, M.; Grier, C.; Halvorson, T.; Kanich, C.; Kreibich, C.; He Liu; McCoy, D.; Weaver, N.; Paxson, V.; Voelker, G. M.; Savage, S. (2011). "Click Trajectories: End-to-End Analysis of the Spam Value Chain". 2011 IEEE Symposium on Security and Privacy. pp. 431–446. doi:10.1109/SP.2011.24. ISBN 978-0-7695-4402-1.
  459. ^ Mohammad, Rami M., Fadi Thabtah, and Lee McCluskey. "An assessment of features related to phishing websites using an automated technique."Internet Technology And Secured Transactions, 2012 International Conference for. IEEE, 2012.
  460. ^ Singh, Ashishkumar; Rumantir, Grace; South, Annie; Bethwaite, Blair (2014). "Clustering Experiments on Big Transaction Data for Market Segmentation". Proceedings of the 2014 International Conference on Big Data Science and Computing. pp. 1–7. doi:10.1145/2640087.2644161. ISBN 978-1-4503-2891-3.
  461. ^ Bollacker, Kurt; Evans, Colin; Paritosh, Praveen; Sturge, Tim; Taylor, Jamie (2008). "Freebase: A collaboratively created graph database for structuring human knowledge". Proceedings of the 2008 ACM SIGMOD international conference on Management of data. pp. 1247–1250. doi:10.1145/1376616.1376746. ISBN 978-1-60558-102-6.
  462. ^ Mintz, Mike, et al. "Distant supervision for relation extraction without labeled data." Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009.
  463. ^ Mesterharm, Chris; Pazzani, Michael J. (2011). "Active learning using on-line algorithms". Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining. pp. 850–858. doi:10.1145/2020408.2020553. ISBN 978-1-4503-0813-7.
  464. ^ Wang, Shusen; Zhang, Zhihua (2013). "Improving CUR matrix decomposition and the Nyström approximation via adaptive sampling" (PDF). The Journal of Machine Learning Research. 14 (1): 2729–2769. arXiv:1303.4207. Bibcode:2013arXiv1303.4207W.
  465. ^ a b "The Pile". pile.eleuther.ai. Retrieved 14 April 2022.
  466. ^ "JSON Lines". jsonlines.org. Retrieved 14 April 2022.
  467. ^ Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn (31 December 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027 [cs.CL].
  468. ^ "OSCAR". oscar-project.org. Retrieved 12 August 2023.
  469. ^ Ortiz Suarez, Pedro, et al. "[2]." Asynchronous Pipeline for Processing Huge Corpora on Medium to Low Resource Infrastructures. CMLC-7, 2019.
  470. ^ Abadji, Julien, et al. "[3]." Towards a Cleaner Document-Oriented Multilingual Crawled Corpus. LREC, 2022.
  471. ^ Cohen, Vanya. "OpenWebTextCorpus". OpenWebTextCorpus. Retrieved 9 January 2023.
  472. ^ "openwebtext · Datasets at Hugging Face". huggingface.co. 16 November 2022. Retrieved 9 January 2023.
  473. ^ Saulnier, Lucile (2023). "The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset". arXiv:2303.03915 [cs.CL].
  474. ^ "BigScience Data · Datasets at Hugging Face". huggingface.co. 29 August 2023. Retrieved 29 August 2023.
  475. ^ Cattral, Robert; Oppacher, Franz; Deugo, Dwight (2002). "Evolutionary data mining with automatic rule generalization". Recent Advances in Computers, Computing and Communications: 296–300. S2CID 18625415.
  476. ^ Burton, Ariel N.; Kelly, Paul H. J. (August 2006). "Performance prediction of paging workloads using lightweight tracing". Future Generation Computer Systems. 22 (7): 784–793. doi:10.1016/j.future.2006.02.003.
  477. ^ Bain, M.; Muggleton, S. (1994). "Learning Optimal Chess Strategies". Machine Intelligence 13. pp. 291–309. doi:10.1093/oso/9780198538509.003.0012. ISBN 978-0-19-853850-9.
  478. ^ Quinlan, J. Ross (1983). "Learning Efficient Classification Procedures and Their Application to Chess End Games". Machine Learning. pp. 463–482. doi:10.1007/978-3-662-12405-5_15. ISBN 978-3-662-12407-9.
  479. ^ Shapiro, Alen D. (1987). Structured induction in expert systems. Addison-Wesley Longman Publishing Co., Inc.
  480. ^ Matheus, Christopher J.; Rendell, Larry A. (1989). "Constructive Induction on Decision Trees" (PDF). IJCAI. 89. S2CID 11018089.
  481. ^ Belsley, David A., Edwin Kuh, and Roy E. Welsch. Regression diagnostics: Identifying influential data and sources of collinearity. Vol. 571. John Wiley & Sons, 2005.
  482. ^ Ruotsalo, Tuukka; Aroyo, Lora; Schreiber, Guus (2009). "Knowledge-based linguistic annotation of digital cultural heritage collections" (PDF). IEEE Intelligent Systems. 24 (2): 64–75. Bibcode:2009IISys..24b..64R. doi:10.1109/MIS.2009.32. hdl:1871.1/9f6091aa-9596-46a9-9251-f11edeeb28b7. S2CID 6667472. Archived from the original (PDF) on 16 August 2017. Retrieved 6 December 2018.
  483. ^ Li, Lihong; Chu, Wei; Langford, John; Wang, Xuanhui (2011). "Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms". Proceedings of the fourth ACM international conference on Web search and data mining. pp. 297–306. arXiv:1003.5956. doi:10.1145/1935826.1935878. ISBN 978-1-4503-0493-1.
  484. ^ Yeung, Kam Fung; Yang, Yanyan (2010). "A Proactive Personalized Mobile News Recommendation System". 2010 Developments in E-systems Engineering. pp. 207–212. doi:10.1109/DeSE.2010.40. ISBN 978-1-4244-8044-9.
  485. ^ Gass, Susan E.; Roberts, J. Murray (2006). "The occurrence of the cold-water coral Lophelia pertusa (Scleractinia) on oil and gas platforms in the North Sea: colony growth, recruitment and environmental controls on distribution". Marine Pollution Bulletin. 52 (5): 549–559. Bibcode:2006MarPB..52..549G. doi:10.1016/j.marpolbul.2005.10.002. PMID 16300800.
  486. ^ Gionis, Aristides; Mannila, Heikki; Tsaparas, Panayiotis (March 2007). "Clustering aggregation". ACM Transactions on Knowledge Discovery from Data. 1 (1): 4. doi:10.1145/1217299.1217303.
  487. ^ Obradovic, Zoran, and Slobodan Vucetic.Challenges in Scientific Data Mining: Heterogeneous, Biased, and Large Samples. Technical Report, Center for Information Science and Technology Temple University, 2004.
  488. ^ Van Der Putten, Peter; van Someren, Maarten (2000). "CoIL challenge 2000: The insurance company case". Published by Sentient Machine Research, Amsterdam. Also a Leiden Institute of Advanced Computer Science Technical Report. 9: 1–43.
  489. ^ Mao, K. Z. (2002). "RBF neural network center selection based on Fisher ratio class separability measure". IEEE Transactions on Neural Networks. 13 (5): 1211–1217. Bibcode:2002ITNN...13.1211M. doi:10.1109/tnn.2002.1031953. PMID 18244518.
  490. ^ Olave, Manuel; Rajkovic, Vladislav; Bohanec, Marko (1989). "An application for admission in public school systems" (PDF). Expert Systems in Public Administration. 1: 145–160.
  491. ^ Lizotte, Daniel J.; Madani, Omid; Greiner, Russell (2012). "Budgeted Learning of Naive-Bayes Classifiers". arXiv:1212.2472 [cs.LG].
  492. ^ Lebowitz, Michael (1984). Concept Learning in a Rich Input Domain: Generalization-Based Memory (Report). doi:10.7916/D8KP8990.
  493. ^ Yeh, I-Cheng; Yang, King-Jang; Ting, Tao-Ming (2009). "Knowledge discovery on RFM model using Bernoulli sequence". Expert Systems with Applications. 36 (3): 5866–5871. doi:10.1016/j.eswa.2008.07.018.
  494. ^ Lee, Wen-Chen; Cheng, Bor-Wen (2011). "An intelligent system for improving performance of blood donation". Journal of Quality Vol. 18 (2): 173.
  495. ^ Schmidtmann, Irene, et al. "Evaluation des Krebsregisters NRW Schwerpunkt Record Linkage Archived 6 December 2018 at the Wayback Machine." Abschlußbericht vom 11 (2009).
  496. ^ Sariyar, Murat; Borg, Andreas; Pommerening, Klaus (2011). "Controlling false match rates in record linkage using extreme value theory". Journal of Biomedical Informatics. 44 (4): 648–654. doi:10.1016/j.jbi.2011.02.008. PMID 21352952.
  497. ^ Candillier, Laurent; Lemaire, Vincent (August 2013). "Active learning in the real-world design and analysis of the Nomao challenge". The 2013 International Joint Conference on Neural Networks (IJCNN). Vol. 8. pp. 1–8. doi:10.1109/IJCNN.2013.6706908. ISBN 978-1-4673-6129-3.
  498. ^ Garrido Marquez, Ivan (2013). A domain adaptation method for text classification based on self-adjusted training approach (Thesis).[page needed]
  499. ^ Nagesh, Harsha S., Sanjay Goil, and Alok N. Choudhary. "Adaptive Grids for Clustering Massive Data Sets." SDM. 2001.
  500. ^ Kuzilek, Jakub, et al. "OU Analyse: analysing at-risk students at The Open University." Learning Analytics Review (2015): 1–16.
  501. ^ Siemens, George, et al. Open Learning Analytics: an integrated & modularized platform. Diss. Open University Press, 2011.
  502. ^ Barlacchi, Gianni; De Nadai, Marco; Larcher, Roberto; Casella, Antonio; Chitic, Cristiana; Torrisi, Giovanni; Antonelli, Fabrizio; Vespignani, Alessandro; Pentland, Alex; Lepri, Bruno (27 October 2015). "A multi-source dataset of urban life in the city of Milan and the Province of Trentino". Scientific Data. 2 (1) 150055. Bibcode:2015NatSD...250055B. doi:10.1038/sdata.2015.55. PMC 4622222. PMID 26528394.
  503. ^ Vanschoren J, van Rijn JN, Bischl B, Torgo L (2013). "OpenML: networked science in machine learning". SIGKDD Explorations. 15 (2): 49–60. arXiv:1407.7722. doi:10.1145/2641190.2641198. S2CID 4977460.
  504. ^ Olson RS, La Cava W, Orzechowski P, Urbanowicz RJ, Moore JH (2017). 「PMLB:機械学習の評価と比較のための大規模ベンチマークスイート」. BioData Mining . 10 (1) 36. arXiv : 1703.00512 . Bibcode :2017arXiv170300512O. doi : 10.1186/s13040-017-0154-4 . PMC 5725843. PMID  29238404 . 
  505. ^ 「Off The Shelf Datasets」. appen.com . Appen . 2020年12月30日閲覧
  506. ^ "オープンソース データセット". appen.comアッペン2020 年12 月 30 日に取得
Retrieved from "https://en.wikipedia.org/w/index.php?title=List_of_datasets_for_machine-learning_research&oldid=1326441475"