CMU発音辞書

CMU発音辞書
開発者カーネギーメロン大学
安定版リリース
0.7b / 2014年11月19日 (2014年11月19日
入手可能な英語
ライセンスBSD
Webサイトwww .speech .cs .cmu .edu /cgi-bin /cmudict

CMU発音辞書( CMUdictとも呼ばれる) は、カーネギーメロン大学(CMU)の音声グループが音声認識研究で使用するために最初に作成したオープンソースの発音辞書です。

CMUdictは、英語の単語を北米発音にマッピングする綴り字法と音声表記を提供します。これは、 CMU Sphinxシステムなどの音声認識(ASR)やFestivalシステムなどの音声合成(TTS)のための表現を生成するために一般的に使用されています。CMUdictは、辞書にまだ収録されていない単語の発音を生成する統計的書記素音素変換(g2p)モデル[ 1 ]を構築するための学習コーパスとして使用できます。

最新リリースは0.7bで、134,000件以上のエントリが含まれています。インタラクティブな検索バージョンも利用可能です。[ 2 ]

データベース形式

データベースは、1行に1つのエントリが「 」形式で記述されたプレーンテキストファイルとして配布されますWORD  <pronunciation>。各エントリは2つのスペースで区切られます。単語に複数の発音がある場合は、番号付きバージョン(例:WORD(1))を使用して発音のバリエーションが識別されます。発音は、 ARPABETシステムの修正版を使用してエンコードされ、レベル0、1、2の母音に強勢記号が追加されています。行頭の;;;トークンはコメントを示します。音声認識エンジンに直接使用できる派生形式も配布物の一部として提供されています。この形式では強勢の区別が省略されます(通常、ASRでは使用されません)。

以下はCMU発音辞書で使用されている音素の表です。[ 2 ]

母音
アルパベット Rspl.IPA
AAああɑ奇数
AE1つのæ
AH0əəについて
AHえーとʌ小屋
AOああɔべき物語
AWわあ
AY隠れる
EHえーɛエド
母音
アルパベット Rspl.IPA
ERurərɝ ɚ傷つく
EYああ食べ
IHɪそれ
IYee食べる
OWおおオート
OYおいɔɪトイ
UHううʊフード
UWうーんあなた
ストレス
AB 説明
0 ストレスなし
1 一次ストレス
2 二次ストレス
子音
アルパベット Rspl.IPA
Bbbなれ
CHchtchチーズ
Dddディー
DHdhð3
Fff手数料
Gグラムɡ
HHhh
JHjg ee
子音
アルパベット Rspl.IPA
K
Lllリー
Mメートルメートル自分
Nnn
NGングŋピング
Pppピー
Rrr読む
Sssss
子音
アルパベット Rspl.IPA
SHシュʃ彼女
Tttお茶
TH番目θエータ
Vvvv ee
Wwwh私たち
Yyj収率
Zzzジー
ZHzhʒ発作

歴史

バージョン 発売日[ 3 ]ライセンス
0.1 1993年9月16日 パブリックドメイン
0.2 1994年3月10日 パブリックドメイン
0.3 1994年9月28日 パブリックドメイン
0.4 1995年11月8日 パブリックドメイン
0.5 公開なし パブリックドメイン
0.6 1998年8月11日 パブリックドメイン
0.7 公開なし パブリックドメイン
0.7a 2008年2月18日 2節BSD
0.7b 2014年11月19日[ 4 ]2節BSD
GitHub(バージョン管理なし) 2021年5月26日 2節BSD

アプリケーション

参照

参考文献

  1. ^ 「Sequitur G2P - トレーニング可能な書記素から音素へのコンバーター」
  2. ^ a b「CMU発音辞書」 . CMU発音辞書. 2015年7月16日. 2022年6月3日時点のオリジナルよりアーカイブ。 2022年6月4日閲覧
  3. ^ 「FTPリンク」 ftp.cs.cmu.edu ( FTP ) .(ドキュメントを表示するには、ヘルプ:FTPを参照してください)
  4. ^ "CMUdict" . svn.code.sf.net .
  5. ^ “Cmusphinx - リビジョン 10973: /Trunk/Logios” . 2011年5月20日時点のオリジナルよりアーカイブ2009年12月19日閲覧。