主観的なビデオ品質
主観的ビデオ品質とは、人間が体感するビデオ品質です。これは、視聴者(「観察者」または「被験者」とも呼ばれる)がビデオをどのように認識するかに関係し、特定のビデオシーケンスに対する視聴者の意見を表します。これは、体感品質( QoE)の分野に関連しています。PSNRなどの客観的な品質評価アルゴリズムは主観的な評価と相関が低いことが示されているため、主観的なビデオ品質を測定することは不可欠です。主観的な評価は、新しいアルゴリズムを開発するための基準として使用されることもあります。
主観的ビデオ品質テストは、複数の視聴者に与えられた刺激セットを評価してもらう心理物理学的実験です。これらのテストは、時間(準備と実行)と人的資源の面で非常に費用がかかるため、慎重に設計する必要があります。
主観的なビデオ品質テストでは、通常、SRC (「ソース」、つまり元のビデオシーケンス)がさまざまな条件( 「仮想参照回路」の略称HRC )で処理され、PVS(「処理済みビデオシーケンス」)が生成されます。[ 1 ]
測定
主観的なビデオ品質を測定する基本的な考え方は、音声の平均オピニオンスコア(MOS)評価と似ています。ビデオ処理システムの主観的なビデオ品質を評価するには、通常、次の手順に従います。
- テストにはオリジナルの、損傷のないビデオシーケンスを選択してください
- 評価するシステムの設定を選択する
- SRCに設定を適用すると、テストシーケンスが生成されます。
- シーケンスが視聴者にどのように提示され、どのように意見が収集されるかを説明するテスト方法を選択します。
- 視聴者のパネルを招待する
- 特定の環境(例えば、実験室環境)でテストを実行し、各PVSを特定の順序ですべての視聴者に提示します。
- MOSなど、個々のPVS、SRC、HRCの評価結果を計算する
視聴環境の多くのパラメータ(室内照明、ディスプレイの種類、明るさ、コントラスト、解像度、視聴距離、視聴者の年齢や教育レベルなど)が結果に影響を与える可能性があります。したがって、得られた評価と併せてこれらの情報も報告することをお勧めします。
ソースの選択
通常、システムは、代表的な数の異なるコンテンツとコンテンツ特性を用いてテストする必要があります。例えば、アクション映画、ニュース番組、アニメなど、様々なジャンルのコンテンツから抜粋した動画をテストに使用できます。ソースビデオの長さはテストの目的によって異なりますが、通常は10秒以上のシーケンスが使用されます。
動きの量と空間的な詳細度も幅広い範囲をカバーする必要があります。これにより、テストには複雑さの異なるシーケンスが含まれるようになります。
ソースは純粋な品質である必要があります。目に見えるコーディングアーティファクトや、元のシーケンスの品質を低下させるようなその他の特性があってはなりません。
設定
HRCの設計は、研究対象のシステムによって異なります。通常、この段階で複数の独立変数が導入され、それらは複数のレベルで変化します。例えば、ビデオコーデックの品質をテストする場合、独立変数としては、ビデオエンコードソフトウェア、目標ビットレート、処理対象シーケンスの目標解像度などが挙げられます。
品質範囲全体を網羅する評価が得られる設定を選択することをお勧めします。言い換えれば、絶対カテゴリー評価スケールを想定すると、視聴者が悪いから優れているまで評価するであろうシーケンスがテストで表示されるはずです。
視聴者
視聴者数
視聴者は「観察者」または「被験者」とも呼ばれます。被験者数が多いほど、例えば平均評価の標準偏差が小さくなるなど、実験結果の信頼性が高まるため、研究には一定数の視聴者を招待する必要があります。さらに、評価中に信頼性の低い行動を示した被験者を除外しなければならないリスクもあります。
主観的映像品質調査に必要な被験者の最小数は厳密には定義されていない。ITU -Tによれば、4人から40人の間で任意の数が可能だが、統計的な理由から4人は絶対的な最小数であり、40人を超える被験者を招待しても付加価値はない。一般的に、実験には少なくとも15人の観察者が参加する必要がある。観察者は業務の一環として画質評価に直接関与してはならず、経験豊富な評価者であってはならない。[ 2 ]他の文書では、意味のある平均評価を得るには少なくとも10人の被験者が必要であるとされている。[ 3 ]
しかし、被験者数に関する推奨事項のほとんどは、家庭用テレビやパソコンのユーザーが視聴するビデオ品質の測定を目的としており、歪みの範囲と多様性は限定的である傾向があります(例:エンコードアーティファクトのみ)。モバイルデバイスで撮影されたビデオや無線ネットワーク経由で伝送されたビデオでは、広範囲かつ多様な劣化が発生する可能性があるため、一般的にはより多くの被験者が必要となる場合があります。
BrunnströmとBarkowskyは、既存の主観的テストに基づいて、必要な被験者の最小数を推定するための計算を提供しました。[ 4 ]彼らは、評価を比較する際に統計的に有意な差を保証するためには、通常推奨されるよりも多くの被験者が必要になる可能性があると主張しています。
視聴者の選択
視聴者は、ビデオコーディングや関連分野の専門家ではないという意味で、非専門家である必要があります。この要件は、被験者へのバイアスを回避するために導入されています。[ 2 ]
通常、スネレン視力表を用いて正常視力または矯正視力の検査が行われます。色覚異常は石原色覚表を用いて検査されることが多いです。[ 2 ]
QoEコミュニティでは、視聴者の文化的、社会的、経済的背景が、得られる主観的なビデオ品質結果に大きな影響を与えるかどうかについて、継続的な議論が続いています。4カ国6つの研究所が参加した体系的な研究では、被験者の言語、文化、出身国がビデオ品質評価に統計的に有意な影響を与えることは確認されませんでした。[ 5 ]
テスト環境
主観的品質テストはあらゆる環境で実施できます。しかし、異質な環境要因の影響を考慮すると、通常は専用の実験室などの中立的な環境でテストを行うことが推奨されます。このような部屋は防音対策が施され、壁はニュートラルグレーに塗装され、適切に調整された光源が使用されていることが考えられます。いくつかの推奨事項では、これらの条件が規定されています。[ 6 ] [ 7 ]制御された環境では、得られたスコアの変動性が低くなることが示されています。[ 5 ]
クラウドソーシング
クラウドソーシングは近年、主観的なビデオ品質評価、特に体験品質(QoE)の文脈で利用されています。[ 8 ]視聴者は、実験室で主観的な品質テストを受けるのではなく、自宅のパソコンを使って評価を行います。この方法は、従来の主観テストよりも低コストでより多くの結果を得ることができますが、収集された回答の妥当性と信頼性を慎重に検証する必要があります。[ 9 ]
結果の分析
視聴者の意見は通常、平均オピニオンスコア(MOS)に平均化されます。この目的のために、カテゴリ尺度のラベルを数値に変換する場合があります。例えば、「悪い」から「非常に良い」までの回答を1から5の値にマッピングし、平均化することができます。MOS値は、観察者間の一般的な一致を評価できるように、常に統計的信頼区間とともに報告する必要があります。
被験者スクリーニング
多くの場合、結果を評価する前に追加の措置が取られます。被験者スクリーニングとは、評価が無効または信頼できないと判断された視聴者を、それ以上の分析から除外するプロセスです。被験者はビデオを見ずに評価したり、テスト中にカンニングしたりする可能性があるため、無効な評価を検出することは困難です。被験者の全体的な信頼性はさまざまな手順で判断でき、その一部はITU-RおよびITU-T勧告に概説されています。[ 2 ] [ 7 ]たとえば、すべてのシーケンスで評価された個人のスコアと全体的なMOSの相関関係は、残りのテスト参加者と比較した信頼性の良い指標となります。
高度なモデル
人間は刺激を評価する際にバイアスの影響を受けます。バイアスは、異なる不正確な評価行動につながり、結果として刺激の「真の質」を反映しないMOS値をもたらす可能性があります。近年、評価プロセスを形式的に記述し、主観的評価におけるノイズを回復することを目的とした高度なモデルが提案されています。Janowskiらによると、被験者は一般的に評価値を変化させる意見バイアスと、評価対象となる被験者と刺激に依存する評価の不正確さを持つ可能性があります。[ 10 ] Liらは、被験者の不一致と内容の曖昧さを区別することを提案しています。[ 11 ]
標準化されたテスト方法
適切なシーケンス、システム設定、試験方法を選択する方法は数多くあります。そのうちいくつかは標準化されており、ITU-RおよびITU-Tの複数の勧告、特にITU-R BT.500 [ 7 ]やITU-T P.910 [ 2 ]で詳細に規定されています。一部重複する点もありますが、BT.500勧告は放送にルーツを持ち、P.910はマルチメディアコンテンツに重点を置いています。
標準化されたテスト方法では、通常、次の側面が説明されます。
- 実験セッションの継続時間
- 実験が行われる場所
- 各PVSを何回、どの順番で視聴するか
- 評価は刺激ごとに1回(例えば、提示後)行われるか、継続的に行われるか
- 評価が絶対的なものか(つまり、1つの刺激のみを参照するもの)、それとも相対的なものか(2つ以上の刺激を比較するもの)
- どのスケールの評価を受けるか
もう一つの勧告であるITU-T P.913 [ 6 ]では、研究者に一般的な試験室とは異なる環境で主観的な品質テストを実施する自由を与えていますが、そのようなテストを再現可能にするために必要なすべての詳細を報告することを要求しています。
例
以下に、標準化されたテスト手順のいくつかの例を説明します。
単一刺激
- ACR(絶対カテゴリー評価):[ 2 ]各シーケンスはACRスケールに基づいて個別に評価されます。スケール上のラベルは「悪い」「悪い」「普通」「良い」「優れている」で、MOSの計算時には1、2、3、4、5の値に変換されます。
- ACR-HR(隠蔽参照による絶対カテゴリー評価):ACRのバリエーションで、障害のあるシーケンスに加えて、元の障害のないソースシーケンスも表示されますが、被験者にはその存在を知らせません(したがって、「隠蔽」)。評価は、参照バージョンと障害のあるバージョンの差分スコアとして計算されます。差分スコアは、PVSのスコアから隠蔽参照に与えられたスコアを差し引き、スケール上のポイント数を加えたものとして定義されます。たとえば、PVSが「不良」と評価され、対応する隠蔽参照が「良好」と評価された場合、評価は となります。これらの評価を平均すると、結果はMOSではなく、差分MOS(「DMOS」)になります。
- SSCQE(単一刺激連続品質評価)[ 7 ] :スライダー装置(フェーダーの一種)を用いて、より長いシーケンスを時間の経過とともに継続的に評価し、被験者は現在の品質を評価します。サンプルは一定の間隔で採取されるため、単一の品質評価ではなく、時間の経過に伴う品質曲線が得られます。
二重刺激または多重刺激
- DSCQS(二重刺激連続品質尺度)[ 7 ] :視聴者は、障害のない参照画像と障害のあるシーケンスをランダムな順序で視聴します。視聴者はシーケンスを再度視聴し、ACRカテゴリーでラベル付けされた連続尺度上で両方の品質を評価します。
- DSIS(二重刺激障害尺度)[ 7 ]とDCR(劣化カテゴリー評価)[ 2 ]はどちらも同じ手法を指します。視聴者は、まず障害のない基準ビデオを視聴し、次に同じ障害のあるビデオを視聴します。その後、いわゆる障害尺度(「障害は知覚できない」から「障害は非常に不快」まで)を用いて、2つ目のビデオについて投票を求められます。
- PC(ペア比較): [ 2 ]障害のないシーケンスと障害のあるシーケンスを比較するのではなく、異なる障害タイプ(HRC)を比較します。HRCのあらゆる可能な組み合わせを評価する必要があります。
方法論の選択
どの方法を選択するかは、試験の目的と時間その他のリソースの制約に大きく依存します。方法によっては、望ましくない試験バイアスとなる文脈効果(刺激の順序が結果に影響を及ぼす場合など)が少ない場合があります。[ 12 ] ITU-T P.910では、特に高品質システムにおける伝送忠実度の試験にはDCRなどの方法を用いるべきであるとされています。ACRとACR-HRは、絶対的な結果が得られるため、適格性試験やシステムの比較に適しています。PC法は識別力が高いですが、より長い試験セッションが必要となります。
データベース
使用された刺激を含む主観的品質テストの結果は、データベースと呼ばれます。こうした研究に基づいた多くの主観的な画像およびビデオ品質データベースが、研究機関によって公開されています。これらのデータベース(一部は事実上の標準となっています)は、開発されたモデルを得られた主観データに対してトレーニングできるため、世界中のテレビ、映画、ビデオエンジニアによって客観的な品質モデルの設計とテストに世界的に使用されています。公開されているデータベースの概要は、ビデオ品質専門家グループによってまとめられており、ビデオアセットはコンシューマーデジタルビデオライブラリで公開されています。
参考文献
- ^ ITU-Tチュートリアル:ビデオ品質の客観的知覚評価:フルリファレンステレビ、2004年。
- ^ a b c d e f g h ITU-T勧告P.910:マルチメディアアプリケーションの主観的ビデオ品質評価方法、2008年。
- ^ウィンクラー、ステファン。「ビデオ品質実験における主観評価の特性について」。マルチメディア体験品質会議論文集 、2009年。
- ^ Brunnström, Kjell; Barkowsky, Marcus (2018-09-25). 「統計的経験品質分析:サンプルサイズの計画と統計的有意性検定について」 . Journal of Electronic Imaging . 27 (5) 053013. Bibcode : 2018JEI....27e3013B . doi : 10.1117/1.jei.27.5.053013 . ISSN 1017-9909 . S2CID 53058660 .
- ^ a b Pinson, MH; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. (2012年10月). 「被験者と環境が視聴覚主観テストに与える影響:国際研究」(PDF) . IEEE Journal of Selected Topics in Signal Processing . 6 (6): 640– 651. Bibcode : 2012ISTSP...6..640P . doi : 10.1109/jstsp.2012.2215306 . ISSN 1932-4553 . S2CID 10667847 .
- ^ a b ITU-T P.913: インターネットビデオおよび配信品質テレビのビデオ品質、オーディオ品質、視聴覚品質の主観的評価方法、あらゆる環境下での、2014年。
- ^ a b c d e f ITU-R BT.500:テレビ画像の品質の主観的評価の方法論、2012年。
- ^ Hossfeld, Tobias (2014-01-15). 「QoEクラウドテストのベストプラクティス:クラウドソーシングによるQoE評価」. IEEE Transactions on Multimedia . 16 (2): 541– 558. doi : 10.1109/TMM.2013.2291663 . S2CID 16862362 .
- ^ Hossfeld, Tobias; Hirth, Matthias; Redi, Judith; Mazza, Filippo; Korshunov, Pavel; Naderi, Babak; Seufert, Michael; Gardlo, Bruno; Egger, Sebastian (2014年10月). 「クラウドソーシングによるQoEのベストプラクティスと推奨事項 - Qualinetタスクフォース「クラウドソーシング」から学んだ教訓」「 . hal-01078761 」
{{cite journal}}:ジャーナルを引用するには|journal=(ヘルプ)が必要です - ^ Janowski, Lucjan; Pinson, Margaret (2015). 「質の高い実験における被験者の正確性:理論的被験者モデル」 . IEEE Transactions on Multimedia . 17 (12): 2210– 2224. doi : 10.1109/tmm.2015.2484963 . ISSN 1520-9210 . S2CID 22343847 .
- ^ Li, Zhi; Bampis, Christos G. (2017). 「ノイズの多い測定から主観的品質スコアを復元する」. 2017 Data Compression Conference (DCC) . IEEE. pp. 52– 61. arXiv : 1611.01715 . doi : 10.1109/dcc.2017.26 . ISBN 978-1-5090-6721-3. S2CID 14251604 .
- ^ Pinson, Margaret、Wolf, Stephen.「主観的ビデオ品質テスト方法論の比較」 SPIEビデオ通信および画像処理会議、ルガーノ、スイス、2003年7月。