私も音質のレビューを書くときによく「解像力」という言葉を使います。しかしながら、突っ込まれれば「解像力」って音ではなく像だからデジタルカメラの言葉じゃないって言われてもおかしくはありません。でもオーディオでも音像っていうし、と言い訳したりもします。
最近ハイレゾ関連の話題もあり、解像力やらレゾリューションなどが語られますが、あいまいに語られることも多いのはひとつは音が目で見えないために説明しにくいということがあると思います。人間は外部情報の9割を視覚に頼っているという話もありますが、実のところ画像化すると納得しやすいというところもあるでしょう。
私はオーディオもカメラもそれなりに深みにはまっているわけですが、デジタルの分野において画像とオーディオが基本的に置き換え可能な共通概念があるということには気がついていました。
1. 音と画像のデジタル処理の共通点
まず簡単にアナログとデジタルのおさらいをしながら、デジタル化におけるオーディオと画像の共通項を考えます。
簡単に言うとある波をデータとして記録する際に、波を波の形として記録するのがアナログ記録方式であり、波をいったん数値に変換するのがデジタル記録です。
たとえば空気を伝わる音の振動の波形をアナログレコード盤の溝でも拡大すると似たように波形のように記録しています。似た形で記録するのでアナログ記録と呼びます。Analogueの英語の意味は"類似"とか"近似"です。
デジタルでは音の振動をアナログのようにそのままではなく0と1の数値にいったん変換して記録します。数値にするとどういう良い点があるかというと、仮に1が多少汚れて1となっても読みだすときは1と見なせますので、メディアに汚れがあっても音質に変化がありません。アナログでは溝が汚れると汚れた音になります。さらに数値ならば加算することで記録に間違いがあっても発見・訂正が容易です。
よくデジタルを断続、アナログを連続と言いますが、それぞれ本当は、断続というより数値化、連続というより類似です。そう理解するとより正しく見えてくると思います。
デジタル記録では数値化が必要ですから、数値にするためにはもともと一続きのものを細切れに分割する(離散化する)必要があります。これをサンプリングといいます。分割(サンプリング)したデータを数値化します。これが量子化です。
このように、サンプリングと量子化の二点がデジタル記録の肝ですが、それぞれデジタルオーディオとデジタルカメラに例えると下記のようになります。
*サンプリング (どう分割するか)
オーディオ: サンプリングレート(例 44kHzとか96kHzなど) → 1秒間の音の変化を細かく区切る
カメラ: 画素数(例 1000万画素とか、4Kなどの言い方) → レンズが結像する像面を細かく区切る
*量子化 (分割したものを数値化)
オーディオ: ビット数(例 16bitや24bit) → 音の強度を記録
カメラ: ビット数(例 8bitや12bit) → 光の明度を記録
量子化後の数値は人の視覚・聴覚に関係するものなので、測定の基準は両方ともダイナミックレンジです(dB)。オーディオでは16bitで96dB、人の聴覚限界は約120dBといわれています。画像では8bitで50dB(不確か)、人の視覚限界は約80dB(不確か)だったと思います。(カメラにおいてはステップ数・段数の方が一般的です)
なお画像では8bitというとRGBの一色についてであり、フルカラー1670万色という場合はRGBの組み合わせです(8bit=256ですから、256^3=16777216)。センサー自体は色は分からず、モノクロの光の強さを感じるだけです。そのため発色にはカラーフィルタを組み合わせて近傍と計算処理後に色に変換してから記録する必要があります。一方でオーディオも時間方向のジッターなどがあるので、オーディオとカメラ画像はまったく同じということではありません、念のため。
しかし、理解のための考え方は置き換えできるということが本稿の趣旨です。
2. 音を画像で見る、アップサンプリング
タイトルで書いた音を画像で見るというのは、音の波形をオシロで解析するというのではなく、音の世界を画像の世界で例えて説明するということです。
下記のHQ PlayerのSignalystのページに面白い例として、アップサンプリングの説明があります。
http://www.signalyst.com/upsampling.html
このページの一番上の大きい画像が192kHz / 24bitを例えた画像です。すぐ下の小さい画像が44kHz / 16bitのCD品質です。これは192kHz / 24bitのマスターをダウンサンプルしたと考えても良いでしょう。
画像で見るとこのようにハイレゾは大きな画像として見ることができます。これによりデータ量が大きいということが視覚的に分かりやすいと思います。実際にはMQAの三角形の説明であったように、ほんとに数倍あるデータの全てが意味があるのかという問題もありますが、それはこうした基本を踏まえたうえで討議すべき問題でしょう。
ちなみにこれは画面解像度を同じにしているため画像サイズの大小として見えますが、同じサイズ(たとえば2Lサイズ)に印刷すると印刷解像度があがることで細かい画像になるということが分かります。
上の44/16と192/24は音源データの例えでしたが、この二枚以降はDA変換されたデータストリームの例えになっています。
44/16の下の二枚ではフィルタを適用しないと本来ないはずの縞模様が浮き出してくるのも分かると思います。これはオーディオでも言うところのアーチファクト(計算副作用)です。初めの一枚にフィルタを加えることで干渉縞を滑らかにすることができます。
次に大きな画像は44/16を4倍オーバーサンプリングした画像で、データサイズは192kHz / 24bitの音源データと同じことが分かると思います。ただし元の192kHz / 24bitのマスターに比べると計算的に拡大したため細部は粗くなっています。次の二枚ではフィルタリングをしたり、高品質アップサンプリングをすることで細部の粗さが改善されていくことが見て分かります。ただし元の192kHz / 24bitデータには画質は及ばないわけで、この辺りが良く「ハイレゾ相当」と呼ばれる品質ですね。
注意してほしいのは「192kHz相当」であってもデータのサイズはあくまで192kHzと同じであるということです。つまり中身の品質がどうあろうと、ナイキスト周波数は同じです。これはローパスフィルタなど回路設計に関係してくると思います。
3. 目で見るナイキスト周波数
もうひとつ画像で考えた場合に分かりやすいものの例はこの「ナイキスト周波数」だと思います。
ナイキストの定理というのは簡単に言うとデジタル記録における実際の解像力は最大解像力の半分であるということです。さきに書いたようにオーディオでの解像力は定義としてはサンプリングレートに相当します。
たとえばCDはサンプリングレートが44kHzですから、実際に有意に記録できるのは22kHzまでで、これをナイキスト周波数と言います。人の耳に聞こえるのは20kHzと言われていますから、人が聞こえる音をすべて記録するためには20kHz必要であり(実際の解像力)、そこから40kHzがサンプリングレートとして必要と言うことが導かれます(最大解像力)。実際には40kHzではなく44kHzになっているのは当時のなんだったかデジタル記録方式との互換性だったと思います。
22kHzから44kHzまでの領域は通常はノイズとしてSNを下げる原因となるのでローパスフィルタで除去されます。なぜノイズとなるのかはエイリアシングという問題があるからです。
ナイキスト周波数とはいいかえるとエイリアシングが発生しない一番高い周波数のことです。もう少し端的に言うと、意味のある信号が得られるもっとも高い周波数です。(ですからMQAの説明でもナイキスト周波数で切られています)
そのためナイキスト周波数の理解の肝はエイリアシングを理解するということだと思います。このエイリアシングは自転車のスポークの回転に例えられることもありますが、オーディオ的にはなかなかどういうものか直観的に理解がむずかしいところです。そこをカメラ画像に置き換えて説明してみます。
ナイキストの定理というのは、たとえばセンサーのピクセルとピクセルの間に髪の毛があるときに、その髪の毛の太さとセンサーのピクセルの大きさとの関係です。
下記の図において、四角はセンサーで、赤い丸は髪の毛です。
この髪の毛がセンサーのピクセルと同じ大きさの時(1と2)、センサーにうまく重なれば記録されます(1)。しかしピクセルとピクセルのあいだに挟まると(2)どちらのピクセルに映るのか映らないかが決定できません。この状態がエイリアシング(aliasing)です。これは言い換えると連続のものをぶつ切りにして記録することで生じる中途半端な状態のことです。Alias自体は別名と訳されますが、偽の(証明されていない)という語彙を含んでいるので、Aliasingは確定していない状態という感じの意味だと思います。
決定できない状態はこの髪の毛を少しずつ左右にずらしても同じです。この髪の毛がセンサーに必ず記録されるための条件は、髪の毛の大きさがセンサーの2倍であることです(3と4)。このとき、どの方向に動かしても髪の毛はかならずどこかのセンサーをカバーします。
つまり言い換えると、ある太さの髪の毛を確実に記録するために必要なセンサーのサイズは、髪の毛の太さの1/2です。つまりセンサーの数は倍必要になり、解像力は2倍必要ということが分かると思います。
オーディオであれば、44KHzのサンプリングレートで44kHzのデータは「確実に」サンプリングできません。不確か、つまりエイリアシングの状態(上図の1と2)でサンプリングされることになります。
つまり1/22000秒というサンプリングの間隔を確実に記録するためにはその半分の細かさの1/44000秒の間隔が必要であるということです。つまり22kHzの周波数の音を記録するためには44kHzの解像力が必要です。
ちなみに画像における「高い周波数」とはビルと家の隙間のようなごちゃごちゃしたところです。低い周波数は青空などです。高い周波数のところではノイズである偽色(アーチファクト)が出やすいので、ローパスフィルタ(カメラの場合は結晶板)を適用します。オーディオにおいては高い周波数とはご存じのように高い音です。
もちろんカメラはADであり、オーディオはDAであるなど違いはありますが、ナイキストの定理というものが連続的なものをぶつ切りにする(デジタル化)ことで生じる原理的なものだということは分かってもらえると思います。
4. シャープネスの単位を考える
最後に「シャープネス」について考えてみます。
はじめに書いたように音質レビューでは音がシャープだとよく書きますが、画像のほうのカメラの世界でもやはりレンズの「シャープさ」と良く言います。
しかし「シャープさ」の単位はなに?と問えば、それが測定できない感覚的な概念だとわかるでしょう。レンズの世界では一般的に使われる解像力はMTFと呼ばれる空間コントラスト密度を使用します。しかし低い周波数のときの10本線MTFと高い周波数のときの30本線MTFに違いがある場合、それぞれで人によって10本線MTFが高いレンズ(いわゆるドイツ型)がシャープであるとか、30本線MTFが高いレンズ(国産型)がシャープであるというのは昔から議論があります。MTF自体は測定できても、それをシャープ、尖鋭的と感じるのは人の感覚によるものだからです。
ここは意図的に解像力とコントラストをごっちゃにして語っているのですが、実のところシャープさというのはあいまいで感覚的なものです。
一方でMTFはフィルム時代から使われているものですが、時代がデジタルになってくるとDXOベンチマークのLens Blurなど、別な視点でのシャープさの定義というのも模索されています。そうした意味ではデジタル信号のシャープさという考え方も必要なのかもしれません。たとえばMQAのところでMeridianのボブ・スチュワートはtemporal Blur(時間方向のプレ・ボケ)という言葉を使っています。オーディオでもなにかそうした新しい基準が必要になってきているようにも思います。
実のところ、実用的なデジタル化が始まったのはカメラは90年代後半くらいですが、オーディオでは80年代のCDからはじまっているので、デジタル化という意味ではオーディオの方が古いのですが、カメラにおいては当初からユーザーがデジタル処理を意識していたのに対して、オーディオではユーザーがデジタル処理を意識するのはPCオーディオが言われてきたここ数年ですから、そうした点ではカメラの方が先駆的な点もあるでしょう。
オーディオもカメラも古くからの伝統のあるものですが、デジタル化によってそれぞれの世界をヒントにしたり智恵を相互に融通ができるようになったと考えれば相乗効果があるといえるのではないかと思います。
Music TO GO!
2015年03月15日
この記事へのトラックバック