電子書籍は音声読み上げで売れるようになる

2010.06.01

JEPA 事務局  三瓶 徹

 ここで言う音声読み上げとは、名優が朗読したオーディオブックや、ボランティアが録音した視覚障がい者用の録音図書のことではありません。純電子的に行うテキストデータの音声読み上げ(TTS: Text to Speech)のことで、音声合成技術の応用です。
 実は、皆様が使われている携帯電話の音声にも音声分析&合成技術が使われています。「電話の声は俺の声だ、合成音声なんかではない」というのも無理はありませんが、そのルーツは40年前に当時の電電公社の板倉さんの偏自己相関係数の研究成果が基になっています。残念ながら後から発表した米国研究者の線形予測法の名前の方が有名になって、日本の研究者の間では癪の種でした。
 この技術、判り易く言うと、元の声から話者の喉の形と声帯の振動数を抽出することでデータ量を小さくし、それを伝送して逆に声帯の振動数と喉の形から合成して声にしています。携帯電話の音質が固定電話より悪いのは、これが原因です。「人間の声が携帯電話を通ることは判ったが、犬のポチの鳴き声も通るよ?」 うん、犬も喉があるから通ります。楽器の音も、酷いけど、それなりに通ります。
 TTSでは、音声の素片の元データとして、この日本で生まれ米国で名前を付けられた線形予測法が使われています。声帯の振動数と喉の形であれば、何倍速で再生しても声が高くなったりしません。コンピュータでの加工も楽になりました。
 技術のルーツは日本なのにTTSは米国で育ちました。原因は大きくは2つあると考えられています。
 1つは、米国では一般に障がい者への配慮が進んでいることです。一方的に庇護するのではなく、ゴルフ同様に障がい者にはハンデを克服するハンディキャップを与え、健常人と対等に競争しようと、手を差し伸べます。MITのDennis Klattは、自分自身が口頭癌だったこともあり、TTSに力を入れ「Klattalk」を作り、今では多くのコンピュータ系の企業で、「Klattalk」を発展継承しています。TTSは視覚障がい者だけでなく、言葉を発することが困難な人にも、画面読み上げソフト(スクリーンリーダー)として長く利用されてきました。
 一方日本では、文芸書、学術書、教科書と多様な本がある中で、電子化した場合の著作者の権利をどう守り、一方で多様な読者(子供から老齢者までの老若男女、障がい者)の利便性にどこまで配慮するのか、といった基本的なことが、出版界や読者の間で、十分に議論する機会が無かったことで、TTSに対して著者も出版社も二の足を踏んでいたのでは、と思っています。
 また、日本語には表意文字である漢字に仮名が交じるため、音声品質を上げようとすると高度な文章解析(自然言語処理)が必要になるなどCPUパワーと大きなメモリを必要としました。しかし今では、全く問題にはなりません。
 今まで読者になり得なかった人たちを市場のターゲットとすることは、出版市場の拡大に大きな可能性があります。そのためには、電子出版にTTSを積極的に取り入れ、読書障がい者を含む、より多くの人が“本を読む”機会を増やすことが重要になると信じています。