W3C、音声合成記述言語 SSML 1.0を勧告
2006年8月3日、W3C(World Wide Web Consortium)が音声合成記述言語 SSML 1.0を勧告しました。
SSMLってなに?って方に簡単に説明します。
音声データをWEBで扱う場合、mp3などの音声データでなければ取り扱いが出来ません。しかもそのデータは固定のものなので、フレキシブルに扱う事が出来ません。
W3Cの勧告で音声を容易に取り扱う技術に「Voice XML」と言うものがあります。
下記XMLをVoice XML対応ブラウザに読み込ませると
<?xml version="1.0"?>
<vxml version="1.0">
<form>
<block>スカイアーク!</block>
</form>
</vxml>
PCのスピーカーから「スカイアーク」と聞こえてくるはずです。
また、「SRGS(音声認識文法)」というのもあり、文法で想定されるユーザーの応答を記述し、音声認識システムの挙動を制御する事が出来ます。
これら2つを組み合わせることによって何が出来るかと言うと、たとえば電話でWEBにアクセスする事が出来たりします。
電話で入力した音声を認識し、Voice XMLに変換してサーバーにアクセス、その結果をまたVoice XMLで返し、テキストを音声に変換して電話に返す、と言う事が可能となります。
その場合問題になってくるのが、「〜〜ですか?」という質問に対して肯定する場合、「はい」や「そうです」など人によってばらつきがあると思いますが、SRGSでそれらをグルーピングすることによって、「はい」も「そうです」も肯定という意味を持たせる事が出来ます。
また、さらに問題になってくるのが、たとえば「1/2」をなんと読むか。「半分」や「にぶんのいち」など様々な読み方が出来ると思いますが、それらを指定する事が出来るのがSSMLです。
高齢者の方や視覚障害者の方が電話でWEBにアクセスが出来る。なんてすばらしい世の中でしょうか!(笑