W3C、音声合成記述言語 SSML 1.0を勧告

2006年8月3日、W3C（World Wide Web Consortium)が音声合成記述言語 SSML 1.0を勧告しました。

SSMLってなに？って方に簡単に説明します。

音声データをWEBで扱う場合、mp3などの音声データでなければ取り扱いが出来ません。しかもそのデータは固定のものなので、フレキシブルに扱う事が出来ません。

W3Cの勧告で音声を容易に取り扱う技術に「Voice XML」と言うものがあります。

下記XMLをVoice XML対応ブラウザに読み込ませると

<?xml version="1.0"?>
<vxml version="1.0">
  <form>
   <block>スカイアーク！</block>
  </form>
</vxml>

PCのスピーカーから「スカイアーク」と聞こえてくるはずです。

また、「SRGS（音声認識文法）」というのもあり、文法で想定されるユーザーの応答を記述し、音声認識システムの挙動を制御する事が出来ます。

これら２つを組み合わせることによって何が出来るかと言うと、たとえば電話でWEBにアクセスする事が出来たりします。

電話で入力した音声を認識し、Voice XMLに変換してサーバーにアクセス、その結果をまたVoice XMLで返し、テキストを音声に変換して電話に返す、と言う事が可能となります。

その場合問題になってくるのが、「〜〜ですか？」という質問に対して肯定する場合、「はい」や「そうです」など人によってばらつきがあると思いますが、SRGSでそれらをグルーピングすることによって、「はい」も「そうです」も肯定という意味を持たせる事が出来ます。

また、さらに問題になってくるのが、たとえば「1/2」をなんと読むか。「半分」や「にぶんのいち」など様々な読み方が出来ると思いますが、それらを指定する事が出来るのがSSMLです。

高齢者の方や視覚障害者の方が電話でWEBにアクセスが出来る。なんてすばらしい世の中でしょうか！（笑