「Push-To-Talk」基幹系システムを用いた、全二重通信方式用の全自動PTT案に関する検討。
……これは単なるメモ。
「ウィルコム定額プラン方式」と「手動PTT方式」の中間。
マイクONの間録音し続ける。マイクOffになったらエンコードして、エラー訂正つきでパケットを投げる。
……って、この方法では従来PTTよりも使いづらいか。
手動PTTのような「半二重通信(一人はしゃべるだけ、他は聞くだけ)」ではなくて、ここで掲げるのは「全二重通信(一対一で喋りつつ聞く)」のための仕掛けです……一台の端末で「送信しつつ受信する」様に設計する点に注意。
- マイクOnの間は次の処理をして、エラー訂正付きパケットを投げる。
- とりあえず録音開始。バッファはFIFOで、容量は10秒ぐらいか。
- 録音内容は逐次「音声認識機能」を用いて内容抽出し、逐次「形態素解析」を行っていく。
- 形態素解析の結果、音声を区切って送出してもよい場面を見つけた時点で、「先頭〜区切り位置」を切り出す。
- 形態素解析に基づき切り出した音声データは、ネットワークの遅延度合いと速度に見合う圧縮率で圧縮し、エラー訂正つきで送出する。
- 受信側では次の処理を行う。
- 送信側では次の処理を行う。
- パケットを送出してから「パケット受領通知」が帰ってくるまでの時間を測定しておく。
- この時間が妙に長い場合は「より短時間でデータが通るように圧縮率を上げる」ようにエンコーダの設定を変更する。
- 逆にすぐ返答が来る場合は「より明瞭度が上がるように圧縮率を下げる」ようにエンコーダの設定を変更する。
- 「通話終了」ボタンを押さない限りは、振り出しに戻る。
- パケットを送出してから「パケット受領通知」が帰ってくるまでの時間を測定しておく。
……と、こんな感じのシステムを作れば
- 「PTTスイッチ不要」
- 「ネットワークの伝送速度を十分活用できる」
- 「音声通話でありながら、ネットワーク遅延が発生しても会話はとりあえず成立する」
というシステムができる、と。
こういう方式であれば、今までは遅延の少ない有線系でしか使えなかった「パケット音声交換」が、遅延の大きい無線系でもとりあえずは使えそうな気がする。
……もっとも、ネットワークに負荷が掛からないという利点を得るために
- 「ユーザに対して途切れ途切れの音声を提供する」
- 「長い音声の後の短い音声」は続けて再生できるけど、「短い音声の後の長い音声」は最大10秒途切れてしまう。
- 音声品質がダイナミックに変化してしまう。
- 自然さをあげようとすれば「10秒近くの遅延が発生する」し、遅延を少なくしようとすれば「形態素解析での区切りマークが来るたびに音声がぶつ切りにされてしまう」。
- そもそも「音声認識エンジン」と「形態素解析エンジン」と「圧縮率可変型の音声圧縮・展開エンジン」を必要としてしまう。
という重荷を背負うのは、コスト的に見合わないような気はしますけれども。
……うーん、完璧に夢物語(というか妄言)ですなorz