ブラウザで音声認識、音声合成を行う [Web Speech API]

機械学習ライブラリの「TensorFlow」や「PyTorch」を直接的に使用せずにHTML5とJavaScriptを用いて「音声認識」「音声合成」を行います。

これらは実験的な機能ですがChromeに関しては2014年のバージョン33から搭載されており、今後、一般化されるものと思われます。

※精度に関しては各ブラウザが使用している人工知能によって異なります。

デモ

音声認識
https://www.petitmonte.com/ai/#SpeechRecognition

音声合成
https://www.petitmonte.com/ai/#SpeechSynthesis

音声認識のソースコード

<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="UTF-8">
</head>
<body>

<h1>音声認識 (Speech To Text : STT)</h1>
<button id="btn_stt">音声認識をする</button>
<div>
  <p id="output_stt">ここに結果が返ります。</p>
  <p id="confidence_stt"></p>
</div>

<script>
var SpeechRecognition = SpeechRecognition;
if (!SpeechRecognition){
  if (typeof webkitSpeechRecognition !== 'undefined'){
    SpeechRecognition = webkitSpeechRecognition;
  }
}

if (SpeechRecognition){
  var btn_stt = document.getElementById('btn_stt');  
  btn_stt.onclick = function(){
    btn_stt.disabled = true;

    // SpeechRecognitionの生成
    var recognition = new SpeechRecognition();  
    recognition.lang = 'ja'; 

    // 音声認識の開始
    recognition.start();
    
    // 結果
    recognition.onresult = function(event) {
      
      // 文字列の取得
      var speechResult = event.results[0][0].transcript;
      document.getElementById('output_stt').innerHTML = '認識結果：' + speechResult + '。';
      
      // 信頼度 ※Egdeは現在(2021/06)、信頼度には非対応で常に0になる
      document.getElementById('confidence_stt').innerHTML = '信頼度： ' + event.results[0][0].confidence + 
          '<br>※信頼度は0.0 ～ 1.0で1.0に近いほど信頼度が高いです。';

      console.log(event.results);
    }
    
    // スピーチの終了
    recognition.onspeechend = function() {
      recognition.stop();
      btn_stt.disabled = false;
    }
    
    // エラー
    recognition.onerror = function(event) {
      btn_stt.disabled = false;
      alert('エラーが発生しました。');
    }
  }
}else{
  alert('ブラウザはChromeをお使いください。');
}
</script>
</body>
</html>

※動作確認はChrome、Microsoft Edgeです。

音声合成のソースコード

ソースをコピー

<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="UTF-8">
</head>
<body>

<h1>音声合成 (Text To Speech : TTS)</h1>
<p>以下に文字を入力して「再生する」を押します。音声はコンボボックスで切り替えます。</p>
<form id="form_tts">
  <input type="text" id="txt_tts" style="width:80%;font-size:24px;">
  <p></p>
  <div>
    <label for="rate_tts">再生速度</label> <input type="range" min="0.5" max="2" value="1" step="0.1" id="rate_tts">&nbsp;&nbsp;<span id="rate-value-tts">1</span>
  </div>
  <div>
    <label for="pitch_tts">ピッチ(音高)</label> <input type="range" min="0" max="2" value="1" step="0.1" id="pitch_tts">&nbsp;&nbsp;<span id="pitch-value-tts">1</span>
  </div>
  <select id="select_tts">
  </select>
  <p></p>
  <button id="play" type="submit">再生する</button>
</form>

<script>
var synth = window.speechSynthesis;

if (synth){
  var form_tts   = document.getElementById('form_tts');
  var txt_tts    = document.getElementById('txt_tts');
  var select_tts = document.getElementById('select_tts');
  var pitch_tts  = document.getElementById('pitch_tts');
  var rate_tts   = document.getElementById('rate_tts');

  // 音声リスト
  var voices = [];
  function populateVoiceList() {
    voices = synth.getVoices().sort(function (a, b) {
        const aname = a.name.toUpperCase(), bname = b.name.toUpperCase();
        if ( aname < bname ) return -1;
        else if ( aname == bname ) return 0;
        else return +1;
    });
    var selectedIndex = select_tts.selectedIndex < 0 ? 0 : select_tts.selectedIndex;
    select_tts.innerHTML = '';
    for(i = 0; i < voices.length ; i++) {
      var option = document.createElement('option');
      option.textContent = voices[i].name + ' (' + voices[i].lang + ')';
      
      // デフォルトにする
      if(option.textContent.indexOf('Japanese') != -1){
        selectedIndex  = i;
      }

      option.setAttribute('data-lang', voices[i].lang);
      option.setAttribute('data-name', voices[i].name);
      select_tts.appendChild(option);
    }
    select_tts.selectedIndex = selectedIndex;
  }
  populateVoiceList();
  if (speechSynthesis.onvoiceschanged !== undefined) {
    speechSynthesis.onvoiceschanged = populateVoiceList;
  }
    
  // 再生
  function speak(){

    // 再生中
    if (synth.speaking) {
      console.log('再生をキャンセルしました。');
      synth.cancel();
    }
      
    if (txt_tts.value !== '') {
      var utterThis = new SpeechSynthesisUtterance(txt_tts.value);
        
      utterThis.onstart  = function (event) {
        console.log('再生を開始しました。');
      }        
      utterThis.onend = function (event) {
        console.log('再生が終了しました。');
      }
      utterThis.onerror = function (event) {
        alert('エラーが発生しました。')
      }

      var selectedOption = select_tts.selectedOptions[0].getAttribute('data-name');
      for(i = 0; i < voices.length ; i++) {
        if(voices[i].name === selectedOption) {
          utterThis.voice = voices[i];
          console.log(utterThis.voice)
          break;
        }
      }
      utterThis.pitch = pitch_tts.value;
      utterThis.rate = rate_tts.value;
      synth.speak(utterThis);
    }
  }
  
  // 以下、イベント
  form_tts.onsubmit = function(event) {
    event.preventDefault();
    speak();
    txt_tts.blur();
  }
  
  pitch_tts.onchange = function() {
    document.getElementById('pitch-value-tts').innerHTML = pitch_tts.value;
  }

  rate_tts.onchange = function() {
    document.getElementById('rate-value-tts').innerHTML = rate_tts.value;
  }

  select_tts.onchange = function(){
    speak();
  }
}else{
  alert('IE11には対応していません。\n※macOS/iOSのブラウザは未確認');
}
</script>
</body>
</html>

※動作確認はChrome、Microsoft Edge、FireFoxです。

各ソースコードについて

Web系の方ならお馴染みの「MDN」(MDN Web Docs)の「web-speech-api」(GitHub)が元のコードになっています。

変数名を変更しているのはデモページで他の変数と重複させない為です。

元のコードには「phrase-matcher」(フレーズ一致)のサンプルもあります。これは音声と文字列が一致するかの機能です。興味がある方はお試し下さい。

現在はローカル環境でも動作しますが、仕様変更が入った場合はサーバーにアップしてから実行して下さい。

参考リンク

Web Speech API (MDN)
音声認識(SpeechRecognition) (MDN)
音声合成(SpeechSynthesis) (MDN)

Pocket
LINE

Vue CLIのインストールと使い方

公開日：2021年06月18日

記事NO：02897

プチモンテ ※この記事を書いた人


	💻 ITスキル・経験サーバー構築からWebアプリケーション開発。IoTをはじめとする電子工作、ロボット、人工知能やスマホ/OSアプリまで分野問わず経験。画像処理/音声処理/アニメーション、3Dゲーム、会計ソフト、PDF作成/編集、逆アセンブラ、EXE/DLLファイルの書き換えなどのアプリを公開。詳しくは自己紹介へ
🎵 音楽制作 BGMは楽器(音源)さえあれば、何でも制作可能。歌モノは主にロック、バラード、ポップスを制作。歌詞は抒情詩、抒情的な楽曲が多い。楽曲制作は🔰2023年12月中旬～

オリジナル曲を始めました✨

背徳の遊牧民 feat. オペラさん (2025/9/1 新曲)

Webアプリ

このブログのマスターが作成した無料ツールです。

Free 疾風 - ときかぜ - (オープンソース)
ブラウザで写真などの画像を編集する

Free PDFデザイナー (オープンソース)
ブラウザでPDFファイルを編集(結合、分割、抽出、回転、しおり等)する

Free 複数画像のPDF変換
ブラウザで複数の画像を1つのPDFファイルにまとめる

Free PDFのテキスト変換
ブラウザでPDFファイルをテキストに変換する

Free PDFの画像変換
ブラウザでPDFファイルを画像に変換する

Free Exifの確認と削除 (オープンソース)
カメラで撮影した画像ファイル(JPEG)に潜むGPSなどのExif情報を確認、削除する (ブラウザ/スマホ対応)

Free エクセルのCSV変換
ブラウザでエクセルをCSVに変換する(一括変換も可能)

Free GIFアニメの作成 (オープンソース)
ブラウザで画像からGIFアニメを作成する

Free 動画のGIFアニメ変換
ブラウザで動画ファイルをGIFアニメへ変換する

Free アイコンエディタ
ブラウザでアイコンを作成、読み込み、編集する

Free 複数画像のAVI変換 (オープンソース)
ブラウザで画像/音声を動画ファイル(AVI)に変換する

Free Webカメラ動画変換
ブラウザで映像/音声を動画ファイル(AVI)に変換する

Free 音声形式の変換 (オープンソース)
ブラウザでMP3/OGG/AAC/FLAC/WAVなどの音声ファイルをWaveファイルに変換する

Free Waveファイルで効果音作成 ♪
ブラウザでWaveファイルの効果音を作成する

Free Waveフォーマット変換 (オープンソース)
ブラウザで8/16/24/32bitの相互変換。サンプリング周波数、チャンネルを変更する

Free 音声の結合 / 抽出 / 削除 (オープンソース)
ブラウザでWaveファイルを結合、抽出、削除する

Free Waveファイルの解析 (オープンソース)
ブラウザで全体の波形、再生時間、ビットレート、WaveFomat構造体を解析して表示する

Free 波形データと周波数スペクトル
ブラウザでマイクやパソコン内で流れている音声、MP3/OGG/WAVなどのファイルの周波数を解析する

Free 双2次フィルタ(BiquadFilter)
ブラウザで音声の特定周波数をカット/増幅/減衰する

Free 絶対音感
ブラウザでマイクやパソコン内で流れている音声のドレミなどの音階をリアルタイムに表示する (スマホ対応)

Free 音声録音くん
ブラウザでマイクやパソコン内で流れている音声をMP3/WAVE形式で保存する

Free iResEditor (オープンソース)
ブラウザでEXE/DLLファイルのリソースを編集する

Free Webの逆アセンブラ
ブラウザでEXE/DLLファイルを逆アセンブルする

※その他にも「プチラボ」でアプリを多数公開しています。

3Dゲーム

このブログのマスターが作成した無料ゲームです。

短時間で遊べるファンタジーのオンラインRPG風

ほのぼの癒し系のスマホアプリ

パズルゲーム

ナンプレのドン！

スマートフォン

このブログのマスターが作成したアプリです。

お主の画像減色
カメラの写真や画像ファイルを「高品質に減色」する

お主は誰だ。
AI(人工知能)が「あなたの顔はどんな芸能人、有名人に似てるか」を判定する顔診断アプリ (女性向け)

AI(人工知能)

おもちゃのAI研究室
イラストの自動着色などのAIアプリの研究室(学習用)

めえめえ(自動作曲システム)
ブラウザで歌詞を入力するだけで自動作曲する(簡易版)
※オリジナルの作詞・作曲はYouTubeで公開中

ロボット

このブログのマスターが作成したロボットです。(試作機)

ロボットアーム

二足歩行ロボット

四足歩行ロボット

1位	色相環と12色相環[作成と計算式]
2位	各音の周波数一覧 [Web Audio API]
3位	RGBとHSVの相互変換[色見本/サンプル付き]
4位	文字列をUTF8からShift-JISに変換する際の「円記号/バックスラッシュ」に対応する[encoding.js]
5位	RGBとHSLの相互変換[色見本/サンプル付き]
6位	Google Chartsの使い方とまとめ(日本語)
7位	ファイルを同期・非同期で読み込む[FileReaderSync/FileReader]
8位	TreeViewコントロールを作成する[jquery.treeview.js]
9位	JavaScriptでhtmlspecialchars()
10位	Base64変換(エンコード/デコード)で日本語文字列に対応する[ユニコード/Unicode]
11位	JavaScriptでPDFファイルを結合する
12位	PDF.jsでnullAdobe-Japan1-UCS2/ null90ms-RKSJ-Hのエラーが発生する[解決方法]
13位	JavaScriptでPDFファイルのページを回転する
14位	[Google Charts]折れ線グラフを作成する
15位	アナライザーで波形データと周波数スペクトルをオシロスコープのように描画する [Web Audio API]
16位	EXE/DLLなどのリソースの文字列を編集する[iResEditor.js]
17位	動画をcanvasで再生する[HTML5]
18位	JavaScriptでクリップボードの貼り付けに対応する[HTML5のClipboard API/contenteditable]
19位	画像の指定位置の色(RGBA)を取得する
20位	2つの画像を合成する[アルファブレンド]