めえめえ - AI自動作曲システム v0.2.5

歌詞を入力するだけで自動的に作曲してくれる自動作曲システム「めえめえ」です。

2024/11/4～ TensorFlowのサポート期限切れの為、セキュリティ対策でAIを実行できないようにしています。
⇒ v0.1.0(原始的な自動作曲システム)は動作可能です。

歌詞の入力

※ひらがなを20文字から50文字まで。入力可能です。

0文字

メロディ

以下は入力補助
「ら」を個、歌詞に設定する	設定

※このシステムをご利用する際は必ず利用規約をご確認ください。

この自動作曲システムについて

「めえめえ」はプチモンテの「研究開発」(Research and Development)としての公開実験となります。

将来的には「高度なAI(人工知能)や数理的なロジックによる自動作曲」を目指しています。いきなり完全版を作成するのではなく出世魚(モジャコ→ツバス→ハマチ→ブリ)の様に徐々に展開していく予定です。現在はフェーズ1(Phase 1)で簡易的なAI自動作曲となっております。AIには2010年代に流行した「LSTMモデル」を採用しているので「曲の冒頭のメロディは固定でそれ以降はAIが自動で作成」しています。早い話、制作途中の曲をAIに投げたら残りを自動生成する流れとなります。

このシステムの画期的な特徴点としては歌声合成、音声合成/編集、MP3変換などの重い処理をサーバーではなくブラウザ(JavaScript)で実行している点です。これにより曲の生成によるサーバー負担が50%から80%ぐらい軽減されています。

動作テストはChrome(パソコン版)で行っていますが、HTML5に対応しているブラウザであればパソコン、スマホ、タブレットを問わずに動作可能なハズです。メモリに関しては明示的に128MBを確保しますので、その分は最低でも必要となります。

説明

今回のAIは人間のように時々、作曲に失敗しますので、その際はもう一度ボタンを押して下さい。

歌声に関しては「Sinsy」(オープンソース - 名古屋大学)を使用しています。歌声がおかしいときはピアノの音を聞いてください。その為に歌声とピアノのメロディは全く同じにしています。ピアノで音程を補完する意味もあります。

※研究ですので歌声合成、AIと相性が悪いメロディも意図的に設置しています。

メロディについて

AIに投げるメロディの原曲は次のリンクから試聴できます。

※最終的にはこれぐらいの品質、精度の楽曲を自動生成したい。

オープンソースについて(フロントエンド側)

HTML5のWebAssembly、Webworkerなどを多用して高速化しています。JavaScriptですのでHTMLソースを追っていけばソースコードがみれますので、参考にしたい方はご参考にして下さい。意図的にJSファイルなどは圧縮、軽量化していません。

このシステムで利用しているオープンソースは次の通りです。

「Sinsy」歌声合成エンジン(名古屋大学、東京工業大学) ※C++言語ですがEmscriptenでコンパイルに成功。
「GermanMelGen」 5000曲以上を学習済みのメロディ生成のAIモデル(PratikSavla)
「music21」 MusicXML、MIDIファイルなどの操作(Michael Scott Asato Cuthbert)
「TiMidity++」 MIDIからWAVEファイルへ変換(出雲正尚)
「TensorFlow」機械学習フレームワーク(Google)
「Django」 Webフレームワーク(Django Software Foundation) ※Web APIのみ利用
「lamejs」 MP3変換エンジン(LAME開発チーム、zhuker)
「WAVE.js、WAVE.wasm.js」音声編集ライブラリ(Takeshi Okamoto) ※私のです(笑)
「Bootstrap」 CSSフレームワーク(The Bootstrap Authors、Twitter, Inc.)

私の「音声編集ライブラリ」と「最低限の音楽知識」(文化祭でのドラム経験)が土台にあったので、これらのオープンソースを組み合わせて研究を行った次第です。

有益な情報

次にその他の自動作曲システムをご紹介したいと思います。

オルフェウス

東大名誉教授の嵯峨山茂樹氏による先駆的な研究。科学研究費助成事業データベース(KAKEN)を見ると、恐らく国家予算を使用した学術プロジェクト。お仕事関係のお話で個人的にメールを数回やり取りしたことがある。(利用無料)

CREEVO(クリーボ)

京都大学特定助教の中村栄太氏による研究。オルフェウスの簡易版(現代版？)。これも国家予算を使用。 (利用無料)

Band-in-a-Box

BasicPAK(1.6万円)、MegaPAK(3万円)、EverythingPAK(6万円)の3種類あるが、MegaPAK以上が推奨。私はMegaPAKを所持。

次はあると便利なもの。

Cubase 音楽制作ソフト(有償)
VOCALOID 歌声合成(有償)
Synthesizer V 歌声合成(有償)
Sinsy 歌声合成(利用無料)
Audacity 音声編集ソフト(利用無料)
MuseScore 楽譜作成ソフト(利用無料)

バージョン履歴

v0.2.5 簡易的なAI自動作曲 ※現行版
v0.2.0 オリジナルの歌声合成、AIに失敗(非公開)
v0.1.0 原始的な自動作曲システム

研究日誌

v0.2.0では「つくよみちゃん」のUTAU音源を利用して波形接続型音声合成を試みるが失敗した。却下の決断理由は成果物の歌声が悪すぎたからである。音の伸縮(ストレッチ)、キー(ピッチ)の変更はJavaScript上では可能であったが、一番の問題は音源の音域が狭すぎたせいかも知れない。最低でも1オクターブ、できれば3オクターブの音源は欲しい所である。(私の技術力不足)

JavaScriptで実行する都合上、数100M単位の音源は利用できない。ちなみにSinsyは5.4MBなので使い勝手は良い。

メロディ生成AIに関してはPratikSavlaさんのオープンソースを利用する前に自分でも試したが、AIに喰わせるデータ数不足なのか納得がいく結果は生まれなかった。現行モデルはLSTMだが、順番から言うと次はTransformerとなる予定。

AIの実行環境に関しては私のおもちゃのAI研究室と同様にサーバー側では高速化及び使用メモリ軽減、TensorFlow演算子の利用の為に、改良した「TensorFlow Lite」を使用しています。要約するとTensorFlowのフル機能だと使用メモリ450MBのところ、これだと約170MBとなる。VPSのメインメモリは2GBで契約しているのでコレが限界である。(サーバーにGPUなんてありません！)

さて、次のTransformerに関してですが、最新調査により新しいAIを開発、探せたらスキップする可能性はあります。ただ、大規模言語モデルのようにAIモデルが大きくなるとGPUが必須になるパターンがありますので要注意です。

研究の課題点は「歌声合成」「メロディ生成AI」「自動伴奏(BGM)」の3点である。3か月～半年をかければ、それっぽいのは製作できると思われますが、個人的な時間・予算がありますので、現在、検討中です。※予算がある研究職に憧れる( *´艸｀)

なお、今回の企画からv0.2.5までの全ての研究日数は30日前後です。現行版の自己評価は30点である。(v0.1.0は35点)

2025/3/6追記
v0.2.5(2023/10/03版)の公開後、いつの間にかオリジナルの作詞・作曲へ展開していました。経験を積んで活かせればと。

【BGM】穏やかなピアノソロ 15分 ― 揺らぎのひととき ―

【歌】妖精のオルゴール feat. 情熱さん

【歌】背徳の遊牧民 feat. オペラさん

YouTubeで各楽曲を公開しています🌈
https://www.youtube.com/@petitmonte

利用規約

この自動作曲システム(めえめえ)は音声処理の研究です。このシステムのご利用者は研究の実験参加者(無償)となります。システムで出力された音声ファイル(MP3)をブログ、X(Twitter)、YouTubeなどへのアップロードに関しては各自の責任において行うものとします。最後に決まり文句ですが、本サイトをご利用して万が一、損害等が発生したとしても運営者は一切の責任を持ちませんのでご了承下さい。本サイトとご利用者との間で生じた紛争は、運営者の所在地を管轄する裁判所を第一審の専属的合意管轄裁判所とします。

音声編集

次は私が作成したブラウザで動作する「音声編集アプリ」です。一部、オープンソースで公開しています。

※スマートフォン、タブレットだと操作しにくいのでパソコンでご利用ください。