AIきりたんがめっちゃ歌う件-歌声合成が楽しい

AIきりたんがすごいです。

NEUTRINOというDNNを使った歌声生成ソフトなんですが、なんとこのハイクオリティにしてフリーウェアなんですね。

全然詳しくないですが使うことなら簡単にできて、こんなふうに歌ってくれます

自分で作ったやつ→ https://twitter.com/n63girl/status/1234853885862387718

www.youtube.com

いや、ボーカロイドすら使ってたことは無いんですよね。けど音声合成、とくに歌声合成は面白いと思って前から気にはなっていました。これまでもいくつかAIによる歌声合成はあったんですが、これだけ手軽に使えてクオリティの高いしかもフリーウェアというのはNEUTRINOが初めてではないかしら。しらんけど笑

用意するものはwindowsかlinux (ubuntu推奨) 環境と、MusicXMLファイルだけです。MusicXMLはおなじみMusescoreから出力できます。あとはneutrinoさんが発声タイミング・音の高さ・声質・声のかすれ具合なんかを考えて、それをもとにきりたんが歌ってくれるということになっています。簡単！

とはいえWin環境に慣れていないのもあって最初はちょっと戸惑いました。winでコマンドラインてどうやるのというところから、なんならキーボードの配置が違うんでコマンドキーのつもりでWinキーを押してしまって大変でした(笑)詳しいやり方とかは画像と一緒にわかりやすく説明してあるブログがあってやりやすいです。興味と環境のある方はどうぞ...！

だいたい1分くらいの曲で処理に2分くらいかかってます。(もちろんPCのスペックによるでしょうが笑) それで無調整でも結構うまいこと歌ってくれるのですごいです。

注意すべきこととしては、音域やテンポが極端だとうまくいかない傾向にあります。歌詞を思ったように発音してくれないとなると、直前にブレスを入れたり音域を変えたり音素を変えたりして調整しなきゃならないことはあります。ただし、AIなんでうまくいかないときにそれがなんでかというのは分からないらしい。

あと'記号は無声音を示すようです。たとえば、「がくせい」は"ga ku sei"ではなく"ga k sei"と発音しますよね？でも明示しないと前者になってしまうことがあるので、歌詞表記する際には「がく'せい」とすると無声化してくれるようです。音声合成でこういう文法があるのも今回はじめて知った！たのしい！

というかもっと初歩的な、「を」が "o" になるとか「は」が "wa" になるとか、そんなことも意識させられました。neutrinoさん賢くて、一部はうまくそのようにしてくれてたかもしれません。

ところでMusicXMLファイルとはなんだったのでしょう。

簡単に調べたら、XMLとは任意の用途向けに拡張できるマークアップ言語の総称である。で、マークアップ言語というのは視覚表現や文章構造を記述するための形式言語、例えばタグで要素をマークアップするHTMLのような。XMLはプログラム自体の構造としては入れ子構造つまり木構造になっている。それの音楽向けのフォーマットがMusicXMLということらしいですね。中身の見た目もタグで囲まれまくっていてHTMLに似ています。なんとなくぼんやりうっすらと理解した。ウィキペディア先生今日もありがとう笑

ということで昨日はひたすらMusescoreをいじりきりたんを調整しつつ伴奏を書いてました。たーのしー

これだけ手軽に、それも無調整でもこんなに聴けるものができるというのはきっとすごいことです。

もうちょっと勉強しようかな。本当は合成技術のもっと手前のところ、NEUTRINO後の処理とかも知っておきたいんですよね。歌い方をAIで予測した後はWORLDっていう歌声合成システムを使っているっぽくて、そっちが気になる。

大学でこういうことしてみたかった。

もしチャンスがあるなら、今からでも、関われることがあればいいと思う。

やりたいことを持っておくとそのうちチャンスが来るでしょうから、準備になることはしておいて損はないものです。

n63girl’s diary

ごく個人的なこと

AIきりたんがめっちゃ歌う件-歌声合成が楽しい