CoeFont CLOUDとは?
「CoeFont CLOUD」は、株式会社Yellston様が提供しているWEBサービスです。
しかし、混乱を避けるため、本記事ではしばらく「CoeFont CLOUD」という名称を残しておくことにいたします。
ユーザーが自分の声をブラウザ上で収録してCoeFont様に送ると、向こうでAIが音声を学習し、ユーザーの声そっくりな音声合成機械学習モデル「CoeFont」を作ってくれます。
このCoeFontは、自分だけが使えるように非公開にしておくことも、他のユーザーに使ってもらえるように公開することも可能です。
本記事は、この「CoeFont CLOUD」でのCoeFont制作体験談を、マニュアル風に記したものです!
免責事項(※本記事の内容は最新の情報ではありません)
当サイトでは正しい情報を掲載するよう努めておりますが、誤謬がないことを保証するものではありません。
また、執筆時点では正しい情報であったとしても、その後CoeFont CLOUDのアップデートや利用規約の改定等により状況が変わり、情報が古くなっている可能性がございます。
最終的な判断は、ご自身の責任において行っていただきますようお願い申し上げます。
つくよみちゃんのCoeFontはこんな感じです
どなたでも、このようなCoeFontを500円~1500円で作ることができます!
収録前の準備(主にマイクの設定)
■まずは「CoeFont CLOUD」のアカウントを作成してください。この時点ではお金はかかりませんのでお気軽にどうぞ。ただし、「氏名」「電話番号」「メールアドレス」を登録する必要があります。
■収録はブラウザ上で行われます。Google Chromeが推奨されています。動作が安定しない場合は最新版にアップデートしてみましょう。
【CoeFont CLOUD近日リリース予定】
実際にCoeFontを作る収録画面を初公開!
ブラウザ上で誰でも簡単に収録が可能です
※画面は開発中のものにつき、実際と異なる場合があります pic.twitter.com/ulWWb5m7M9— CoeFont (コエフォント) (@coefont) July 14, 2021
■品質の高いCoeFontを作るためには、なるべく環境音や反響音が入らない場所で、なるべく良いマイクを使用して収録することが推奨されています。(当たり前のことですが)
■収録時の音質は「44100Hz 16bit」以上が推奨されています。ステレオで録ると、チャンネルを分離されてモノラル化されます。ハイレゾで録っても品質が明確に向上するとは限りませんが、向上する可能性もあるとのことです。これは直接問い合わせて確認しました。
■収録環境が良くても、声質との相性によっては、合成された音声にノイズが乗ってしまう可能性があります。過度な期待をせず、「どうなるか実験してみよう♪」くらいの気持ちで挑戦するとよいでしょう。
■公式のインタビュー記事も是非ご参照ください。
■収録開始前に、マイクの設定画面の開き方を覚えてください。Windows10の場合、画面右下のスピーカーアイコン(音量アイコン)を右クリックしてメニューを出し、「サウンド(S)」をクリックすると簡単に開きます。
「サウンド(S)」とは別に「サウンドの設定を開く(E)」というメニューもありますが、そちらは違います。ご注意ください!
■「サウンド(S)」→「録音」タブを開き、マイクが認識されていることを確認してください。特に、PC内蔵のマイクではなく、外付けのマイクで収録したいと思っている方は要注意です。
■「サウンド(S)」→「録音」タブを開き、使用したい録音デバイス(マイク)をダブルクリックすると、「マイク配列のプロパティ」という画面が開きます。この中の「レベル」タブで、マイク音量(収録ボリューム)を調整することができます。収録中は同じ音量で録り続ける必要がありますので、マイク音量の数値はメモっておいてください!
■収録環境によっては、マイクの音量が勝手に変動する現象に見舞われることがあります(複数のWindowsユーザーで確認)。次の対策をお試しください。
【1】「サウンド(S)」→「通信」タブを開き、「Windowsが通信アクティビティを検出したとき」の設定を「何もしない」にしてください。これはCoeFont CLOUD公式様から教えていただいた方法です。
【2】1の対策をしてもなお、マイクの音量が勝手に変動してしまうことがあります。これはGoogle Chromeの仕様によるものと思われます。筆者の場合、「Disable Automatic Gain Control」という拡張機能を入れてONにしたら防止できました。
■筆者の収録環境特有の問題かも知れませんが、CoeFont CLOUDに限らずすべての場面において、マイクとの接続が勝手に切れてしまうことがあります。そのような時の対処法も事前に覚えておくと便利です。「サウンド(S)」→「録音」タブ→マイクを右クリック→「無効化」をクリック→再度マイクを右クリック→「有効化」をクリック(一旦無効にしてから再度有効にする)と操作することで、再接続できます。
つくよみちゃんの収録環境・ノイズサンプル
参考までに、つくよみちゃんの収録環境は次の通りです。
■収録機材:OLYMPUS LS-P2(ICレコーダー)
■自宅内に設置してある簡易防音室で収録しました。
■普段はICレコーダー単品で収録していますが、今回はブラウザ上で録音しなければならないため、ファン音の出ないWindowsタブレット端末(dynabook Tab S90)にUSBケーブル(U2HS-MB02-4BBK)でICレコーダーを直挿しして収録しました。
■声の音量は-6dB(振幅0.5)程度になるよう調整しました。環境音・反響音はないと言っていいと思いますが、-40dB程度の「ザーッ」というノイズは入っています(→短いですがサンプル)。経験上、この程度のノイズであれば問題はないと考えています。
■読み方は、「つくよみちゃんコーパス Vol.1 声優統計コーパス(JVSコーパス準拠)」と同じ雰囲気になるよう努めました。
■読むのが下手すぎて何度もリテイクを繰り返していたため、ハイエンド用の700文を収録するのに42時間もかかってしまいました。と言っても、これは「換気の時間」を含んでいます。暑い中、部屋の窓を閉めて改造だんぼっちにこもっていたため、熱中症対策として頻繁に換気を行っていました。
収録中に注意すること・注意しなくていいこと
■収録した音声を確認しながら進めることができるようになっているため、イヤホン・ヘッドフォンを装着することをおすすめいたします。音声を聞いて気に入らなければ、何度でも録り直すことができます。(リテイク沼へのいざない)
■1文読み進めるごとにオートセーブで途中保存されていきますので、収録を中断しても大丈夫です。ブラウザやPCがフリーズしても大丈夫です。日をまたいでも再開できます。
■「1つ前の文章に戻る」機能もあるのですが、これは使わないことをおすすめいたします。例えば、100文目の収録画面で、左上の「1つ前の文章に戻る」を押して99文目に戻った後、一度録音するも失敗したとします。 その後何らかの理由で収録を継続できなくなり、中断して再開すると――100文目からの再開となります。99文目には、最後に録音した失敗音声が記録されたまま戻れなくなります。
今後仕様が変わる可能性もございます。このようなことがあったことはCoeFont CLOUD運営様にご報告済みです。
■CoeFontの声の大きさは、収録時の声の大きさとマイク音量に依存すると思われます。「音は割れないが小さすぎもしない」くらいの音量に調整するのがベストです。具体的には、-6dB前後を目安にすると良いでしょう。
■CoeFontの発話速度は、収録時の発話速度に依存すると思われます。そのため、収録中は一定の発話速度を保つ必要があります。適切なスピードは用途によって異なります。
■リップノイズと滑舌はあまり気にしなくてもよさそうです。プロ声優ではない一般の方々が制作・公開されているCoeFontを聞いても、全くと言っていいほどリップノイズが入っておらず、特に滑舌が悪いものも見当たりません。素人の想像ですが、あらかじめ用意してあるベースモデルにユーザーの声を転移学習させて作られていると考えられるので、その辺は大丈夫なのでしょう(適当)。
■ポップノイズ(息がマイクにかかってボフボフとなる音)もあまり気にしなくて大丈夫なのではないかと思うのですが、これは自信がありません。ユーザー側で音声を編集できない以上、CoeFont CLOUD側でどうにかしてくれているはずだ……という希望的観測です。個人的な目安として、iZotope RXシリーズの「De-plosive」等で除去できそうな程度のポップノイズであれば気にしないことにしました。
■1つのCoeFontの収録の中では、声質・テンション・抑揚はできるだけ統一してください。複数の感情を表現できるようにしたい場合は、感情ごとに別のCoeFontを作成してください。
■「。」「、」の前の音は特に大事です。「~なのでっ、~ですっ!」「~なのでぇ、~ですぅ」「~なので、~です……」←これらの読み方はすべてCoeFontに反映されます。
■全体の「抑揚」(イントネーション)はとても大事なのですが、単語ごとの「アクセント」については、「できるだけ東京式アクセントで読む」程度の認識でよいのではないかと思っています。特に台本の101文目以降には、アクセント辞典に載っていない固有名詞が多く含まれるため、「すべてのユーザーが同じアクセントで読むこと」を前提にシステムが作られているとは考えにくいです。
■収録を始める時に、「周囲のノイズを確認するので10秒ほどお待ちください」と言われます。この時、システム側でノイズを除去するために、ホワイトノイズやPCファンの音などの環境音を読み取っていると考えられます。ですので、暇だからといって「ウェーイww バァァアアwww」とか言ってはいけません。物音を立てると、「静かな環境で収録してください」とダメ出しされます。
■収録開始直前の画面の右上から、台本をPDF形式でダウンロードできます。練習してから挑みたいという方は、ここでPDFをダウンロードし、一旦離脱してください。
■筆者の収録環境特有の問題かも知れませんが、しばしば「音声が冒頭しか録音されなくなる現象」に見舞われました。こうなるとブラウザの再起動やマイクの最有効化では直らず、PC自体の再起動が必要でした。
■暑い時は熱中症にご注意ください。
あらかじめ収録・編集したデータを送りたいという方へ
非公式な方法ですが、あらかじめ収録・編集を済ませておいた音声を送ることも、できないわけではありません。
前述の通り、台本はPDF形式でダウンロードできるため、「既存のWAVをマイクから入力された音声として認識させる」ことさえできれば(→例)、あらかじめ収録・編集しておいて、CoeFontの収録画面から1文ずつ送ることができます。
しかし、これも前述の通り、各種ノイズに関してはあまり気にしなくてもよいようなので、自分でノイズ除去を行う意義は小さいです。
声を加工するためのエフェクトをかけたい場合は別ですが、単に品質の向上のために事前収録・ノイズ除去をしておきたいということでしたら、そこまでする価値はないかも知れません。
CoeFontの公開時に注意すること
■収録完了から数時間後にCoeFontが完成し、メールが届きます。この時点では、CoeFontは「非公開」の設定になっています。
■CoeFontには3つの公開設定が存在します。どれにするか決めましょう。
■あなたが作ったCoeFontを「利用申請不要」の設定で公開した場合、あなたのCoeFontは「CoeFont CLOUD 利用規約」に基づき利用されるため、独自の利用規約をつけても無効になります。 「CoeFont名のクレジット必須」「他のキャラクターへの声当て禁止」等にしたい場合は、利用申請の設定を「必要」にし、その条件で使用してくれる人にだけ使用許可を出すようにしてください。
■CoeFontの使用料は、1文字辺り5ポイント(0.05円)~1000ポイント(10円)の間で設定することができます。CoeFont STUDIO(アリアル・ミリアル)とは違い、無料にはできません。
■高品質なアリアル・ミリアルが無料であり、他のCoeFontもほとんどが5ポイントの設定になっているので、「俺も5ポイントにしとこ」という方が多いです。ですが、もちろんお好きなポイントに設定していただいて構いません。
■CoeFontの制作者は、使われた文字数に応じて報酬を得ることができます。5ポイントの設定の場合、1000文字使われると「35円」の収益となります。報酬を引き出す際には475円の手数料が発生するため、約13500文字使われるまでは利益は出ません。CoeFontの作成には500円~1500円かかりますから、黒字にするのは結構ハードルが高いと考えられます。収益化目的でCoeFontを作りたいという方は、あまり期待しないようにしましょう。
あなたが有名人ならチャンスはあります!
■「新着のCoeFont」欄に表示される順番は、「公開順」ではなく「完成順」です。CoeFontが完成してから長時間放置していて、後から「公開」の設定に変えた場合、下の方に表示されることになります。「新着のCoeFont」欄からのユーザー獲得を狙う場合は、完成したらなるべく早く公開するのがおすすめです。
■とはいえ、「新着のCoeFont」からの流入が見込める期間はあまり長くありません。どんどん下に流れていってしまうので、自分のホームページやTwitter、動画投稿サイト等で宣伝しなければ、ユーザー獲得は難しいです。
CoeFontの使用時に注意すること
■CoeFont CLOUD上のCoeFontを使用するためには、月500円~の有料プランに加入する必要があります。(CoeFont STUDIOの方は無料です)
■CoeFontを作るだけなら、有料プランに加入する必要はありません。しかし、有料プランに加入しないと、自分で作ったCoeFontを使うこともできません。最初の30日間は無料なので、その期間にいろいろ試してみるのがおすすめです。
■1文字5ポイント(0.05円)~なので、使用量が少なければ料金も安く済むと思われるかも知れませんが、そうではありません。 毎月500円を支払い、「50000ポイント」と「CoeFontを利用する権利」を買うという仕組みですので、最低でも月500円はかかります。
■会費を支払うタイミングは、「プランに加入した日から1か月ごと」です。月初・月末ではありません。(プラン加入日に応当する日付がない月は月末になります)
■50000ポイントを使い切ったら、1000ポイントにつき10円で追加ポイントを購入することができます。(最低購入額は100円)
■ポイントの有効期間は、付与されてから180日間です。有料プランの解約によってポイントが消滅することはありません。ポイントが期限切れになる前に再度有料プランに加入すれば使えるようになります。
■有料プランを解約しても、自分が作ったCoeFontは消えません。一方で、「作品」と呼ばれるCoeFont編集プロジェクトデータ(アクセントや読みの指定データ)は消滅します。必要な音声とテキストについては、解約前に書き出しておきましょう。
■自分のCoeFontを使用する際には、ポイントの設定にかかわらず、1文字につき5ポイントが消費されます。自分のCoeFontだからと言って無料にはなりませんが、仮に1文字1000ポイントの設定にしていても、自分だけは5ポイントで済みます。
■ポイントが消費されるタイミングは、読ませたい文章を入力欄に入力し、「テキスト編集を終了」ボタンを押した時です。振り仮名やアクセントの修正を行うのはその後なので、何度読み方を変えても追加料金はかかりません。WAV出力時にも料金はかかりません。最初に入力した文章に誤字があっても、振り仮名の修正で直せます。
■「テキスト編集を終了」ボタンを押した後で、読み方ではなくテキスト本体を変更する場合は、テキスト入力欄右上の鉛筆マーク「テキストを編集する」をクリックします。すると再度編集可能状態になります。この時点でアクセントの指定はリセットされるのでご注意ください。テキスト編集後、WAVを生成し直すためには、再度「テキスト編集を終了」ボタンを押すことになります。例え1文字しか変更していなくても、テキスト入力欄に入力されている文字全体に対して改めて使用料が発生するのでご注意ください。
■調声のコツとして、発音が破綻している時は、編集画面右上にある「高度なオプション」から「抑揚の調整を有効」をONにし、抑揚値を変更すると改善することがあります。また、あえて間違ったアクセントを指定することで改善できることもあります。
■「CoeFont CLOUD 利用規約」により、CoeFont CLOUD上のCoeFontを使用した作品には「Voiced by https://CoeFont.CLOUD」というクレジットを表示することが義務付けられています。自分のCoeFontであっても同様ですのでご注意ください。
■「CoeFont CLOUD 利用規約」の「禁止行為」には必ず目を通しておいてください。ここにある行為は、CoeFontの制作者がOKと言っていてもNGです。
■利用申請が必要な設定のCoeFontを使うためには、当然利用申請が必要ですが、その際声の登録者に「メールアドレス・氏名(本名)・電話番号」が伝わります。身バレを防ぐことを最優先に考えていらっしゃる場合は、利用申請が必要なCoeFontは使わないことをおすすめいたします。
■愛用しているCoeFontが、ある日突然非公開になって使えなくなったとしても、それは仕方のないことです。「CoeFontを突然非公開にしてはいけない」という利用規約がない以上、そういうリスクもあることを承知した上でCoeFontを利用していくしかありません。
■【技術者向け】「CoeFont CLOUD API」を使えば、ご自身のアプリやWEBサイトに任意のCoeFontによる音声読み上げ機能を実装することができます。アクセスキーとアクセスシークレットの生成はこちらのページで行えます。
ご質問や情報提供はお題箱へ!
「これについて教えてほしい」「この情報も載せてよ!」といったご要望がございましたら、匿名でメッセージを送れるお題箱からお送りください。必ずしもご要望にお応えできるとは限りませんが、参考にさせていただきます。