✿ 自己紹介&サンプルボイス ✿

つくよみちゃんのCoeFont制作体験談(マニュアル風) 注意点やコツをまとめました!

フリー素材キャラクターつくよみちゃん
スポンサーリンク

CoeFont CLOUDとは?

CoeFont CLOUD」は、株式会社Yellston様が提供しているWEBサービスです。

「声」が「フォント」のように自由に使える | AI音声合成サービス CoeFont CLOUD
CoeFont CLOUD は、豊富な種類の声を文字のフォントのように自由に使う事ができる、最新のAI音声合成サービスです。動画・オーディオブック・アナウンスなど様々な場面でご利用いただけます。

ユーザーが自分の声をブラウザ上で収録してYellston様に送ると、向こうでAIが音声を学習し、ユーザーの声そっくりな音声合成機械学習モデル「CoeFont」を作ってくれます。

CoeFontの作成に必要な料金は、1回500円~1500円です。

このCoeFontは、自分だけが使えるように非公開にしておくことも、他のユーザーに使ってもらえるように公開することも可能です。

CoeFontの使用に必要な料金は、CoeFontによって異なり、最低1文字0.05円(5ポイント)です。毎月500円を支払い、「50000ポイント」と「CoeFontを利用する権利」を買うという仕組みですので、最低でも月500円はかかります。最初の30日間は無料です。

本記事は、この「CoeFont CLOUD」でのCoeFont制作体験談を、マニュアル風に記したものです!

【執筆】つくよみちゃんプロジェクト企画者 夢前黎

免責事項

当サイトでは正しい情報を掲載するよう努めておりますが、誤謬がないことを保証するものではありません。

また、執筆時点では正しい情報であったとしても、その後CoeFont CLOUDのアップデートや利用規約の改定等により状況が変わり、情報が古くなっている可能性がございます。

最終的な判断は、ご自身の責任において行っていただきますようお願い申し上げます。

分からないことがあったら、公式の「利用規約」や「よくある質問」を見ると、答えが見つかるかも知れません。

つくよみちゃんのCoeFontはこんな感じです

どなたでも、このようなCoeFontを500円~1500円で作ることができます!

YouTube版はこちら

収録前の準備(主にマイクの設定)

■まずは「CoeFont CLOUD」のアカウントを作成してください。この時点ではお金はかかりませんのでお気軽にどうぞ。ただし、「氏名」「電話番号」「メールアドレス」を登録する必要があります。

ここでいう「氏名」は本名(戸籍上の姓名)のことですので、ペンネームを登録しないようにご注意ください。公式FAQに「登録する時の本名は他者に公開される?」とあることからも分かります。
登録した個人情報は、不特定多数の人に対して開示されることはありませんが、「利用申請が必要なCoeFont」に対して利用申請を行うと、そのCoeFontの制作者にのみ開示されるシステムになっています。詳しくは後述します

■収録はブラウザ上で行われます。Google Chromeが推奨されています。動作が安定しない場合は最新版にアップデートしてみましょう。

▼実際の収録画面▼

■品質の高いCoeFontを作るためには、なるべく環境音や反響音が入らない場所で、なるべく良いマイクを使用して収録することが推奨されています。(当たり前のことですが)

■収録時の音質は「44100Hz 16bit」以上が推奨されています。ステレオで録ると、チャンネルを分離されてモノラル化されます。ハイレゾで録っても品質が明確に向上するとは限りませんが、向上する可能性もあるとのことです。これは直接問い合わせて確認しました。

■収録環境が良くても、声質との相性によっては、合成された音声にノイズが乗ってしまう可能性があります。過度な期待をせず、「どうなるか実験してみよう♪」くらいの気持ちで挑戦するとよいでしょう。

公式のインタビュー記事も是非ご参照ください。

■収録開始前に、マイクの設定画面の開き方を覚えてください。Windows10の場合、画面右下のスピーカーアイコン(音量アイコン)を右クリックしてメニューを出し、「サウンド(S)」をクリックすると簡単に開きます。

「サウンド(S)」とは別に「サウンドの設定を開く(E)」というメニューもありますが、そちらは違います。ご注意ください!

■「サウンド(S)」→「録音」タブを開き、マイクが認識されていることを確認してください。特に、PC内蔵のマイクではなく、外付けのマイクで収録したいと思っている方は要注意です。

■「サウンド(S)」→「録音」タブを開き、使用したい録音デバイス(マイク)をダブルクリックすると、「マイク配列のプロパティ」という画面が開きます。この中の「レベル」タブで、マイク音量(収録ボリューム)を調整することができます。収録中は同じ音量で録り続ける必要がありますので、マイク音量の数値はメモっておいてください

収録時と同じ声の大きさを出しても音が割れないように、Audacity等のソフトで確認しながらマイク音量を調整するのがおすすめです。よく分からないという方は、本番で音割れが起きていないか確認することもできますが、事前にチェックしておいた方が安心です。

■収録環境によっては、マイクの音量が勝手に変動する現象に見舞われることがあります(複数のWindowsユーザーで確認)。次の対策をお試しください。

【1】「サウンド(S)」→「通信」タブを開き、「Windowsが通信アクティビティを検出したとき」の設定を「何もしない」にしてください。これはCoeFont CLOUD公式様から教えていただいた方法です。

【2】1の対策をしてもなお、マイクの音量が勝手に変動してしまうことがあります。これはGoogle Chromeの仕様によるものと思われます。筆者の場合、Disable Automatic Gain Controlという拡張機能を入れてONにしたら防止できました。

■筆者の収録環境特有の問題かも知れませんが、CoeFont CLOUDに限らずすべての場面において、マイクとの接続が勝手に切れてしまうことがあります。そのような時の対処法も事前に覚えておくと便利です。「サウンド(S)」→「録音」タブ→マイクを右クリック→「無効化」をクリック→再度マイクを右クリック→「有効化」をクリック(一旦無効にしてから再度有効にする)と操作することで、再接続できます。

筆者の場合、収録中はサウンドの設定画面を開きっぱなしにしていました。

つくよみちゃんの収録環境・ノイズサンプル

参考までに、つくよみちゃんの収録環境は次の通りです。

■収録機材:OLYMPUS LS-P2(ICレコーダー)

■自宅内に設置してある簡易防音室で収録しました。

■普段はICレコーダー単品で収録していますが、今回はブラウザ上で録音しなければならないため、ファン音の出ないWindowsタブレット端末dynabook Tab S90にUSBケーブルU2HS-MB02-4BBKでICレコーダーを直挿しして収録しました。

■声の音量は-6dB(振幅0.5)程度になるよう調整しました。環境音・反響音はないと言っていいと思いますが、-40dB程度の「ザーッ」というノイズは入っています(→短いですがサンプル)。経験上、この程度のノイズであれば問題はないと考えています。

■読み方は、「つくよみちゃんコーパス Vol.1 声優統計コーパス(JVSコーパス準拠)」と同じ雰囲気になるよう努めました。

実際には、つくよみちゃんコーパスはリテイク数と編集力の合わせ技でようやく成立しているクオリティですので、いい部分を繋ぎ合わせるつぎはぎ編集ができない分、どうしてもCoeFontの方がクオリティが低くなってしまっているはずです。しかし、主に滑舌の問題なので、声質にはあまり影響を与えていないと思われます。

■読むのが下手すぎて何度もリテイクを繰り返していたため、ハイエンド用の700文を収録するのに42時間もかかってしまいました。と言っても、これは「換気の時間」を含んでいます。暑い中、部屋の窓を閉めて改造だんぼっちにこもっていたため、熱中症対策として頻繁に換気を行っていました。

スポンサーリンク

収録中に注意すること・注意しなくていいこと

■収録した音声を確認しながら進めることができるようになっているため、イヤホン・ヘッドフォンを装着することをおすすめいたします。音声を聞いて気に入らなければ、何度でも録り直すことができます。(リテイク沼へのいざない)

1文読み進めるごとにオートセーブで途中保存されていきますので、収録を中断しても大丈夫です。ブラウザやPCがフリーズしても大丈夫です。日をまたいでも再開できます。

「1つ前の文章に戻る」機能もあるのですが、これは使わないことをおすすめいたします。例えば、100文目の収録画面で、左上の「1つ前の文章に戻る」を押して99文目に戻った後、一度録音するも失敗したとします。 その後何らかの理由で収録を継続できなくなり、中断して再開すると――100文目からの再開となります。99文目には、最後に録音した失敗音声が記録されたまま戻れなくなります。

戻った先(例で言うと99文目)で収録を中断しなければ問題ありません。また、まだ100文目に行ったことのない状態で、99文目で録り直し→中断→再開しても、ちゃんと99文目に戻ってこられます。しかし、一度進んでしまうと、戻っても「最後尾」の認識は巻き戻らないようです。

今後仕様が変わる可能性もございます。このようなことがあったことはCoeFont CLOUD運営様にご報告済みです。

CoeFontの声の大きさは、収録時の声の大きさとマイク音量に依存すると思われます。「音は割れないが小さすぎもしない」くらいの音量に調整するのがベストです。具体的には、-6dB前後を目安にすると良いでしょう。

CoeFontの発話速度は、収録時の発話速度に依存すると思われます。そのため、収録中は一定の発話速度を保つ必要があります。適切なスピードは用途によって異なります。

一般的に、「ナレーション・ニュース原稿読み上げ」は普通の話し声よりゆっくりとなり、「朗読・読み聞かせ」になるとさらに遅くなります。逆に、キャラ同士で会話をさせる「掛け合い動画」用のCoeFontを作りたい場合は、少し早口にしないと動画が間延びする可能性があります。

■リップノイズと滑舌はあまり気にしなくてもよさそうです。プロ声優ではない一般の方々が制作・公開されているCoeFontを聞いても、全くと言っていいほどリップノイズが入っておらず、特に滑舌が悪いものも見当たりません。素人の想像ですが、あらかじめ用意してあるベースモデルにユーザーの声を転移学習させて作られていると考えられるので、その辺は大丈夫なのでしょう(適当)。

■ポップノイズ(息がマイクにかかってボフボフとなる音)もあまり気にしなくて大丈夫なのではないかと思うのですが、これは自信がありません。ユーザー側で音声を編集できない以上、CoeFont CLOUD側でどうにかしてくれているはずだ……という希望的観測です。個人的な目安として、iZotope RXシリーズの「De-plosive」等で除去できそうな程度のポップノイズであれば気にしないことにしました。

■1つのCoeFontの収録の中では、声質・テンション・抑揚はできるだけ統一してください。複数の感情を表現できるようにしたい場合は、感情ごとに別のCoeFontを作成してください。

「どんな声で読み始めたか忘れてしまう」「作り声を維持できない」等の理由で、同じ声で読み続けることが難しいという感想をしばしばお見かけします。そのような場合は、あらかじめお手本となる声を録音しておき、時々その音声を聞いて思い出すこと、お手本を真似できないほど疲れた場合は休むことをおすすめいたします。

「。」「、」の前の音は特に大事です。「~なのでっ、~ですっ!」「~なのでぇ、~ですぅ」「~なので、~です……」←これらの読み方はすべてCoeFontに反映されます。

全体の「抑揚」(イントネーション)はとても大事なのですが、単語ごとの「アクセント」については、「できるだけ東京式アクセントで読む」程度の認識でよいのではないかと思っています。特に台本の101文目以降には、アクセント辞典に載っていない固有名詞が多く含まれるため、「すべてのユーザーが同じアクセントで読むこと」を前提にシステムが作られているとは考えにくいです。

追記:2021年8月24日頃のアップデートにより、収録画面でアクセントが表示されるようになったそうです。今後はこのアクセントに従って読むことをおすすめいたします。
CoeFontに文章を読ませる時、無編集時点でのアクセントがどうなるかは「文章解析と辞書の問題」(つまりCoeFont CLOUDのシステム次第)であり、手動でアクセントを指定することもできます。収録した声からは「高い時の声」と「低い時の声」の声質が学習され、それらをシステム上のアクセント指定に当てはめて音声を生成しているのではないかと思います。(素人の想像なので間違っているかも知れません)
マチーデフ様の「マチーデフ(ラップっぽい口調、ラッパー風)」というCoeFontが大変参考になります。このCoeFontは、おそらく「アクセントなし」「ラップのイントネーション」(語尾が上がるなど)で収録されています。

■収録を始める時に、「周囲のノイズを確認するので10秒ほどお待ちください」と言われます。この時、システム側でノイズを除去するために、ホワイトノイズやPCファンの音などの環境音を読み取っていると考えられます。ですので、暇だからといって「ウェーイww バァァアアwww」とか言ってはいけません。物音を立てると、「静かな環境で収録してください」とダメ出しされます。

■収録開始直前の画面の右上から、台本をPDF形式でダウンロードできます。練習してから挑みたいという方は、ここでPDFをダウンロードし、一旦離脱してください。

■筆者の収録環境特有の問題かも知れませんが、しばしば「音声が冒頭しか録音されなくなる現象」に見舞われました。こうなるとブラウザの再起動やマイクの最有効化では直らず、PC自体の再起動が必要でした。

■暑い時は熱中症にご注意ください。

あらかじめ収録・編集したデータを送りたいという方へ

「別にそんなことしたくないよ」という方は読み飛ばしてください。

非公式な方法ですが、あらかじめ収録・編集を済ませておいた音声を送ることも、できないわけではありません。

前述の通り、台本はPDF形式でダウンロードできるため、「既存のWAVをマイクから入力された音声として認識させる」ことさえできれば(→)、あらかじめ収録・編集しておいて、CoeFontの収録画面から1文ずつ送ることができます。

しかし、これも前述の通り、各種ノイズに関してはあまり気にしなくてもよいようなので、自分でノイズ除去を行う意義は小さいです。

声を加工するためのエフェクトをかけたい場合は別ですが、単に品質の向上のために事前収録・ノイズ除去をしておきたいということでしたら、そこまでする価値はないかも知れません。

スポンサーリンク

CoeFontの公開時に注意すること

■収録完了から数時間後にCoeFontが完成し、メールが届きます。この時点では、CoeFontは「非公開」の設定になっています。

■CoeFontには3つの公開設定が存在します。どれにするか決めましょう。

①【非公開】:制作者本人だけが使えるCoeFont
②【公開&利用申請が必要】:制作者から許可を得た人だけが使えるCoeFont
③【公開&利用申請が不要】:誰でも使えるCoeFont

■あなたが作ったCoeFontを「利用申請不要」の設定で公開した場合、あなたのCoeFontは「CoeFont CLOUD 利用規約」に基づき利用されるため、独自の利用規約をつけても無効になります。 「CoeFont名のクレジット必須」「他のキャラクターへの声当て禁止」等にしたい場合は、利用申請の設定を「必要」にし、その条件で使用してくれる人にだけ使用許可を出すようにしてください。

CoeFont CLOUD 利用規約」ではクレジット表記が必須とされていますが、「Voiced by https://CoeFont.CLOUD」さえ書けばいいことになっており、ユーザーには個々のCoeFont名を記載する義務はありません。利用申請を不要としている場合は、あなたの声があなたの知らないところでクレジットなしで使われていても文句は言えないのです。
「クレジットしてくださる場合は○○と書いてください」と書いておく分には問題ありません。

■CoeFontの使用料は、1文字辺り5ポイント(0.05円)~1000ポイント(10円)の間で設定することができます。CoeFont STUDIO(アリアル・ミリアル)とは違い、無料にはできません。

■高品質なアリアル・ミリアルが無料であり、他のCoeFontもほとんどが5ポイントの設定になっているので、「俺も5ポイントにしとこ」という方が多いです。ですが、もちろんお好きなポイントに設定していただいて構いません。

■CoeFontの制作者は、使われた文字数に応じて報酬を得ることができます。5ポイントの設定の場合、1000文字使われると「7円」の収益となります。報酬を引き出す際には475円の手数料が発生するため、約68000文字使われるまでは利益は出ません。CoeFontの作成には500円~1500円かかりますから、黒字にするのは相当困難であると考えられます。収益化目的でCoeFontを作りたいという方は、あまり期待しないようにしましょう。

あなたが有名人ならチャンスはあります!

報酬の計算式は利用規約に書いてあります。
自分で使った分についてはカウントされません。

■「新着のCoeFont」欄に表示される順番は、「公開順」ではなく「完成順」です。CoeFontが完成してから長時間放置していて、後から「公開」の設定に変えた場合、下の方に表示されることになります。「新着のCoeFont」欄からのユーザー獲得を狙う場合は、完成したらなるべく早く公開するのがおすすめです。

■とはいえ、「新着のCoeFont」からの流入が見込める期間はあまり長くありません。どんどん下に流れていってしまうので、自分のホームページやTwitter、動画投稿サイト等で宣伝しなければ、ユーザー獲得は難しいです。

CoeFontの使用時に注意すること

■CoeFont CLOUD上のCoeFontを使用するためには、月500円~の有料プランに加入する必要があります。(CoeFont STUDIOの方は無料です)

■CoeFontを作るだけなら、有料プランに加入する必要はありません。しかし、有料プランに加入しないと、自分で作ったCoeFontを使うこともできません。最初の30日間は無料なので、その期間にいろいろ試してみるのがおすすめです。

■1文字5ポイント(0.05円)~なので、使用量が少なければ料金も安く済むと思われるかも知れませんが、そうではありません。 毎月500円を支払い、「50000ポイント」と「CoeFontを利用する権利」を買うという仕組みですので、最低でも月500円はかかります。

有料プランを解約したら、ポイントが残っていてもCoeFontを使えなくなります!

■会費を支払うタイミングは、「プランに加入した日から1か月ごと」です。月初・月末ではありません。(プラン加入日に応当する日付がない月は月末になります)

「1か月しか使わない」という方は、1か月経つ前に解約すれば500円の出費で済むということです。例えば、1/31に加入された方は、2/27に解約すれば、次の月の料金は発生しません。(2月には31日が存在しないので、2/28が支払日となります)

■50000ポイントを使い切ったら、1000ポイントにつき10円で追加ポイントを購入することができます。(最低購入額は100円)

ポイントの有効期間は、付与されてから180日間です。有料プランの解約によってポイントが消滅することはありません。ポイントが期限切れになる前に再度有料プランに加入すれば使えるようになります。

有料プランを解約しても、自分が作ったCoeFontは消えません。一方で、「作品」と呼ばれるCoeFont編集プロジェクトデータ(アクセントや読みの指定データ)は消滅します。必要な音声とテキストについては、解約前に書き出しておきましょう。

■自分のCoeFontを使用する際には、ポイントの設定にかかわらず、1文字につき5ポイントが消費されます。自分のCoeFontだからと言って無料にはなりませんが、仮に1文字1000ポイントの設定にしていても、自分だけは5ポイントで済みます。

■ポイントが消費されるタイミングは、読ませたい文章を入力欄に入力し、「テキスト編集を終了」ボタンを押した時です。振り仮名やアクセントの修正を行うのはその後なので、何度読み方を変えても追加料金はかかりません。WAV出力時にも料金はかかりません。最初に入力した文章に誤字があっても、振り仮名の修正で直せます。

この仕組みだと、例えば「あ」とだけ入力して、その1文字に「あいうえおかきくけこさしすせそ……(略)」とありったけの長文の振り仮名を振ることで、1文字分の料金で大量の文字を読ませることができてしまいまうのではないかと思いますが、おそらく「1文字に振れる振り仮名の文字数は制限されている」「そんな面倒くさい使い方は誰もしたがらないだろう」といった理由で、運営様は心配されていないのでしょう。サービスの存続を願うのであれば、セコいことはせず適切な使用料を支払うようにしましょう!

■「テキスト編集を終了」ボタンを押した後で、読み方ではなくテキスト本体を変更する場合は、テキスト入力欄右上の鉛筆マーク「テキストを編集する」をクリックします。すると再度編集可能状態になります。この時点でアクセントの指定はリセットされるのでご注意ください。テキスト編集後、WAVを生成し直すためには、再度「テキスト編集を終了」ボタンを押すことになります。例え1文字しか変更していなくても、テキスト入力欄に入力されている文字全体に対して改めて使用料が発生するのでご注意ください。

■調声のコツとして、発音が破綻している時は、編集画面右上にある「高度なオプション」から「抑揚の調整を有効」をONにし、抑揚値を変更すると改善することがあります。また、あえて間違ったアクセントを指定することで改善できることもあります。

■「CoeFont CLOUD 利用規約」により、CoeFont CLOUD上のCoeFontを使用した作品には「Voiced by https://CoeFont.CLOUD」というクレジットを表示することが義務付けられています。自分のCoeFontであっても同様ですのでご注意ください。

■「CoeFont CLOUD 利用規約」の「第19条 禁止行為」には必ず目を通しておいてください。ここにある行為は、CoeFontの制作者がOKと言っていてもNGです。

■利用申請が必要な設定のCoeFontを使うためには、当然利用申請が必要ですが、その際声の登録者に「メールアドレス・氏名(本名)・電話番号」が伝わります。身バレを防ぐことを最優先に考えていらっしゃる場合は、利用申請が必要なCoeFontは使わないことをおすすめいたします。

申請画面に「本人確認のため、メールアドレス・氏名・電話番号がこのCoeFontの持ち主に送信されます」と書いてあります。勝手に個人情報をバラされるわけではなく、あくまで同意の上で手続きが進められるのですが、文章を読み飛ばす癖のある方はくれぐれも注意してくださいね……!
追記:2021年8月21日の利用規約改定により、CoeFontの制作者は、利用申請を必要とする場合でも申請者の氏名を無記入でOKとすることができるようになりました。もちろん、その設定にしているかどうかは人によるので、利用申請をする時にはよくご確認ください。

■愛用しているCoeFontが、ある日突然非公開になって使えなくなったとしても、それは仕方のないことです。「CoeFontを突然非公開にしてはいけない」という利用規約がない以上、そういうリスクもあることを承知した上でCoeFontを利用していくしかありません。

【技術者向け】CoeFont API」を使えば、ご自身のアプリやWEBサイトに任意のCoeFontによる音声読み上げ機能を実装することができます。Access keyとClient Secretの生成はこちらのページで行えます。

ご質問や情報提供はお題箱へ!

「これについて教えてほしい」「この情報も載せてよ!」といったご要望がございましたら、匿名でメッセージを送れるお題箱からお送りください。必ずしもご要望にお応えできるとは限りませんが、参考にさせていただきます。

スポンサーリンク
Rei Yumesaki

「つくよみちゃん」企画者の夢前黎(ゆめさき れい)と申します。

作曲、文芸、声優、漫画制作、アプリ開発、キャラクターデザインなど、幅広い活動を行うマルチクリエイターです!

Rei Yumesakiをフォローする
スポンサーリンク
スポンサーリンク
つくよみちゃん公式サイト
タイトルとURLをコピーしました