「みんなで作るJSUTコーパスbasic5000」とは?
概要
音声技術の研究・開発(主に文章読み上げソフトやボイスチェンジャーソフトの開発)のためには、大量の音声データが必要です。
しかも、ただの音声データではなく、様々な発音が満遍なく含まれたものである必要があります。
個人開発者の方にとっては特に、権利上問題のない音声データを大量に集めることが壁となっている現実があります。
本企画「みんなで作るJSUTコーパスbasic5000」では、この分野で権威のあるコーパスの1つである「JSUTコーパス」のうち「basic5000」の部分を「みんなで分担」して読み上げ、開発者の方々に無償で提供することを目指します!
「みんなで作るJSUTコーパスbasic5000」は、音声技術に関する研究・開発のため、且つ、「元の音声」や「声質」が表に出ない用途にのみご利用いただける音声データとして公開されます。
1人で5000文収録するのは大変ですが、みんなで力を合わせれば……!
この活動は無償のボランティアです。でも、「みんなで作るJSUTコーパスbasic5000」からすごい音声合成ソフトが作られたら、「俺たちのおかげなんだぜ~♪」と自慢できるというロマンがあります!
企画の趣旨にご賛同いただける方は、是非お気軽にご参加ください!
そういうお前は誰?
フリー素材キャラクター「つくよみちゃん」や「つくよみちゃんコーパス」でおなじみ(?)の、夢前黎というマルチクリエイター(個人事業主)です。
きっかけ
個人で音声合成ソフトを開発されているシロワニさん様のツイートを拝見したことがきっかけです。
シロワニです。イントネーションが正しいフリートークソフトの実現に向けて皆様のお力をお借りしたく思っております。現在、技術的には可能なのですが音声データが足りず実現できていません。どうか音声のご提供をお願いできないでしょうか。詳細はリプ欄に記載します。どうかよろしくお願いします。
— シロワニさん (@shirowanisan) June 7, 2021
ご提供をお願いしたい音声について
・JSUT-basic5000の読み上げ
・16bit、48kHz、環境音は小さい方が望ましいです
・利用用途:私が開発するトークソフトのベースモデルとしての利用(声質部分には用いません。詳細はDMでお伝えします。)
・補足:リプ欄で記載します— シロワニさん (@shirowanisan) June 7, 2021
補足:
5000文を読み上げる必要はありません。数は10でも100でも任意で大丈夫です。
最初の文から読み上げる必要はありません。1251~1300のように適当に選んでいただいた方が、他の方と被りにくくありがたいかもしれません。協力しても良いという方はDMお願いします。どうかよろしくお願いします。
— シロワニさん (@shirowanisan) June 7, 2021
……という方もいらっしゃるのではと思い、本企画を立ち上げました。
利用規約はどうなる?
5000文の音声データに対して、一律で同じ規約が適用されます。
利用規約の文面はこちらでご確認ください。「この規約でOK!」という方のみご参加いただければ幸いです!
クレジットはしてもらえるの?
もちろんです! こちらの方法でクレジットさせていただきます!
担当箇所ごとに声の主が分かるようになっています。WEBサイトや連絡先もクレジットいたします。
何かご心配な点がございましたら、お気軽にお問い合わせください!
避けられないリスクについて/免責事項
誠に恐れ入りますが、下記のリスクについては、どうしても避けることができません。
「みんなで作るJSUTコーパスbasic5000」は、文字通り複数人の声の寄せ集めですので、開発者の方々が1人1人の声を把握することは困難です。
完成した合成音声を聞いても「あっ、今一瞬Aさんの雰囲気が出てた!」と気づくことはないでしょうし、「よし、これなら誰の声の雰囲気も出てないな!」と確信を持って言えることもないと思われます。
遠い祖先の特徴が子孫に現れるように、もしかしたらあなたの声の雰囲気がひそかに反映されてしまうかも知れませんが、それすらも楽しみにできるという方のみご参加いただければ幸いです!
みんなの声を融合させてキメラを作ろう! どんな声ができるかな! わくわく!
利用規約違反もまた、コントロールが利かない問題です。
こっそり使われてしまったら見つけることすら難しく、例え見つけたとしても、完全解決にまで持っていくことをお約束することはできません。
企画の性質上、そのような「避けられないリスク」があることを何卒ご容赦ください。
こういう方には向いてないかも……
■5000文全部自分で読みたい方
■自分で決めた利用規約で公開したい方
■声質が使われない用途への音声提供には興味がないという方
■少しでも自分の声の特徴が合成音声に反映されたら嫌だという方
■自分の手元に置いて管理しないと不安を感じる方
参加方法
用意するもの
■読む人(年齢・性別・プロアマ不問)
■16bit・48000Hz・WAV形式で収録できる機材(できればモノラル)
■なるべく背景音や反響音が入らない収録環境(そこまで厳密でなくてもいいらしいですが、ホワイトノイズは低減処理していただけると助かります)
■1文ごとにファイルを分けておくスキル(収録しながら分けるか編集で分けるかは不問)
■読み間違えたらリテイクまたは編集で修正する根気(噛んだ部分、咳払い、物音などはカットしてください)
■応募文面
■何文読むか:○○文(こちらからまだ埋まっていない部分の台本をお渡しします)
■クレジットしてほしい名前:○○(匿名可)
■クレジットしてほしいWEBサイト:○○(Twitterアカウントでも可/なしでも可)
■クレジットしてほしい連絡先:○○(メールアドレス、WEBサイトのメッセージフォーム、TwitterのDMなど/連絡不可でも可)
ご応募はこちらから!
お好きな方法で、夢前黎(つくよみちゃん)にご連絡ください!
■TwitterのDM
■メール
音声収集状況&クレジット
こちらのGoogle スプレッドシートに収集状況をまとめました。音声提供者のクレジットも兼ねています。
台本をダウンロード(読み仮名&100文ずつ分割verあり)
ダウンロード
クレジット&利用規約
JSUTコーパスは、東京大学 大学院情報理工学系研究科 助教でいらっしゃる高道慎之介様が公開されている、音声合成用のコーパスです。
台本テキストは「CC BY-SA 4.0」(クリエイティブ・コモンズ 表示-継承 4.0 国際)のライセンスで公開されています。
本ページでは、JSUTコーパスの台本テキストのうち「basic5000」の部分のみを抜き出し、「CC BY-SA 4.0」のライセンスを継承して公開しています。
5000文すべてが入ったテキストデータをそのまま扱うことを不便に感じる方のために、100文ずつに分割したものも作成しました。せっかくですので、本企画に参加するかどうかにかかわらずご活用いただければ幸いです!
さらに、読み仮名の資料として、東京大学 猿渡・小山研究室 音声グループのTomoki Koriyama様がGitHubにて公開されている「jsut-label」というデータもお借りしました。
こちらも「CC BY-SA 4.0」のライセンスで公開されているものです。本企画においても「CC BY-SA 4.0」を継承して再配布させていただきます。
音声をダウンロード
ダウンロード
まだ5000文集まっていませんが、ご提供いただいた音声データにつきましては、すでにダウンロードしてご利用いただくことが可能です。
利用規約
■音声技術に関する研究・開発のため、且つ、「元の音声」や「声質」が表に出ない用途にのみご利用いただけます。
■上記の条件さえ守っていただければ、個人・法人、営利・非営利、研究用・開発用を問わずご利用いただけます。
■JSUTコーパスの台本テキストは「CC BY-SA 4.0」のライセンスで公開されていますが、「みんなで作るJSUTコーパスbasic5000」の制作・配布は「著作権法第三十条の四」に基づくものであるため、「CC BY-SA 4.0」の継承(コピーレフト)を行う必要はありません。詳しくはこちらのページをご覧ください。
■本データを使用して作成したコンテンツを公開する際、クレジットを表示していただくかどうかは任意ですが、表示していただけると、音声提供者の皆様の励みになります。表示していただける場合は、次の情報を参考にしてください。
■URL:https://tyc.rei-yumesaki.net/material/minnade-jsut/
■利用報告は任意ですが、教えていただけると、音声提供者の皆様の励みになります。教えていただける場合はこちらからお願いいたします!
■品質は無保証です。誤りを発見した場合はこちらからご報告いただくことができますが、修正に対応するとは限りません。
■本データを使用すること、または使用できなかったことによって、いかなる不利益が生じたとしても、夢前黎と音声提供者は一切責任を負いません。
■音声データの著作権は、各音声提供者に帰属します。
■「元の音声」や「声質」が表に出る用途で使用したい場合は、こちらのリストから音声提供者に連絡を取り、交渉を行ってください。
■次の場合のみ、再配布が可能です。
この場合は、「オリジナルの配布URLにアクセスできなくなっているため、利用規約に従って第三者が再配布している」ということを説明し、利用規約と音声提供者のクレジットを全文引き継いだ上で、無料で再配布していただけます。その後夢前黎が復活し、再配布の終了をお願いした場合は、その指示に従ってください。
お問い合わせ
下記のページをご覧ください。
簡単なご感想など、匿名の一言メッセージも大歓迎です!
実際に合成音声を作ってくださった方々
このコーナーでは、「みんなで作るJSUTコーパスbasic5000」を活用して合成音声を作ってくださった方をご紹介いたします。(企画者が把握している情報のみ)
■シロワニさん様:
COEIROINK(テキスト読み上げソフトウェア/夢前黎担当部分のみ使用)
■Yちゃん様:
SHAREVOX(テキスト読み上げソフトウェア)
■offtoung様:
①ez-chat-llm(GitHub/テキスト読み上げ機能つき会話AIソフトウェア/Pythonから簡単に利用できる音声合成ライブラリ ezttsを含む)
②ローカルAIと会話するソフト ez-chat-llm を作りました(4分の動画)
③ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。(解説記事)
④日本語版の音声合成モデルPhemeのファインチューニング時の学習を安定させるための活用(音響モデル配布/夢前黎担当部分のみ使用)
■ようさん様:
①StyleBertVITS2向けの事前学習モデル ver1(音響モデル配布/夢前黎担当部分のみ使用)
②StyleBertVITS2向けの事前学習モデル ver2(音響モデル配布/夢前黎担当部分のみ使用/追加学習の実例)