みんなで作るJSUTコーパスbasic5000【音声提供者大募集！】

「みんなで作るJSUTコーパスbasic5000」とは？

概要

音声技術の研究・開発（主に文章読み上げソフトやボイスチェンジャーソフトの開発）のためには、大量の音声データが必要です。

しかも、ただの音声データではなく、様々な発音が満遍なく含まれたものである必要があります。

個人開発者の方にとっては特に、権利上問題のない音声データを大量に集めることが壁となっている現実があります。

本企画「みんなで作るJSUTコーパスbasic5000」では、この分野で権威のあるコーパスの１つである「JSUTコーパス」のうち「basic5000」の部分を「みんなで分担」して読み上げ、開発者の方々に無償で提供することを目指します！

「みんなで作るJSUTコーパスbasic5000」は、音声技術に関する研究・開発のため、且つ、「元の音声」や「声質」が表に出ない用途にのみご利用いただける音声データとして公開されます。

聞いたところによると、声質が表に出てこない部分のディープラーニングのためであれば、話者がバラバラでも、あまり上手じゃなくても、役に立つそうです！

【2021.09.22 追記】実際に複数話者のデータの寄せ集めで単一話者TTSを作ったご経験のあるシロワニさん様から、このようなアドバイスをいただきました。

１人で5000文収録するのは大変ですが、みんなで力を合わせれば……！

この活動は無償のボランティアです。でも、「みんなで作るJSUTコーパスbasic5000」からすごい音声合成ソフトが作られたら、「俺たちのおかげなんだぜ～♪」と自慢できるというロマンがあります！

企画の趣旨にご賛同いただける方は、是非お気軽にご参加ください！

音声データの公開には、後述するリスクが伴います。本企画は「リスクは承知の上で音声を配布したいけど、自分で配布したり規約考えたりするのは面倒くさい」という方向けの企画であり、闇雲に音声を素材化することを推奨する意図はございません。ご理解いただける方のみご参加ください！

そういうお前は誰？

フリー素材キャラクター「つくよみちゃん」や「つくよみちゃんコーパス」でおなじみ（？）の、夢前黎というマルチクリエイター（個人事業主）です。

きっかけ

個人で音声合成ソフトを開発されているシロワニさん様のツイートを拝見したことがきっかけです。

シロワニです。イントネーションが正しいフリートークソフトの実現に向けて皆様のお力をお借りしたく思っております。現在、技術的には可能なのですが音声データが足りず実現できていません。どうか音声のご提供をお願いできないでしょうか。詳細はリプ欄に記載します。どうかよろしくお願いします。
— シロワニさん (@shirowanisan) June 7, 2021

ご提供をお願いしたい音声について
・JSUT-basic5000の読み上げ
・16bit、48kHz、環境音は小さい方が望ましいです
・利用用途：私が開発するトークソフトのベースモデルとしての利用（声質部分には用いません。詳細はDMでお伝えします。）
・補足：リプ欄で記載します
— シロワニさん (@shirowanisan) June 7, 2021

補足：
5000文を読み上げる必要はありません。数は10でも100でも任意で大丈夫です。
最初の文から読み上げる必要はありません。1251~1300のように適当に選んでいただいた方が、他の方と被りにくくありがたいかもしれません。
協力しても良いという方はDMお願いします。どうかよろしくお願いします。
— シロワニさん (@shirowanisan) June 7, 2021

■「どうせ収録するなら他の開発者の方にも使ってもらいたいな～」

■「でも自分で配布するのは面倒くさいな～」

■「というか5000文のうちの一部しかないから配布しにくいし」

■「利用規約とかどうしたらいいかよく分かんないし！」

■「そもそも何を読んだらいいのかも実はよく分かってないんだよねｗ」

……という方もいらっしゃるのではと思い、本企画を立ち上げました。

本企画は、シロワニさん様のツイートから着想を得た夢前黎が個人的に始めたものであり、上記のシロワニさん様の募集とは別件です。

利用規約はどうなる？

5000文の音声データに対して、一律で同じ規約が適用されます。

利用規約の文面はこちらでご確認ください。「この規約でOK！」という方のみご参加いただければ幸いです！

音声データの著作権は、各音声提供者に帰属します。夢前黎に著作権を譲渡することにはなりません。夢前黎は「配布責任者」という立場でデータの管理を行います。

クレジットはしてもらえるの？

もちろんです！　こちらの方法でクレジットさせていただきます！

現在は随時更新できるようGoogle スプレッドシートを利用していますが、正式リリース時には、リンク切れのリスクを避けるため、「.xlsx」ファイル形式にして配布ファイルに同梱する予定です。

担当箇所ごとに声の主が分かるようになっています。WEBサイトや連絡先もクレジットいたします。

何かご心配な点がございましたら、お気軽にお問い合わせください！

避けられないリスクについて／免責事項

誠に恐れ入りますが、下記のリスクについては、どうしても避けることができません。

①声質が表に出てこない部分のディープラーニングであっても、厳密に言えば、声や話し方の特徴が学習の結果として現れてくる可能性があります。

②利用規約に従わずに音声データを使用する人がいるかも知れません。（あなたの声が悪用されてしまうかも……）

「みんなで作るJSUTコーパスbasic5000」は、文字通り複数人の声の寄せ集めですので、開発者の方々が１人１人の声を把握することは困難です。

完成した合成音声を聞いても「あっ、今一瞬Aさんの雰囲気が出てた！」と気づくことはないでしょうし、「よし、これなら誰の声の雰囲気も出てないな！」と確信を持って言えることもないと思われます。

遠い祖先の特徴が子孫に現れるように、もしかしたらあなたの声の雰囲気がひそかに反映されてしまうかも知れませんが、それすらも楽しみにできるという方のみご参加いただければ幸いです！

みんなの声を融合させてキメラを作ろう！　どんな声ができるかな！　わくわく！

利用規約違反もまた、コントロールが利かない問題です。

こっそり使われてしまったら見つけることすら難しく、例え見つけたとしても、完全解決にまで持っていくことをお約束することはできません。

企画の性質上、そのような「避けられないリスク」があることを何卒ご容赦ください。

【免責事項】
提供していただいた音声データが使用されること、または使用されなかったことによって生じたトラブルについては、企画者（夢前黎）は一切責任を負いません。

こういう方には向いてないかも……

■5000文全部自分で読みたい方

■自分で決めた利用規約で公開したい方

■声質が使われない用途への音声提供には興味がないという方

■少しでも自分の声の特徴が合成音声に反映されたら嫌だという方

■自分の手元に置いて管理しないと不安を感じる方

上記の方も、本ページで公開している「100文ずつに分割したJSUTコーパス台本テキスト」を是非ご活用ください！

参加方法

用意するもの

■読む人（年齢・性別・プロアマ不問）

■16bit・48000Hz・WAV形式で収録できる機材（できればモノラル）

■なるべく背景音や反響音が入らない収録環境（そこまで厳密でなくてもいいらしいですが、ホワイトノイズは低減処理していただけると助かります）

■１文ごとにファイルを分けておくスキル（収録しながら分けるか編集で分けるかは不問）

■読み間違えたらリテイクまたは編集で修正する根気（噛んだ部分、咳払い、物音などはカットしてください）

■応募文面

「みんなで作るJSUTコーパスbasic5000」に参加したいです。
■何文読むか：○○文（こちらからまだ埋まっていない部分の台本をお渡しします）
■クレジットしてほしい名前：○○（匿名可）
■クレジットしてほしいWEBサイト：○○（Twitterアカウントでも可／なしでも可）
■クレジットしてほしい連絡先：○○（メールアドレス、WEBサイトのメッセージフォーム、TwitterのDMなど／連絡不可でも可）

ご応募はこちらから！

お好きな方法で、夢前黎（つくよみちゃん）にご連絡ください！

■TwitterのDM

■メール

音声収集状況＆クレジット

こちらのGoogle スプレッドシートに収集状況をまとめました。音声提供者のクレジットも兼ねています。

音声を提供したい場合は、いちいちこちらをご覧いただいてどの文を読もうか悩む必要はありません。夢前黎に「○○文くらい提供したいんだけど～」とお声がけいただければ、いい感じに台本を割り振らせていただきます！

台本をダウンロード（読み仮名＆100文ずつ分割verあり）

ダウンロード

台本をダウンロード

クレジット＆利用規約

JSUTコーパスは、東京大学大学院情報理工学系研究科助教でいらっしゃる高道慎之介様が公開されている、音声合成用のコーパスです。

台本テキストは「CC BY-SA 4.0」（クリエイティブ・コモンズ表示-継承 4.0 国際）のライセンスで公開されています。

◆CC BY-SA 4.0 要約版

◆CC BY-SA 4.0 全文

◆音声合成ソフトの開発における「CC BY-SA」と「著作権法第三十条の四」について

本ページでは、JSUTコーパスの台本テキストのうち「basic5000」の部分のみを抜き出し、「CC BY-SA 4.0」のライセンスを継承して公開しています。

5000文すべてが入ったテキストデータをそのまま扱うことを不便に感じる方のために、100文ずつに分割したものも作成しました。せっかくですので、本企画に参加するかどうかにかかわらずご活用いただければ幸いです！

さらに、読み仮名の資料として、東京大学猿渡・小山研究室音声グループのTomoki Koriyama様がGitHubにて公開されている「jsut-label」というデータもお借りしました。

こちらも「CC BY-SA 4.0」のライセンスで公開されているものです。本企画においても「CC BY-SA 4.0」を継承して再配布させていただきます。

音声をダウンロード

ダウンロード

まだ5000文集まっていませんが、ご提供いただいた音声データにつきましては、すでにダウンロードしてご利用いただくことが可能です。

音声をダウンロード

利用規約

■音声技術に関する研究・開発のため、且つ、「元の音声」や「声質」が表に出ない用途にのみご利用いただけます。

■上記の条件さえ守っていただければ、個人・法人、営利・非営利、研究用・開発用を問わずご利用いただけます。

■JSUTコーパスの台本テキストは「CC BY-SA 4.0」のライセンスで公開されていますが、「みんなで作るJSUTコーパスbasic5000」の制作・配布は「著作権法第三十条の四」に基づくものであるため、「CC BY-SA 4.0」の継承（コピーレフト）を行う必要はありません。詳しくはこちらのページをご覧ください。

■本データを使用して作成したコンテンツを公開する際、クレジットを表示していただくかどうかは任意ですが、表示していただけると、音声提供者の皆様の励みになります。表示していただける場合は、次の情報を参考にしてください。

■名称：みんなで作るJSUTコーパスbasic5000
■URL：https://tyc.rei-yumesaki.net/material/minnade-jsut/

※名称とURLを両方記載していただくことを歓迎いたしますが、片方のみの記載でも問題ありません。

■利用報告は任意ですが、教えていただけると、音声提供者の皆様の励みになります。教えていただける場合はこちらからお願いいたします！

■品質は無保証です。誤りを発見した場合はこちらからご報告いただくことができますが、修正に対応するとは限りません。

■本データを使用すること、または使用できなかったことによって、いかなる不利益が生じたとしても、夢前黎と音声提供者は一切責任を負いません。

■音声データの著作権は、各音声提供者に帰属します。

■「元の音声」や「声質」が表に出る用途で使用したい場合は、こちらのリストから音声提供者に連絡を取り、交渉を行ってください。

本企画の主催者（夢前黎）が公開している「つくよみちゃんコーパス」は、声質が表に出る用途でもご利用いただけるアニメ声コーパスです。つくよみちゃんの声で喋る音声合成ソフトを作って売り捌いてもOKです！

「声優統計コーパス（JVSコーパス準拠）の収録＆配布者リスト」及び「ITAコーパスの収録＆配布者リスト」もお役立てください。
※配布者ごとに利用規約が異なります。必ず、各配布ページで利用規約をご確認ください。

■次の場合のみ、再配布が可能です。

■本データがダウンロード不能な状態となっており、その旨を夢前黎に伝えようとしても連絡が取れず、夢前黎のネット上での活動も半年以上確認できなくなっている場合。
この場合は、「オリジナルの配布URLにアクセスできなくなっているため、利用規約に従って第三者が再配布している」ということを説明し、利用規約と音声提供者のクレジットを全文引き継いだ上で、無料で再配布していただけます。その後夢前黎が復活し、再配布の終了をお願いした場合は、その指示に従ってください。

■本データを使用して作られた合成音声やソフトウェアを用いて犯罪を行うことは、本規約に書くまでもなく、法律によって禁止されています。例えば、権利者からの許可を得ずにディープフェイクを作成・公開した場合、「著作権法違反」「名誉毀損罪」「偽計業務妨害罪」等の罪に問われる可能性があります。