✿ 初めての方はこちら! ✿

声優統計コーパス→JSUTコーパス→JVSコーパス→つくよみちゃんコーパスの成り立ちについて

つくよみちゃんコーパス Vol.1 声優統計コーパス(JVSコーパス準拠)

このページでは、「つくよみちゃんコーパス Vol.1 声優統計コーパス(JVSコーパス準拠)」で台本として使わせていただいたテキスト群の成り立ちと、そのライセンスについて説明いたします。

スポンサーリンク

【1】声優統計コーパスの誕生

まず、日本声優統計学会様が、「声優統計コーパス」を制作・公開されました。

日本声優統計学会 HP 及び 声優統計コーパス配布ページ
※「日本声優統計学会」は、正式な学会ではなく、同人サークルの名称です。

声優統計コーパスは、様々な発音がバランスよく含まれる日本語の台本(音素バランス文)と、それらをプロの女性声優3名が読み上げた音声データの総称です。

台本は100文からなり、Wikipediaの文章を少しずつ集めて作られました。

Wikipediaのどのページから引き抜いてきた文であるかは、こちらのページで説明されています。

Wikipedia」は、誰でも編集できるフリー百科事典であり、書き込まれた文章は「CC BY-SA 3.0」の条件のもとで二次利用することができると定められています。(→Wikipedia:ウィキペディアを二次利用する

日本声優統計学会様は、「CC BY-SA 3.0」の規定に従い、台本テキストを「CC BY-SA 4.0(クリエイティブ・コモンズ 表示-継承 4.0 国際)のライセンスで公開されました。

声優統計コーパスの「テキスト」ではなく「音声データ」の部分については、「CC BY-SA 4.0」を継承せず、独自のライセンスで公開されています。これはこちらのページにある理由によるものと推察いたしますが、正確なことにつきましては、日本声優統計学会様にお問い合わせください。

【2】JSUTコーパスの誕生

次に、東京大学 大学院情報理工学系研究科 助教でいらっしゃる高道慎之介様が、声優統計コーパスのテキストを二次利用して「JSUTコーパス」を制作・公開されました。

JSUTコーパスは、声優統計コーパスだけでなく、他の台本も含めた大量のテキストと、それらを読み上げた女性1名の音声データ(合計約10時間)から成るコーパスです。

声優統計コーパスの部分は「voiceactress100」というフォルダ名で収録されており、台本には次の改変が行われました。

■句読点が追加されました。
■004番の文の「監視」が「管理」に変更されました。
■018番の文の「他(た)」が「他(ほか)」と読まれるようになりました。
■067番の文の「修飾」が「装飾」に変更されました。
■071番の文の「ウィンウッド」が「ウィンレッド」に変更されました。
■071番の文の「ランケナウ」が「レンキナウ」に変更されました。
改変後の台本テキストは、「CC BY-SA 4.0」の規定に従い、声優統計コーパスと同じく「CC BY-SA 4.0(クリエイティブ・コモンズ 表示-継承 4.0 国際)のライセンスで公開されました。
JSUTコーパスの「テキスト」ではなく「音声データ」の部分については、「CC BY-SA 4.0」を継承せず、独自のライセンスで公開されています。これはこちらのページにある理由によるものと推察いたしますが、正確なことにつきましては、高道慎之介様にお問い合わせください。

【3】JVSコーパスの誕生

JVSコーパスも、JSUTコーパスと同じく、高道慎之介様が制作・公開されている日本語コーパスです。

JVSコーパスは、JSUTコーパスの台本テキストの一部と、それらを読み上げた男女100名のプロフェッショナル話者(声優・俳優など)の音声データから成るコーパスです。

台本の一部には、JSUTコーパス版の改変済み声優統計コーパス「voiceactress100」が採用されています。特に、「parallel100」というフォルダの中には100文全部が収録されています。

台本のテキスト自体はJSUTコーパス版の「voiceactress100」と同一ですが、漢字はそのままで読み方だけ変更された部分がありました。下記の通りです。

■012番の文の「鋼製(はがねせい)」が「鋼製(こうせい)」と読まれるようになりました。
ただし、JVSコーパスの「lab」>「mon」フォルダ内のラベルでは「hagane」になっています。JSUTコーパスの時点で読み方が変更された018番でも同様の状態が見られ、「他(た)」が「他(ほか)」と読まれるようになっても、JVSコーパスのラベルは「ta」のままになっています。音声を修正するよりもラベルを修正する方がコストが低いため、ここでは「音声の方が正しい」として話を進めさせていただきます。
※私(夢前黎)が知らないうちに修正されている可能性もございます。
※高道慎之介様にはご報告済みです。
前述の通り、JVSコーパス内の声優統計コーパス部分の台本テキストは、JSUTコーパス内の「voiceactress100」と同一であり、「CC BY-SA 4.0(クリエイティブ・コモンズ 表示-継承 4.0 国際)のライセンスで公開されています。
JVSコーパスの「テキスト」ではなく「音声データ」の部分については、「CC BY-SA 4.0」を継承せず、独自のライセンスで公開されています。これはこちらのページにある理由によるものと推察いたしますが、正確なことにつきましては、高道慎之介様にお問い合わせください。

【4】JVSコーパスの使用が推奨される時代に

2021年2月現在、JVSコーパス版の「voiceactress100」は、声優統計コーパスから派生した台本の中では最も収録者の多い台本であると思われます。

Dwango Media Village様が開発されたAIボイスチェンジャー「Seiren Voice Demo」では、JVSコーパスの100名分の音声データが声質の学習に利用されており、実用可能であることも確認されていると言えるでしょう。

日本声優統計学会様からも、元の声優統計コーパスよりJVSコーパスの利用を推奨するとの声明が発表されました。

【5】つくよみちゃんコーパスの誕生

「つくよみちゃんコーパス」は、マルチクリエイター・夢前黎(Rei Yumesaki)がプロデュースするフリー素材キャラクター「つくよみちゃん」の公式音声コーパスです。

本記事は、その夢前黎が書いているものです。
音声合成による「キャラ声」「アニメ声」の再現を目指している方向けの素材として公開しています。

その第一弾である「つくよみちゃんコーパス Vol.1 声優統計コーパス(JVSコーパス準拠)」は、その名の通り、JVSコーパス版の改変済み声優統計コーパス100文を、つくよみちゃんをイメージした声で読み上げた音声コーパスです。

声優統計コーパス・JSUTコーパス・JVSコーパスとの違いは次の通りです。

■アナウンサーのような声ではなく、高音ウィスパー系の14歳前後のアニメキャラクター風ボイスを目指して作られています。
■台本テキスト自体に変更はありませんが、JVSコーパスの100名分の読み上げの中でアクセントが統一されていない言葉については、アクセント辞典等を参考にしながら独自にアクセントの決定を行いました
■資料として、一部の言葉に読み仮名やアクセント記号を追加した台本テキストを同梱しています。(この台本は「CC BY-SA 4.0」のライセンスで公開しています)
■「個人が自宅で用意できる品質の一例」としての資料的価値もあるかも知れません。
つくよみちゃんコーパス Vol.1の「テキスト」ではなく「音声データ」の部分については、「CC BY-SA 4.0」を継承せず、独自のライセンスで公開しています。その理由についてはこちらのページでご確認ください。

なお、収録者である夢前黎はフリーランスの声優です。と言っても、専門の訓練を受けたことはないため、実質一般人です。音質、声質、発声、滑舌、アクセント等、すべてにおいて無保証であることをご理解いただいた上でご利用ください。

いわゆる「アマチュア声優」「ネット声優」に該当すると思いますが、「声でお金をもらったことがあればプロ」という定義であればプロ声優にも該当します。(例としては、企業様の電話の自動音声を担当させていただいたことがございます)

また、「読み仮名つきの台本」については、ヒホ(ヒロシバ)様も公開してくださっています。そちらでは、つくよみちゃんコーパスと違い、難易を問わずすべての漢字にルビが振られています。

そちらの読み仮名と、つくよみちゃんコーパスの読み仮名は一致していますので(どちらもJVSコーパスの読み方に準拠しているため、必然的に同じものになります)、使いやすい方をご利用ください。

つくよみちゃんコーパスに同梱している台本テキストは、シンプルなテキストファイル(.txt)をスマホ等で表示しながら収録したい方向けの形式です。

アクセントにつきましては、現在ヒホ(ヒロシバ)様がアクセントのデータを作っていらっしゃるそうなので、もし今後そのデータが公開されるのであれば、そちらを参照された方が良いかも知れません。つくよみちゃんコーパスのアクセントに合わせて収録することで不利益が生じたとしても、夢前黎は責任を負いません。
※追記:その後、ヒホ(ヒロシバ)様の開発におかれましては、アクセントはあまり気にしなくてもいいということになったそうです。しかしこの情報も最新ではない可能性がございます。特定の開発者様のために収録をされる場合は、その開発者様に「現在の最善」をご確認いただくのが最も確実です。

【6】声優統計コーパスブーム到来!?

つくよみちゃんコーパス Vol.1 声優統計コーパス(JVSコーパス準拠)」が公開されると、「さっそく研究・開発に使ってみよう」という方や、「自分も声優統計コーパスを録ってみたい」という方が次々に現れ、声優統計コーパスの収録に熱視線が注がれ始めました。

2021年現在においては、個人で音声合成ソフトの開発に取り組まれている方も多く、音声合成用コーパスの需要はかつてないほどに膨らんでいたのです。

今や、個人で声優統計コーパス(JVSコーパス準拠)を収録して配布するという「文化」が生まれつつあるように感じています。

追記:その後、パブリックドメインの音素バランス文「ITAコーパス」がリリースされ、選択肢が増えました!

声優統計コーパス(JVSコーパス準拠)の収録&配布者リスト

下記のページをご覧ください。

音声合成ソフトの開発における「CC BY-SA 4.0」と「著作権法第三十条の四」について

下記のページをご覧ください。

スポンサーリンク
Rei Yumesaki

「つくよみちゃんプロジェクト」企画者の夢前黎(ゆめさき れい)と申します。

作曲、文芸、声優、漫画制作、アプリ開発、キャラクターデザインなど、幅広い活動を行うマルチクリエイターです!

Rei Yumesakiをフォローする
スポンサーリンク
スポンサーリンク
つくよみちゃん公式サイト
タイトルとURLをコピーしました