このページでは、「つくよみちゃんコーパス Vol.1 声優統計コーパス(JVSコーパス準拠)」で台本として使わせていただいたテキスト群の成り立ちと、そのライセンスについて説明いたします。
【1】声優統計コーパスの誕生
まず、日本声優統計学会様が、「声優統計コーパス」を制作・公開されました。
声優統計コーパスは、様々な発音がバランスよく含まれる日本語の台本(音素バランス文)と、それらをプロの女性声優3名が読み上げた音声データの総称です。
台本は100文からなり、Wikipediaの文章を少しずつ集めて作られました。
「Wikipedia」は、誰でも編集できるフリー百科事典であり、書き込まれた文章は「CC BY-SA 3.0」の条件のもとで二次利用することができると定められています。(→Wikipedia:ウィキペディアを二次利用する)
日本声優統計学会様は、「CC BY-SA 3.0」の規定に従い、台本テキストを「CC BY-SA 4.0」(クリエイティブ・コモンズ 表示-継承 4.0 国際)のライセンスで公開されました。
【2】JSUTコーパスの誕生
次に、東京大学 大学院情報理工学系研究科 助教でいらっしゃる高道慎之介様が、声優統計コーパスのテキストを二次利用して「JSUTコーパス」を制作・公開されました。
JSUTコーパスは、声優統計コーパスだけでなく、他の台本も含めた大量のテキストと、それらを読み上げた女性1名の音声データ(合計約10時間)から成るコーパスです。
声優統計コーパスの部分は「voiceactress100」というフォルダ名で収録されており、台本には次の改変が行われました。
【3】JVSコーパスの誕生
JVSコーパスも、JSUTコーパスと同じく、高道慎之介様が制作・公開されている日本語コーパスです。
JVSコーパスは、JSUTコーパスの台本テキストの一部と、それらを読み上げた男女100名のプロフェッショナル話者(声優・俳優など)の音声データから成るコーパスです。
台本の一部には、JSUTコーパス版の改変済み声優統計コーパス「voiceactress100」が採用されています。特に、「parallel100」というフォルダの中には100文全部が収録されています。
台本のテキスト自体はJSUTコーパス版の「voiceactress100」と同一ですが、漢字はそのままで読み方だけ変更された部分がありました。下記の通りです。
※私(夢前黎)が知らないうちに修正されている可能性もございます。
※高道慎之介様にはご報告済みです。
【4】JVSコーパスの使用が推奨される時代に
2021年2月現在、JVSコーパス版の「voiceactress100」は、声優統計コーパスから派生した台本の中では最も収録者の多い台本であると思われます。
Dwango Media Village様が開発されたAIボイスチェンジャー「Seiren Voice Demo」では、JVSコーパスの100名分の音声データが声質の学習に利用されており、実用可能であることも確認されていると言えるでしょう。
日本声優統計学会様からも、元の声優統計コーパスよりJVSコーパスの利用を推奨するとの声明が発表されました。
【5】つくよみちゃんコーパスの誕生
「つくよみちゃんコーパス」は、マルチクリエイター・夢前黎(Rei Yumesaki)がプロデュースするフリー素材キャラクター「つくよみちゃん」の公式音声コーパスです。
その第一弾である「つくよみちゃんコーパス Vol.1 声優統計コーパス(JVSコーパス準拠)」は、その名の通り、JVSコーパス版の改変済み声優統計コーパス100文を、つくよみちゃんをイメージした声で読み上げた音声コーパスです。
声優統計コーパス・JSUTコーパス・JVSコーパスとの違いは次の通りです。
なお、収録者である夢前黎はフリーランスの声優です。と言っても、専門の訓練を受けたことはないため、実質一般人です。音質、声質、発声、滑舌、アクセント等、すべてにおいて無保証であることをご理解いただいた上でご利用ください。
また、「読み仮名つきの台本」については、ヒホ(ヒロシバ)様も公開してくださっています。そちらでは、つくよみちゃんコーパスと違い、難易を問わずすべての漢字にルビが振られています。
そちらの読み仮名と、つくよみちゃんコーパスの読み仮名は一致していますので(どちらもJVSコーパスの読み方に準拠しているため、必然的に同じものになります)、使いやすい方をご利用ください。
つくよみちゃんコーパスに同梱している台本テキストは、シンプルなテキストファイル(.txt)をスマホ等で表示しながら収録したい方向けの形式です。
【6】声優統計コーパスブーム到来!?
「つくよみちゃんコーパス Vol.1 声優統計コーパス(JVSコーパス準拠)」が公開されると、「さっそく研究・開発に使ってみよう」という方や、「自分も声優統計コーパスを録ってみたい」という方が次々に現れ、声優統計コーパスの収録に熱視線が注がれ始めました。
2021年現在においては、個人で音声合成ソフトの開発に取り組まれている方も多く、音声合成用コーパスの需要はかつてないほどに膨らんでいたのです。
作りました。
この動画では、フリー素材キャラクター「つくよみちゃん」(© Rei Yumesaki)を使用しています。
音声合成には、フリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。@TYC_Project
■イラスト素材:花兎*様
■つくよみちゃんコーパス(CV.夢前黎) pic.twitter.com/m1ieNO5N46— シロワニさん (@shirowanisan) March 6, 2021
今や、個人で声優統計コーパス(JVSコーパス準拠)を収録して配布するという「文化」が生まれつつあるように感じています。
声優統計コーパス(JVSコーパス準拠)の収録&配布者リスト
下記のページをご覧ください。
音声合成ソフトの開発における「CC BY-SA 4.0」と「著作権法第三十条の四」について
下記のページをご覧ください。