Irodori-TTSの音声を利用する

Irodori-TTSとは

Irodori-TTSは、Aratakoさんが開発しているテキスト読み上げソフトウェアです。
声の特徴をテキストで指示して参照音声を作成し、その声質で音声合成を行うことができます。
YMM4から直接音声を生成できます。

利用上の注意

ライセンス条項に加えて、以下の倫理的制約が適用されます。利用者は内容を確認した上で利用してください。

なりすましの禁止: 本人の明示的な同意なく、特定の個人（声優・著名人・公人等）の声をクローンまたはなりすますために本機能を使用しないでください
誤情報の禁止: ディープフェイクの生成や、他者を欺いたり誤情報を拡散することを目的とした合成音声の生成に本機能を使用しないでください
音声生成に関する注意: 参照音声を使用せずテキストのみから音声を生成する場合、生成された声が偶然実在の人物に類似する可能性があります。これは潜在空間における確率的な現象であり、特定の個人を再現する意図で学習されたものではありません
免責事項: YMM4の開発者、およびIrodori-TTS及びそのモデルの開発者は、本機能の不正使用に対して一切の責任を負いません。生成コンテンツの使用が管轄地域の法令に準拠していることを確認する責任は、利用者にあります

動作要件

NVIDIA製GPU（CUDA対応）
Irodori-TTSの実行に必要な空き容量（モデル含めて約2GB以上）

利用方法

1. uvのインストール

Irodori-TTSはPythonパッケージマネージャーuvで依存関係を管理しています。

PowerShellを開く
以下のコマンドを実行する
POWERSHELL
```
irm https://astral.sh/uv/install.ps1 | iex
```
ターミナルを再起動し、uv --versionが表示されることを確認する

2. Irodori-TTSのインストール

任意の場所でPowerShellを開く
Irodori-TTSのリポジトリをクローンする
TEXT
```
git clone https://github.com/Aratako/Irodori-TTS.git
```
クローンしたディレクトリへ移動する
TEXT
```
cd Irodori-TTS
```
依存関係をインストールする
TEXT
```
uv sync
```

3. YMM4の設定

ゆっくりMovieMaker4を起動する
ファイル(F)→設定→音声合成→Irodori-TTSを開く
gradio_app.py欄右側のフォルダボタンをクリックし、2.でクローンしたフォルダ内のgradio_app.pyを選択する
必要に応じてポート番号を変更する（デフォルト: 7860）

gradio_app.pyのパスを設定すると、音声合成時にYMM4が自動的にサーバーを起動・停止します（YMM4管理モード）。

4. 参照音声の作成

Irodori-TTSで音声合成を行うには、まず参照音声（話者の声質を定義するデータ）を作成する必要があります。

ファイル(F)→設定→音声合成→Irodori-TTSを開く
参照音声管理セクションの新規作成ボタンをクリックする
VoiceDesignダイアログで以下の項目を入力する
- 話者名: 参照音声を識別するための名前
- 声の特徴: 生成したい声質の説明（例: 「落ち着いた若い女性の声」）
- セリフ内容: 参照音声で読み上げるテキスト
- ステップ数: 拡散ステップ数（デフォルト: 40）。大きいほど高品質ですが生成に時間がかかります
- シード値（任意）: 再現性を持たせたい場合に指定する乱数シード
- モデル（任意）: カスタムチェックポイント。空欄時はデフォルトモデルを使用
生成ボタンをクリックして音声を生成する
初回実行時はモデル（約2GB）のダウンロードと読み込みが行われるため、数分～十数分かかります
プレビューボタンで生成結果を確認する
問題なければ保存ボタンをクリックする

5. キャラクターへの割り当て

ファイル(F)→キャラクターの編集からキャラクター編集ウィンドウを開く
ボイス→声質欄でIrodori-TTS / 話者名を選択する
必要に応じて以下のパラメータを調整する
- ステップ数: 拡散ステップ数（デフォルト: 40）
- テキスト強度: テキストに対する忠実度（デフォルト: 3.0）
- 話者強度: 参照音声への類似度（デフォルト: 5.0）
- モデル（任意）: カスタムチェックポイント
キャラクターを選択後、ここに台詞を入力欄にセリフを入力し、追加ボタンをクリックする

参照音声を削除する

ファイル(F)→設定→音声合成→Irodori-TTSを開く
参照音声管理セクションで削除したい参照音声を選択する
削除ボタンをクリックする

参照音声をプレビュー再生する

ファイル(F)→設定→音声合成→Irodori-TTSを開く
参照音声管理セクションで再生したい参照音声を選択する
プレビューボタンをクリックする（再生中は停止ボタンに変わります）

外部サーバー／手動起動のサーバーに接続する

リモートサーバーに接続する場合や、Gradioサーバーを自分で手動起動したい場合は、接続URLを設定します。

ファイル(F)→設定→音声合成→Irodori-TTSを開く
接続URLセクションで以下を設定する
- TTS用URL: TTS Gradioサーバーのアクセス先URL（デフォルト値はhttp://127.0.0.1:7860相当）
- VoiceDesign用URL: VoiceDesign GradioサーバーのアクセスURL
指定したURLが応答可能な場合、YMM4はサーバーを起動せずに接続します

手動でGradioサーバーを起動する場合のコマンド例:

TEXT

cd Irodori-TTS
uv run python gradio_app.py --server-name 127.0.0.1 --server-port 7860

トラブルシューティング

サーバーに接続できない

gradio_app.pyのパスが正しいか確認してください
uvのインストールが完了しているか、ターミナルを再起動したかを確認してください
他のアプリケーションがポート番号を使用している場合は、設定画面でポート番号を変更してください

音声の生成に失敗する

NVIDIAドライバーおよびCUDAが最新か確認してください
VRAM不足の場合は、他のGPUを使用するアプリを終了してください

初回生成時に時間がかかる

初回生成時は、モデル（約2GB）のダウンロードとGPUへの読み込みが行われます
2回目以降はキャッシュが利用されるため高速に動作します

饅頭遣いのおもちゃ箱