Irodori-TTSの音声を利用する
Irodori-TTSとは
Irodori-TTSは、Aratakoさんが開発しているテキスト読み上げソフトウェアです。
声の特徴をテキストで指示して参照音声を作成し、その声質で音声合成を行うことができます。
YMM4から直接音声を生成できます。
- GitHub - Aratako/Irodori-TTS
- HuggingFace - Aratako/Irodori-TTS-500M-v2
- HuggingFace - Aratako/Irodori-TTS-500M-v2-VoiceDesign
利用上の注意
ライセンス条項に加えて、以下の倫理的制約が適用されます。利用者は内容を確認した上で利用してください。
- なりすましの禁止: 本人の明示的な同意なく、特定の個人(声優・著名人・公人等)の声をクローンまたはなりすますために本機能を使用しないでください
- 誤情報の禁止: ディープフェイクの生成や、他者を欺いたり誤情報を拡散することを目的とした合成音声の生成に本機能を使用しないでください
- 音声生成に関する注意: 参照音声を使用せずテキストのみから音声を生成する場合、生成された声が偶然実在の人物に類似する可能性があります。これは潜在空間における確率的な現象であり、特定の個人を再現する意図 で学習されたものではありません
- 免責事項: YMM4の開発者、およびIrodori-TTS及びそのモデルの開発者は、本機能の不正使用に対して一切の責任を負いません。生成コンテンツの使用が管轄地域の法令に準拠していることを確認する責任は、利用者にあります
動作要件
- NVIDIA製GPU(CUDA対応)
- Irodori-TTSの実行に必要な空き容量(モデル含めて約2GB以上)
利用方法
1. uvのインストール
Irodori-TTSはPythonパッケージマネージャーuvで依存関係を管理しています。
- PowerShellを開く
- 以下のコマンドを実行するPOWERSHELLirm https://astral.sh/uv/install.ps1 | iex
- ターミナルを再起動し、
uv --versionが表示されることを確認する
2. Irodori-TTSのインストール
- 任意の場所でPowerShellを開く
- Irodori-TTSのリポジトリをクローンするTEXTgit clone https://github.com/Aratako/Irodori-TTS.git
- クローンしたディレクトリへ移動するTEXTcd Irodori-TTS
- 依存関係をインストールするTEXTuv sync
3. YMM4の設定
- ゆっくりMovieMaker4を起動する
- ファイル(F)→設定→音声合成→Irodori-TTSを開く
- gradio_app.py欄右側のフォルダボタンをクリックし、2.でクローンしたフォルダ内の
gradio_app.pyを選択する - 必要に応じてポート番号を変更する(デフォルト: 7860)
gradio_app.pyのパスを設定すると、音声合成時にYMM4が自動的にサーバーを起動・停止します(YMM4管理モード)。
4. 参照音声の作成
Irodori-TTSで音声合成を行うには、まず参照音声(話者の声質を定義するデータ)を作成する必要があります。
- ファイル(F)→設定→音声合成→Irodori-TTSを開く
- 参照音声管理セクションの新規作成ボタンをクリックする
- VoiceDesignダイアログで以下の項目を入力する
- 話者名: 参照音声を識別するための名前
- 声の特徴: 生成したい声質の説明(例: 「落ち着いた若い女性の声」)
- セリフ内容: 参照音声で読み上げるテキスト
- ステップ数: 拡散ステップ数(デフォルト: 40)。大きいほど高品質ですが生成に時間がかかります
- シード値(任意): 再現性を持たせたい場合に指定する乱数シード
- モデル(任意): カスタムチェックポイント。空欄時はデフォルトモデルを使用
- 生成ボタンをクリックして音声を生成する
初回実行時はモデル(約2GB)のダウンロードと読み込みが行われるため、数分~十数分かかります - プレビューボタンで生成結果を確認する
- 問題なければ保存ボタンをクリックする
5. キャラクターへの割り当て
- ファイル(F)→キャラクターの編集からキャラクター編集ウィンドウを開く
- ボイス→声質欄でIrodori-TTS / 話者名を選択する
- 必要に応じて以下のパラメータを調整する
- ステップ数: 拡散ステップ数(デフォルト: 40)
- テキスト強度: テキストに対する忠実度(デフォルト: 3.0)
- 話者強度: 参照音声への類似度(デフォルト: 5.0)
- モデル(任意): カスタムチェックポイント
- キャラクターを選択後、ここに台詞を入力欄にセリフを入力し、追加ボタンをクリックする
参照音声を削除する
- ファイル(F)→設定→音声合成→Irodori-TTSを開く
- 参照音声管理セクションで削除したい参照音声を選択する
- 削除ボタンをクリックする
参照音声をプレビュー再生する
- ファイル(F)→設定→音声合成→Irodori-TTSを開く
- 参照音声管理セクションで再生したい参照音声を選択する
- プレビューボタンをクリックする(再生中は停止ボタンに変わります)
外部サーバー/手動起動のサーバーに接続する
リモートサーバーに接続する場合や、Gradioサーバーを自分で手動起動したい場合は、接続URLを設定します。
- ファイル(F)→設定→音声合成→Irodori-TTSを開く
- 接続URLセクションで以下を設定する
- TTS用URL: TTS Gradioサーバーのアクセス先URL(デフォルト値は
http://127.0.0.1:7860相当) - VoiceDesign用URL: VoiceDesign GradioサーバーのアクセスURL
- TTS用URL: TTS Gradioサーバーのアクセス先URL(デフォルト値は
- 指定したURLが応答可能な場合、YMM4はサーバーを起動せずに接続します
手動でGradioサーバーを起動する場合のコマンド例:
TEXT
cd Irodori-TTSuv run python gradio_app.py --server-name 127.0.0.1 --server-port 7860トラブルシューティング
サーバーに接続できない
gradio_app.pyのパスが正しいか確認してくださいuvのインストールが完了しているか、ターミナルを再起動したかを確認してください- 他のアプリケーションがポート番号を使用している場合は、設定画面でポート番号を変更してください
音声の生成に失敗する
- NVIDIAドライバーおよびCUDAが最新か確認してください
- VRAM不足の場合は、他のGPUを使用するアプリを終了してください
初回生成時に時間がかかる
- 初回生成時は、モデル(約2GB)のダウンロードとGPUへの読み込みが行われます
- 2回目以降はキャッシュが利用されるため高速に動作します