饅頭遣いのおもちゃ箱

  • ゆっくりMovieMaker4
    • よくある質問
      • インストール・起動・更新時のトラブル
      • 他のアプリケーションとの競合
      • UI・キー操作
      • タイムライン
      • ゆっくりボイス
        • ゆっくりボイスの生成に時間がかかる
        • 字幕が表示されない
        • 字幕と一緒にキャラクターの名前や背景を表示したい
        • セリフ入力時、最初の一文字が半角英数になる
        • 音質を変更する
        • 声質を変更する
        • 単語の読みや発音を登録する
        • AIにセリフの続きを考えてもらう
        • A.I.VOICEの音声を利用する
        • A.I.VOICEの音声が声質欄に表示されない
        • AivisCloudAPIの音声を利用する
        • AivisSpeechの音声を利用する
        • CeVIO AI / CeVIO CS の音声を使用する
        • CoeFont の音声を使用する
        • COEIROINKの音声を利用する
        • ElevenLabsの音声を利用する
        • Gemini TTSの音声を利用する
        • Grok TTSの音声を利用する
        • Irodori-TTSの音声を利用する
        • ITVOICEの音声を利用する
        • Kotodamaの音声を利用する
        • LMROIDの音声を利用する
        • OpenAI TTSの音声を利用する
        • SHAREVOXの音声を利用する
        • Style-Bert-VITS2の音声を利用する
        • TALQu3の音声を利用する
        • VOICEPEAKの音声を利用する
        • VOICEVOX の音声を使用する
        • VOICEVOX Nemoの音声を使用する
        • VoiSonaTalkの音声を利用する
        • にじボイスの音声を利用する
        • よみてのれゐを使用する
        • Amazon Pollyの音声を利用する
        • Google Cloud Text-to-Speechの音声を利用する
        • Microsoft Azure Text-to-Speechの音声を利用する
        • SAPI5の声質を追加する
        • 外部の音声合成エンジンで作成した音声ファイルを使用したい
        • 新しくインストールしたキャラクターが声質一覧に表示されない
        • 生成済みの合成音声が再生されなくなる
        • AquesTalkで数値を含む文章を読み上げられない
        • 単語辞書・発音辞書に登録した項目が適用されない
      • エフェクト機能
      • 立ち絵機能
      • 編集作業
      • 動画出力
      • プラグイン
      • AviUtl関連
      • その他
    • 過去のバージョン
  • Psdファイルをバラすやつ
  • その他のソフトウェア
  • 備忘録
  • ソーシャル
  • リソース
  • お問い合わせ

開発者支援

Irodori-TTSの音声を利用する

Irodori-TTSとは

Irodori-TTSは、Aratakoさんが開発しているテキスト読み上げソフトウェアです。
声の特徴をテキストで指示して参照音声を作成し、その声質で音声合成を行うことができます。
YMM4から直接音声を生成できます。

  • GitHub - Aratako/Irodori-TTS
  • HuggingFace - Aratako/Irodori-TTS-500M-v2
  • HuggingFace - Aratako/Irodori-TTS-500M-v2-VoiceDesign

利用上の注意

ライセンス条項に加えて、以下の倫理的制約が適用されます。利用者は内容を確認した上で利用してください。

  • なりすましの禁止: 本人の明示的な同意なく、特定の個人(声優・著名人・公人等)の声をクローンまたはなりすますために本機能を使用しないでください
  • 誤情報の禁止: ディープフェイクの生成や、他者を欺いたり誤情報を拡散することを目的とした合成音声の生成に本機能を使用しないでください
  • 音声生成に関する注意: 参照音声を使用せずテキストのみから音声を生成する場合、生成された声が偶然実在の人物に類似する可能性があります。これは潜在空間における確率的な現象であり、特定の個人を再現する意図で学習されたものではありません
  • 免責事項: YMM4の開発者、およびIrodori-TTS及びそのモデルの開発者は、本機能の不正使用に対して一切の責任を負いません。生成コンテンツの使用が管轄地域の法令に準拠していることを確認する責任は、利用者にあります

動作要件

  • NVIDIA製GPU(CUDA対応)
  • Irodori-TTSの実行に必要な空き容量(モデル含めて約2GB以上)

利用方法

1. uvのインストール

Irodori-TTSはPythonパッケージマネージャーuvで依存関係を管理しています。

  1. PowerShellを開く
  2. 以下のコマンドを実行する
    POWERSHELL
    irm https://astral.sh/uv/install.ps1 | iex
  3. ターミナルを再起動し、uv --versionが表示されることを確認する

2. Irodori-TTSのインストール

  1. 任意の場所でPowerShellを開く
  2. Irodori-TTSのリポジトリをクローンする
    TEXT
    git clone https://github.com/Aratako/Irodori-TTS.git
  3. クローンしたディレクトリへ移動する
    TEXT
    cd Irodori-TTS
  4. 依存関係をインストールする
    TEXT
    uv sync

3. YMM4の設定

  1. ゆっくりMovieMaker4を起動する
  2. ファイル(F)→設定→音声合成→Irodori-TTSを開く
  3. gradio_app.py欄右側のフォルダボタンをクリックし、2.でクローンしたフォルダ内のgradio_app.pyを選択する
  4. 必要に応じてポート番号を変更する(デフォルト: 7860)

gradio_app.pyのパスを設定すると、音声合成時にYMM4が自動的にサーバーを起動・停止します(YMM4管理モード)。

4. 参照音声の作成

Irodori-TTSで音声合成を行うには、まず参照音声(話者の声質を定義するデータ)を作成する必要があります。

  1. ファイル(F)→設定→音声合成→Irodori-TTSを開く
  2. 参照音声管理セクションの新規作成ボタンをクリックする
  3. VoiceDesignダイアログで以下の項目を入力する
    • 話者名: 参照音声を識別するための名前
    • 声の特徴: 生成したい声質の説明(例: 「落ち着いた若い女性の声」)
    • セリフ内容: 参照音声で読み上げるテキスト
    • ステップ数: 拡散ステップ数(デフォルト: 40)。大きいほど高品質ですが生成に時間がかかります
    • シード値(任意): 再現性を持たせたい場合に指定する乱数シード
    • モデル(任意): カスタムチェックポイント。空欄時はデフォルトモデルを使用
  4. 生成ボタンをクリックして音声を生成する
    初回実行時はモデル(約2GB)のダウンロードと読み込みが行われるため、数分~十数分かかります
  5. プレビューボタンで生成結果を確認する
  6. 問題なければ保存ボタンをクリックする

5. キャラクターへの割り当て

  1. ファイル(F)→キャラクターの編集からキャラクター編集ウィンドウを開く
  2. ボイス→声質欄でIrodori-TTS / 話者名を選択する
  3. 必要に応じて以下のパラメータを調整する
    • ステップ数: 拡散ステップ数(デフォルト: 40)
    • テキスト強度: テキストに対する忠実度(デフォルト: 3.0)
    • 話者強度: 参照音声への類似度(デフォルト: 5.0)
    • モデル(任意): カスタムチェックポイント
  4. キャラクターを選択後、ここに台詞を入力欄にセリフを入力し、追加ボタンをクリックする

参照音声を削除する

  1. ファイル(F)→設定→音声合成→Irodori-TTSを開く
  2. 参照音声管理セクションで削除したい参照音声を選択する
  3. 削除ボタンをクリックする

参照音声をプレビュー再生する

  1. ファイル(F)→設定→音声合成→Irodori-TTSを開く
  2. 参照音声管理セクションで再生したい参照音声を選択する
  3. プレビューボタンをクリックする(再生中は停止ボタンに変わります)

外部サーバー/手動起動のサーバーに接続する

リモートサーバーに接続する場合や、Gradioサーバーを自分で手動起動したい場合は、接続URLを設定します。

  1. ファイル(F)→設定→音声合成→Irodori-TTSを開く
  2. 接続URLセクションで以下を設定する
    • TTS用URL: TTS Gradioサーバーのアクセス先URL(デフォルト値はhttp://127.0.0.1:7860相当)
    • VoiceDesign用URL: VoiceDesign GradioサーバーのアクセスURL
  3. 指定したURLが応答可能な場合、YMM4はサーバーを起動せずに接続します

手動でGradioサーバーを起動する場合のコマンド例:

TEXT
cd Irodori-TTS
uv run python gradio_app.py --server-name 127.0.0.1 --server-port 7860

トラブルシューティング

サーバーに接続できない

  • gradio_app.pyのパスが正しいか確認してください
  • uvのインストールが完了しているか、ターミナルを再起動したかを確認してください
  • 他のアプリケーションがポート番号を使用している場合は、設定画面でポート番号を変更してください

音声の生成に失敗する

  • NVIDIAドライバーおよびCUDAが最新か確認してください
  • VRAM不足の場合は、他のGPUを使用するアプリを終了してください

初回生成時に時間がかかる

  • 初回生成時は、モデル(約2GB)のダウンロードとGPUへの読み込みが行われます
  • 2回目以降はキャッシュが利用されるため高速に動作します

関連リンク

  • GitHub - Aratako/Irodori-TTS
  • HuggingFace - Aratako/Irodori-TTS-500M-v2
  • HuggingFace - Aratako/Irodori-TTS-500M-v2-VoiceDesign

Edit on Github
© 2011-2026 饅頭遣い, Built with gatsby-blog-mdx