Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 7)

6 7 8 Вперед

Шрифт

4. Постобработка

Нода: `Audio Effect`.

Действия:

эквализация (усиление 1–4 кГц);

нормализация громкости.

5. Экспорт

Нода: `Audio Output`.

Настройки:

`format` = WAV;

`output_path` = `./output/speech.wav`.

Запуск процесса:

1. Соедините ноды в порядке:

```

Text Input → FastSpeech2 → HiFi-GAN → Audio Effect → Audio Output

```

2. Нажмите Queue Prompt.

3. Проверьте результат в указанной папке.

Типичные ошибки и решения:

«Модель не найдена»: убедитесь, что файл модели лежит в правильной папке и указан верный путь.

«Артефакты в аудио»: попробуйте другой вокодер или уменьшите `denoiser_strength`.

«Обрыв звука»: проверьте длину текста (не более 250 символов) и наличие пауз.

Советы по оптимизации:

Для быстрого тестирования используйте малые модели (например, `fastspeech2-small`).

Сохраняйте рабочие процессы как шаблоны (File → Save As Template).

Для серийной генерации создавайте циклы через ноду `Batch Process`.

Глава 4. Работа с предобученными моделями

4.1. Загрузка и интеграция моделей из Hugging Face

Шаг 1. Подготовка окружения

1. Убедитесь, что установлен ComfyUI Manager (через меню Manager → Install Custom Nodes).

2. Установите необходимые зависимости:

`transformers` (для загрузки моделей);

`torch` (PyTorch для инференса);

`soundfile` (для работы с аудио).

```bash

pip install transformers torch soundfile

```

Шаг 2. Поиск модели на Hugging Face

1. Перейдите на [huggingface.co/models](https://huggingface.co/models).

2. Используйте фильтры:

Task: Text-to-Speech, Voice Cloning;

Language: выберите нужный язык (например, Russian, English);

Library: PyTorch.

3. Примеры популярных моделей:

`facebook/fairseq-wav2vec2-large-960h` (английский);

`silero/models` (многоязычные TTS);

`espnet/kan-bayashi_ljspeech_tts_train_tacotron2_raw_phn_tacotron_g2p_en` (английский).

Шаг 3. Загрузка модели

1. В ComfyUI откройте ноду Download Model (из ComfyUI Manager).

2. Укажите:

Model ID: полный путь (например, `silero/models/en_tts`).

Save Path: папка `ComfyUI/models/tts/`.

3. Нажмите Download. Модель сохранится в формате `.pt` или `.ckpt`.

Шаг 4. Подключение модели в ComfyUI

1. Добавьте ноду TTS Model Loader (или аналогичную для вашей модели).

2. В параметре Model Path укажите путь к загруженному файлу.

3. Проверьте совместимость:

модель должна поддерживать вход `text` и выход `mel_spectrogram`;

убедитесь, что версия PyTorch соответствует требованиям модели.

Шаг 5. Тестовый запуск

1. Соедините ноды:

```

Text Input → TTS Model Loader → Vocoder → Audio Output

```

2. Введите короткий текст (например, «Привет!»).

3. Запустите процесс через Queue Prompt.

6 7 8 Вперед