Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 7)
4. Постобработка
Нода: `Audio Effect`.
Действия:
эквализация (усиление 1–4 кГц);
нормализация громкости.
5. Экспорт
Нода: `Audio Output`.
Настройки:
`format` = WAV;
`output_path` = `./output/speech.wav`.
Запуск процесса:
1. Соедините ноды в порядке:
```
Text Input → FastSpeech2 → HiFi-GAN → Audio Effect → Audio Output
```
2. Нажмите Queue Prompt.
3. Проверьте результат в указанной папке.
Типичные ошибки и решения:
«Модель не найдена»: убедитесь, что файл модели лежит в правильной папке и указан верный путь.
«Артефакты в аудио»: попробуйте другой вокодер или уменьшите `denoiser_strength`.
«Обрыв звука»: проверьте длину текста (не более 250 символов) и наличие пауз.
Советы по оптимизации:
Для быстрого тестирования используйте малые модели (например, `fastspeech2-small`).
Сохраняйте рабочие процессы как шаблоны (File → Save As Template).
Для серийной генерации создавайте циклы через ноду `Batch Process`.
Глава 4. Работа с предобученными моделями
4.1. Загрузка и интеграция моделей из Hugging Face
Шаг 1. Подготовка окружения
1. Убедитесь, что установлен ComfyUI Manager (через меню Manager → Install Custom Nodes).
2. Установите необходимые зависимости:
`transformers` (для загрузки моделей);
`torch` (PyTorch для инференса);
`soundfile` (для работы с аудио).
```bash
pip install transformers torch soundfile
```
Шаг 2. Поиск модели на Hugging Face
1. Перейдите на [huggingface.co/models](https://huggingface.co/models).
2. Используйте фильтры:
Task: Text-to-Speech, Voice Cloning;
Language: выберите нужный язык (например, Russian, English);
Library: PyTorch.
3. Примеры популярных моделей:
`facebook/fairseq-wav2vec2-large-960h` (английский);
`silero/models` (многоязычные TTS);
`espnet/kan-bayashi_ljspeech_tts_train_tacotron2_raw_phn_tacotron_g2p_en` (английский).
Шаг 3. Загрузка модели
1. В ComfyUI откройте ноду Download Model (из ComfyUI Manager).
2. Укажите:
Model ID: полный путь (например, `silero/models/en_tts`).
Save Path: папка `ComfyUI/models/tts/`.
3. Нажмите Download. Модель сохранится в формате `.pt` или `.ckpt`.
Шаг 4. Подключение модели в ComfyUI
1. Добавьте ноду TTS Model Loader (или аналогичную для вашей модели).
2. В параметре Model Path укажите путь к загруженному файлу.
3. Проверьте совместимость:
модель должна поддерживать вход `text` и выход `mel_spectrogram`;
убедитесь, что версия PyTorch соответствует требованиям модели.
Шаг 5. Тестовый запуск
1. Соедините ноды:
```
Text Input → TTS Model Loader → Vocoder → Audio Output
```
2. Введите короткий текст (например, «Привет!»).
3. Запустите процесс через Queue Prompt.