Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 6)
Подключение:
1. Найдите ноду `TTS: FastSpeech2` в Manager.
2. Скачайте модель (например, `fastspeech2-vctk`) и поместите в:
```
ComfyUI/models/tts/fastspeech2/
```
3. Укажите путь в параметре Model Path ноды.
Входные параметры:
`text` – входной текст;
`pitch_control` – регулировка высоты тона (диапазон: 0.8–1.2);
`energy_control` – контроль громкости слогов (0.8–1.2).
Выход: `mel_spectrogram`.
Важно: Для обеих моделей требуется вокодер (например, WaveGlow или HiFi‑GAN) для преобразования спектрограммы в аудио.
3.2. Настройка параметров: скорость, тон, громкость
1. Скорость речи (Speed)
Где настраивается: в ноде TTS‑модели (параметр `speed`).
Диапазон:
0.5 – замедленная речь (в 2 раза);
1.0 – стандартная скорость;
2.0 – ускоренная речь (в 2 раза).
Рекомендации:
для аудиокниг: 0.9–1.1;
для уведомлений: 1.2–1.4.
2. Тон (Pitch)
Способы регулировки:
через параметр `pitch_control` в FastSpeech2;
с помощью ноды `Audio Effect` (эквализация диапазона 100–500 Гц).
Эффекты:
повышение тона → более «молодой» голос;
понижение тона → более «солидный» голос.
Диапазон: 0.8–1.2 (коэффициент).
3. Громкость
На уровне модели: параметр `energy_control` в FastSpeech2 (влияет на амплитуду слогов).
На уровне аудио:
нода `Audio Effect` → параметр `volume` (в дБ);
нода `Audio Output` → настройка Normalization (LUFS).
Рекомендуемые уровни:
пиковая громкость: не выше −6 дБ;
средняя громкость: −14 LUFS (стандарт для медиа).
4. Дополнительные параметры
Паузы между фразами:
вставляйте символы `…` или `[PAUSE]` в текст;
настраивайте длительность через `pause_duration` (если поддерживается моделью).
Акценты на словах:
используйте разметку: `важное слово`;
регулируйте через `energy_control` для отдельных сегментов.
3.3. Генерация одноголосового аудио
Пошаговый workflow:
1. Ввод текста
Нода: `Text Input`.
Пример текста:
```
Привет! Это пример синтеза речи в ComfyUI.
```
2. Синтез спектрограммы
Нода: `TTS: FastSpeech2` (или `Tacotron2`).
Настройки:
`speed` = 1.0;
`pitch_control` = 1.0;
`energy_control` = 1.0.
3. Преобразование в аудио
Нода: `Vocoder: HiFi-GAN` (или `WaveGlow`).
Параметры:
`sample_rate` = 48000;
`denoiser_strength` = 0.01 (для подавления шума).