реклама
Бургер менюБургер меню

Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 6)

18

Подключение:

1. Найдите ноду `TTS: FastSpeech2` в Manager.

2. Скачайте модель (например, `fastspeech2-vctk`) и поместите в:

```

ComfyUI/models/tts/fastspeech2/

```

3. Укажите путь в параметре Model Path ноды.

Входные параметры:

`text` – входной текст;

`pitch_control` – регулировка высоты тона (диапазон: 0.8–1.2);

`energy_control` – контроль громкости слогов (0.8–1.2).

Выход: `mel_spectrogram`.

Важно: Для обеих моделей требуется вокодер (например, WaveGlow или HiFi‑GAN) для преобразования спектрограммы в аудио.

3.2. Настройка параметров: скорость, тон, громкость

1. Скорость речи (Speed)

Где настраивается: в ноде TTS‑модели (параметр `speed`).

Диапазон:

0.5 – замедленная речь (в 2 раза);

1.0 – стандартная скорость;

2.0 – ускоренная речь (в 2 раза).

Рекомендации:

для аудиокниг: 0.9–1.1;

для уведомлений: 1.2–1.4.

2. Тон (Pitch)

Способы регулировки:

через параметр `pitch_control` в FastSpeech2;

с помощью ноды `Audio Effect` (эквализация диапазона 100–500 Гц).

Эффекты:

повышение тона → более «молодой» голос;

понижение тона → более «солидный» голос.

Диапазон: 0.8–1.2 (коэффициент).

3. Громкость

На уровне модели: параметр `energy_control` в FastSpeech2 (влияет на амплитуду слогов).

На уровне аудио:

нода `Audio Effect` → параметр `volume` (в дБ);

нода `Audio Output` → настройка Normalization (LUFS).

Рекомендуемые уровни:

пиковая громкость: не выше −6 дБ;

средняя громкость: −14 LUFS (стандарт для медиа).

4. Дополнительные параметры

Паузы между фразами:

вставляйте символы `…` или `[PAUSE]` в текст;

настраивайте длительность через `pause_duration` (если поддерживается моделью).

Акценты на словах:

используйте разметку: `важное слово`;

регулируйте через `energy_control` для отдельных сегментов.

3.3. Генерация одноголосового аудио

Пошаговый workflow:

1. Ввод текста

Нода: `Text Input`.

Пример текста:

```

Привет! Это пример синтеза речи в ComfyUI.

```

2. Синтез спектрограммы

Нода: `TTS: FastSpeech2` (или `Tacotron2`).

Настройки:

`speed` = 1.0;

`pitch_control` = 1.0;

`energy_control` = 1.0.

3. Преобразование в аудио

Нода: `Vocoder: HiFi-GAN` (или `WaveGlow`).

Параметры:

`sample_rate` = 48000;

`denoiser_strength` = 0.01 (для подавления шума).