реклама
Бургер менюБургер меню

Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 3)

18

Выход: путь к файлу (PATH).

Параметры:

формат (WAV, MP3);

папка для сохранения.

5. Audio Effect

Функция: постобработка звука (эквализация, реверберация).

Вход: аудио (AUDIO).

Выход: обработанное аудио (AUDIO).

Параметры:

тип эффекта (reverb, eq, compression);

интенсивность.

6. Voice Cloner

Функция: клонирование голоса по референсному аудио.

Входы:

текст (STRING);

референсное аудио (AUDIO).

Выход: синтезированное аудио (AUDIO) в стиле диктора.

Параметры:

модель (YourTTS, VITS);

степень переноса стиля (style strength).

1.3. Сохранение и экспорт рабочих процессов

Сохранение workflow:

1. В меню File выберите Save или Save As.

2. Файл сохраняется в формате JSON (например, `tts_workflow.json`).

3. В файле хранятся:

позиции нод на холсте;

связи между нодами;

значения параметров.

Экспорт для повторного использования:

Шаблоны: сохраняйте типовые цепочки (например, «Базовый TTS») как шаблоны.

Обмен: передавайте JSON‑файл коллегам – они откроют его в своём ComfyUI через Load.

Резервное копирование:

Храните копии JSON‑файлов в облаке или системе контроля версий (Git).

Для критичных проектов дублируйте модели и настройки.

Импорт чужого workflow:

1. Скачайте JSON‑файл.

2. В ComfyUI нажмите Load и выберите файл.

3. Проверьте:

наличие всех требуемых моделей (могут быть указаны в комментариях к нодам);

корректность путей к файлам.

Советы:

Используйте комментарии (Note Node) для описания логики workflow.

Группируйте ноды в логические блоки (через Ctrl + G).

Тестируйте workflow поэтапно (запускайте отдельные подграфы через Right‑click → Execute).

Глава 2. Подготовка данных для синтеза

2.1. Требования к аудиозаписям

Для качественного обучения моделей синтеза речи (особенно при клонировании голоса) аудиоматериалы должны соответствовать строгим техническим параметрам.

Основные форматы:

WAV (без сжатия) – предпочтительный вариант;

FLAC (сжатие без потерь) – допустимый альтернативный формат;

MP3/OGG (сжатие с потерями) – не рекомендуются из‑за артефактов.

Ключевые параметры:

Частота дискретизации:

минимум – 16 кГц (базовое качество);

оптимально – 44,1 кГц или 48 кГц (студийное качество);

для профессиональных моделей – 96 кГц (редко, из‑за роста объёма данных).

Глубина квантования: 16 бит (стандарт) или 24 бит (для высокоточных моделей).

Количество каналов: моно (1 канал) – обязательно (стерео создаёт артефакты).

Длительность фрагмента:

для TTS – до 30 секунд;

для клонирования голоса – от 30 секунд до 5 минут на один пример.

Уровень громкости:

средний уровень – −18 дБ до −12 дБ;

пики не выше −6 дБ (во избежание клиппинга).

Дополнительные требования: