Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 3)
Выход: путь к файлу (PATH).
Параметры:
формат (WAV, MP3);
папка для сохранения.
5. Audio Effect
Функция: постобработка звука (эквализация, реверберация).
Вход: аудио (AUDIO).
Выход: обработанное аудио (AUDIO).
Параметры:
тип эффекта (reverb, eq, compression);
интенсивность.
6. Voice Cloner
Функция: клонирование голоса по референсному аудио.
Входы:
текст (STRING);
референсное аудио (AUDIO).
Выход: синтезированное аудио (AUDIO) в стиле диктора.
Параметры:
модель (YourTTS, VITS);
степень переноса стиля (style strength).
1.3. Сохранение и экспорт рабочих процессов
Сохранение workflow:
1. В меню File выберите Save или Save As.
2. Файл сохраняется в формате JSON (например, `tts_workflow.json`).
3. В файле хранятся:
позиции нод на холсте;
связи между нодами;
значения параметров.
Экспорт для повторного использования:
Шаблоны: сохраняйте типовые цепочки (например, «Базовый TTS») как шаблоны.
Обмен: передавайте JSON‑файл коллегам – они откроют его в своём ComfyUI через Load.
Резервное копирование:
Храните копии JSON‑файлов в облаке или системе контроля версий (Git).
Для критичных проектов дублируйте модели и настройки.
Импорт чужого workflow:
1. Скачайте JSON‑файл.
2. В ComfyUI нажмите Load и выберите файл.
3. Проверьте:
наличие всех требуемых моделей (могут быть указаны в комментариях к нодам);
корректность путей к файлам.
Советы:
Используйте комментарии (Note Node) для описания логики workflow.
Группируйте ноды в логические блоки (через Ctrl + G).
Тестируйте workflow поэтапно (запускайте отдельные подграфы через Right‑click → Execute).
Глава 2. Подготовка данных для синтеза
2.1. Требования к аудиозаписям
Для качественного обучения моделей синтеза речи (особенно при клонировании голоса) аудиоматериалы должны соответствовать строгим техническим параметрам.
Основные форматы:
WAV (без сжатия) – предпочтительный вариант;
FLAC (сжатие без потерь) – допустимый альтернативный формат;
MP3/OGG (сжатие с потерями) – не рекомендуются из‑за артефактов.
Ключевые параметры:
Частота дискретизации:
минимум – 16 кГц (базовое качество);
оптимально – 44,1 кГц или 48 кГц (студийное качество);
для профессиональных моделей – 96 кГц (редко, из‑за роста объёма данных).
Глубина квантования: 16 бит (стандарт) или 24 бит (для высокоточных моделей).
Количество каналов: моно (1 канал) – обязательно (стерео создаёт артефакты).
Длительность фрагмента:
для TTS – до 30 секунд;
для клонирования голоса – от 30 секунд до 5 минут на один пример.
Уровень громкости:
средний уровень – −18 дБ до −12 дБ;
пики не выше −6 дБ (во избежание клиппинга).
Дополнительные требования: