Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 2)
```
python main.py
```
Первоначальная настройка:
запуск ComfyUI (через ярлык или командную строку);
проверка доступности GPU (в логах должно быть «Using CUDA»);
установка менеджера нод:
в браузере открыть `http://127.0.0.1:8188`;
перейти в «Manager» → «Install Custom Nodes»;
найти и установить пакеты для аудио (например, `comfyui-audio`).
Загрузка моделей:
скачать TTS‑модели (например, из Hugging Face);
поместить в папку `ComfyUI/models/tts`;
перезапустить ComfyUI для индексации.
Тестовый запуск:
загрузить шаблон рабочего процесса (пример: `tts_basic.json`);
подключить ноду «Text Input» → «TTS Model» → «Vocoder» → «Audio Output»;
нажать «Queue Prompt» и проверить аудио в выходной папке.
Примечание: Для стабильной работы рекомендуется:
обновлять ComfyUI и ноды через «Manager»;
использовать виртуальные окружения Python (venv/conda);
хранить модели на SSD для ускорения загрузки.
Глава 1. Интерфейс и принципы построения рабочих процессов
1.1. Структура нод (узлов) и их взаимосвязи
Нода (узел) в ComfyUI – это автономный модуль, выполняющий конкретную операцию в рамках рабочего процесса (workflow). Вся логика строится на соединении нод между собой через входные и выходные параметры.
Ключевые элементы ноды:
Заголовок – название ноды и её тип (например, Text Input, TTS Model).
Входы (слева) – поля для подключения данных от других нод.
Выходы (справа) – результаты работы ноды, передаваемые дальше.
Параметры (в центре) – настраиваемые опции (ползунки, выпадающие списки, текстовые поля).
Статус – индикатор выполнения (цветной кружок: зелёный – готово, жёлтый – в процессе, красный – ошибка).
Типы связей между нодами:
Данные – передача аудио, текста, параметров.
Управление – условные переходы (например, ветвление по качеству аудио).
Ссылки – повторное использование результатов (кэширование).
Принцип построения workflow:
1. Размещаете ноды на холсте.
2. Соединяете выходы одной ноды со входами другой (перетаскиванием мыши).
3. Настраиваете параметры каждой ноды.
4. Запускаете процесс кнопкой Queue Prompt.
1.2. Базовые ноды для обработки аудио
Ниже – ключевые ноды для синтеза и обработки голоса.
1. Text Input
Функция: ввод текстового сценария для синтеза.
Вход: отсутствует.
Выход: строка текста (тип STRING).
Параметры: поле для ручного ввода или загрузки из файла.
2. TTS Model
Функция: преобразование текста в мел‑спектрограмму.
Вход: текст (STRING) от Text Input.
Выход: мел‑спектрограмма (SPECTROGRAM).
Параметры:
выбор модели (Tacotron2, FastSpeech2 и др.);
скорость речи (speed);
интонация (pitch).
3. Vocoder
Функция: перевод спектрограммы в аудиосигнал.
Вход: спектрограмма (SPECTROGRAM) от TTS Model.
Выход: аудиофайл (AUDIO).
Параметры:
тип вокодера (WaveNet, MelGAN);
частота дискретизации (sample rate).
4. Audio Output
Функция: сохранение аудио на диск.
Вход: аудио (AUDIO) от Vocoder.