Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 5)
примеры слов с редкими звукосочетаниями.
Особые правила для русского языка:
Обязательное использование буквы «ё» (не заменять на «е»).
Указание ударений в омографах (например, «за́мок» vs «замо́к») через символ `+`.
Разделение сложных числительных (например, «двадцать один» вместо «21»).
Структура датасета:
1. Аудиофайлы:
формат – WAV, 48 кГц, 16 бит, моно;
имена файлов – уникальные идентификаторы (например, `sample_001.wav`).
2. Текстовые расшифровки:
формат – TSV или CSV;
колонки:
`file_name` (имя аудиофайла);
`text` (дословная расшифровка).
кодировка – UTF‑8 без BOM.
Пример TSV‑файла:
```
file_name text
sample_001 Книга собирает жемчужины человеческой мысли.
sample_002 Мы предлагаем вам замечательную книгу!
sample_003 Книга рекомендована школьникам от пяти лет.
```
Рекомендации по сбору данных:
Объём:
минимальный – 30 минут чистого аудио;
рекомендуемый – 60 минут;
оптимальный – 90 минут и более.
Диктор:
один человек для одного амплуа;
естественная манера речи (без актёрской игры, если не требуется).
Запись:
в тихой комнате с акустической обработкой;
микрофон на расстоянии 15–30 см от рта;
отключение уведомлений и фоновых звуков.
Проверка качества:
Прослушать каждый фрагмент на наличие артефактов.
Сверять текст с аудио (ошибки снижают качество модели).
Использовать метрики:
WER (Word Error Rate) для распознавания речи;
MOS (Mean Opinion Score) для субъективной оценки.
Глава 3. Простые TTS‑решения в ComfyUI
3.1. Подключение стандартных моделей (Tacotron2, FastSpeech)
ComfyUI позволяет подключать популярные TTS‑модели через специализированные ноды. Ниже – пошаговая инструкция для двух базовых архитектур.
1. Tacotron2
Назначение: генерация мел‑спектрограммы из текста (требует вокодера для финального аудио).
Подключение:
1. Установите ноду `TTS: Tacotron2` через ComfyUI Manager (раздел Custom Nodes).
2. Загрузите предобученную модель (например, из репозитория Hugging Face):
формат: `.pt` или `.ckpt`;
рекомендуемые версии: `tacotron2-lj-v2`, `tacotron2-multi`.
3. Поместите модель в папку:
```
ComfyUI/models/tts/tacotron2/
```
4. В ноде укажите путь к модели через параметр Model Path.
Входные параметры ноды:
`text` – строка текста (подключается от Text Input);
`speaker_id` – идентификатор диктора (для мультидикторных моделей);
`speed` – коэффициент скорости речи (по умолчанию: 1.0).
Выход: `mel_spectrogram` (передаётся в вокодер).
2. FastSpeech2
Преимущества перед Tacotron2:
выше скорость синтеза;
стабильность интонации;
меньше артефактов при длинных текстах.