реклама
Бургер менюБургер меню

Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 5)

18

примеры слов с редкими звукосочетаниями.

Особые правила для русского языка:

Обязательное использование буквы «ё» (не заменять на «е»).

Указание ударений в омографах (например, «за́мок» vs «замо́к») через символ `+`.

Разделение сложных числительных (например, «двадцать один» вместо «21»).

Структура датасета:

1. Аудиофайлы:

формат – WAV, 48 кГц, 16 бит, моно;

имена файлов – уникальные идентификаторы (например, `sample_001.wav`).

2. Текстовые расшифровки:

формат – TSV или CSV;

колонки:

`file_name` (имя аудиофайла);

`text` (дословная расшифровка).

кодировка – UTF‑8 без BOM.

Пример TSV‑файла:

```

file_name text

sample_001 Книга собирает жемчужины человеческой мысли.

sample_002 Мы предлагаем вам замечательную книгу!

sample_003 Книга рекомендована школьникам от пяти лет.

```

Рекомендации по сбору данных:

Объём:

минимальный – 30 минут чистого аудио;

рекомендуемый – 60 минут;

оптимальный – 90 минут и более.

Диктор:

один человек для одного амплуа;

естественная манера речи (без актёрской игры, если не требуется).

Запись:

в тихой комнате с акустической обработкой;

микрофон на расстоянии 15–30 см от рта;

отключение уведомлений и фоновых звуков.

Проверка качества:

Прослушать каждый фрагмент на наличие артефактов.

Сверять текст с аудио (ошибки снижают качество модели).

Использовать метрики:

WER (Word Error Rate) для распознавания речи;

MOS (Mean Opinion Score) для субъективной оценки.

Глава 3. Простые TTS‑решения в ComfyUI

3.1. Подключение стандартных моделей (Tacotron2, FastSpeech)

ComfyUI позволяет подключать популярные TTS‑модели через специализированные ноды. Ниже – пошаговая инструкция для двух базовых архитектур.

1. Tacotron2

Назначение: генерация мел‑спектрограммы из текста (требует вокодера для финального аудио).

Подключение:

1. Установите ноду `TTS: Tacotron2` через ComfyUI Manager (раздел Custom Nodes).

2. Загрузите предобученную модель (например, из репозитория Hugging Face):

формат: `.pt` или `.ckpt`;

рекомендуемые версии: `tacotron2-lj-v2`, `tacotron2-multi`.

3. Поместите модель в папку:

```

ComfyUI/models/tts/tacotron2/

```

4. В ноде укажите путь к модели через параметр Model Path.

Входные параметры ноды:

`text` – строка текста (подключается от Text Input);

`speaker_id` – идентификатор диктора (для мультидикторных моделей);

`speed` – коэффициент скорости речи (по умолчанию: 1.0).

Выход: `mel_spectrogram` (передаётся в вокодер).

2. FastSpeech2

Преимущества перед Tacotron2:

выше скорость синтеза;

стабильность интонации;

меньше артефактов при длинных текстах.