Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 4)
отсутствие фоновых шумов (уровень шума < −40 дБ);
паузы в начале и конце записи – 100–200 мс;
чёткое произношение без запинок и повторов;
стабильная интонация в пределах одного фрагмента.
2.2. Очистка и предобработка звука
Этапы обработки для устранения артефактов и приведения аудио к стандартному виду.
1. Удаление тишины и пауз
Инструменты:
`sox` (команда `silence`);
библиотеки Python: `pydub`, `librosa`.
Параметры:
порог обнаружения тишины – −40 дБ;
минимальная длительность паузы – 300 мс.
2. Нормализация громкости
Цель: привести уровень к −14 LUFS (стандарт для медиа).
Методы:
пиковая нормализация (peak normalization);
RMS‑нормализация (по среднеквадратичному уровню).
Инструменты:
`ffmpeg` (`-af loudnorm`);
`pysox` (Python).
3. Подавление шума
Алгоритмы:
спектральное вычитание (spectral subtraction);
вейвлет‑фильтрация;
нейросети (например, `noisereduce`).
Параметры:
полоса подавления – 20 Гц–20 кГц;
глубина подавления – 10–20 дБ.
4. Эквализация
Коррекция частотного баланса:
усиление диапазона 1–4 кГц (разборчивость речи);
ослабление ниже 80 Гц (низкочастотный гул).
Инструменты:
`sox` (`equalizer`);
`scipy.signal` (Python).
5. Ресамплинг
Приведение к единой частоте дискретизации (например, 48 кГц).
Метод:
линейная интерполяция (быстро, но с артефактами);
Sinc‑интерполяция (качественно, медленнее).
Инструменты:
`ffmpeg` (`-ar 48000`);
`librosa.resample()`.
6. Удаление кликов и щелчков
Алгоритмы:
медианная фильтрация;
замена аномалий линейной интерполяцией.
Инструменты:
`audacity` (ручной режим);
скрипты на `numpy`.
2.3. Создание текстовых скриптов для синтеза
Требования к текстам:
Грамматическая корректность – отсутствие ошибок и опечаток.
Длина фразы:
максимум – 250 символов (включая пробелы);
оптимально – 10–50 слов.
Полнота предложений – без обрывов на полуслове.
Разнообразие интонаций:
повествовательные предложения;
вопросы (не менее 30% от общего объёма);
восклицания (5–10%).
Фонетическое покрытие:
включение всех фонем языка;
баланс гласных и согласных;