реклама
Бургер менюБургер меню

Нейро Психолог – Генерация голоса с помощью ComfyUI (страница 4)

18

отсутствие фоновых шумов (уровень шума < −40 дБ);

паузы в начале и конце записи – 100–200 мс;

чёткое произношение без запинок и повторов;

стабильная интонация в пределах одного фрагмента.

2.2. Очистка и предобработка звука

Этапы обработки для устранения артефактов и приведения аудио к стандартному виду.

1. Удаление тишины и пауз

Инструменты:

`sox` (команда `silence`);

библиотеки Python: `pydub`, `librosa`.

Параметры:

порог обнаружения тишины – −40 дБ;

минимальная длительность паузы – 300 мс.

2. Нормализация громкости

Цель: привести уровень к −14 LUFS (стандарт для медиа).

Методы:

пиковая нормализация (peak normalization);

RMS‑нормализация (по среднеквадратичному уровню).

Инструменты:

`ffmpeg` (`-af loudnorm`);

`pysox` (Python).

3. Подавление шума

Алгоритмы:

спектральное вычитание (spectral subtraction);

вейвлет‑фильтрация;

нейросети (например, `noisereduce`).

Параметры:

полоса подавления – 20 Гц–20 кГц;

глубина подавления – 10–20 дБ.

4. Эквализация

Коррекция частотного баланса:

усиление диапазона 1–4 кГц (разборчивость речи);

ослабление ниже 80 Гц (низкочастотный гул).

Инструменты:

`sox` (`equalizer`);

`scipy.signal` (Python).

5. Ресамплинг

Приведение к единой частоте дискретизации (например, 48 кГц).

Метод:

линейная интерполяция (быстро, но с артефактами);

Sinc‑интерполяция (качественно, медленнее).

Инструменты:

`ffmpeg` (`-ar 48000`);

`librosa.resample()`.

6. Удаление кликов и щелчков

Алгоритмы:

медианная фильтрация;

замена аномалий линейной интерполяцией.

Инструменты:

`audacity` (ручной режим);

скрипты на `numpy`.

2.3. Создание текстовых скриптов для синтеза

Требования к текстам:

Грамматическая корректность – отсутствие ошибок и опечаток.

Длина фразы:

максимум – 250 символов (включая пробелы);

оптимально – 10–50 слов.

Полнота предложений – без обрывов на полуслове.

Разнообразие интонаций:

повествовательные предложения;

вопросы (не менее 30% от общего объёма);

восклицания (5–10%).

Фонетическое покрытие:

включение всех фонем языка;

баланс гласных и согласных;