Юрий Васильев – Искусственный интеллект в лучевой диагностике: Per Aspera Ad Astra (страница 19)
Синтетические наборы данных, несомненно, относятся к перспективным и требуют дальнейшего научного изучения. Многие аспекты их создания и применения при обучении СИИ сталкиваются с серьезными ограничениями, включающими вопросы качества и правдоподобия, этики, безопасности, применимости. В последнее время особое значение приобретает возможность генерировать новые изображения для обогащения наборов данных. По мере развития СИИ в задачи для автоматизированного анализа включается выявление патологии с низкой и крайне низкой распространенностью в популяции. Даже на фоне существования колоссальных централизованных архивов медицинских изображений, как, например, московский ЕРИС ЕМИАС, формирование набора данных из сотен и тысяч случаев конкретного редкого заболевания представляет собой трудноразрешимую задачу. Также крайне проблематично сформировать сбалансированный, например, по полу и возрасту, набор данных из случаев редкого патологического состояния. Дальнейшее научно-практическое развитие синтетических наборов данных потенциально позволит устранить этот барьер.
2.3. Математические и статистические методы при оценке качества систем искусственного интеллекта: проблемные вопросы, унификация подходов
2.3.1. Определение размера выборки при формировании набора данных
Наборы данных формируют для обучения и тестирования СИИ на этапах жизненного цикла. В процессе разработки обычно используют один или несколько наборов данных, которые делят на обучающую, тестовую и в некоторых случаях проверочную выборки. Важно, чтобы тестирование СИИ проводилось на наборе данных, не использовавшемся для обучения. Это позволяет исключить явление переобучения, при котором в итоге тестирования получается смещенная оценка. Обучающая и тестовая выборки должны быть независимы для получения несмещенной оценки при тестировании СИИ. В некоторых случаях используют проверочный набор данных для выбора оптимальной модели в процессе разработки СИИ97.
В общем виде под обучающей выборкой понимают такую, по которой производится настройка (оптимизация) параметров СИИ; под проверочной – предназначенную для проверки применимости параметров системы искусственного интеллекта для отличных от обучающей выборки наборов данных. Тестовая или контрольная выборка – это полностью уникальная выборка, на которой проводят объективную оценку качества параметров обученной системы искусственного интеллекта98.
Известный афоризм гласит, что данные – это топливо для искусственного интеллекта. Однако объемы этого топлива отнюдь не безграничны. В реальной практике разработки, тестирования и эксплуатации СИИ необходимы обоснованные подходы для оценки размеров наборов данных.
Согласно ГОСТ Р 59921.5—2022 размер выборки для обучения или тестирования СИИ определяется целью его применения и зависит от следующих факторов99:
– требуемое качество решений СИИ;
– тип и архитектура алгоритма СИИ;
– количество параметров алгоритма СИИ;
– качество данных, включая качество аннотаций, распределение метрик и уровень шума в наборе данных.
В данном контексте необходимо упомянуть такую характеристику набора данных, как размерность. Под ней понимают количество атрибутов, которые имеют объекты в НД (например, диаметр магистрального сосуда, объем кровоизлияния, значение артериального давления и др.). Высокая размерность выдвигает повышенные требования к алгоритмам СИИ, допустимому размеру НД, а также к вычислительным ресурсам для их обработки. В ряде случаев допустимо обоснованное снижение размерности НД, в частности за счет кластеризации данных либо группировки взаимосвязанных по какому-либо признаку атрибутов в объединенные категории100.
Длительное время обоснования оценки необходимого и достаточного размера набора данных (НД) для обучения и тестирования СИИ находились на стадии разработки. Применялись автоматизированные средства расчета на основе ширины 95% доверительного интервала и допустимой ширины определения метрик. Известен эмпирический метод, согласно которому размер набора данных должен в несколько раз превышать количество параметров алгоритма СИИ либо соответствовать другим обоснованным критериям. Такая ситуация не соответствовала уровню качества научных исследований, установленному для Московского эксперимента, поэтому были проведены оригинальные изыскания для обоснования и создания объективных методов определения размера набора данных.
2.3.2. Статистические подходы для известной доли значений качественного признака (цитируется по оригинальной статье авторов101)
Первые предложенные в рамках Московского эксперимента подходы к формированию выборки применялись к НД, используемым для мониторинга (ретроспективного контроля качества результатов работы ИИ-сервисов). Они соответствовали принципам математической статистики и основывались на известной вероятности технологического дефекта в генеральной совокупности, равной 10%. Объем генеральной совокупности при этом принимался в пределах от 1000 до 100 000 исследований102.
В рамках следующих подходов проводилась серийная бесповторная выборка, которая характеризовалась тем, что выбранная единица отбиралась из всего объема генеральной совокупности и не возвращалась обратно.
1.
где
Таким образом, при доле изучаемого признака (
2.
где
Так как в рамках Московского эксперимента объем генеральной совокупности превышал объем выборки более чем на 10%, то оперативные характеристики определяли по формуле (2.3):
где
На примере Московского эксперимента было использовано приемочное число, равное двум единицам продукции, произведены расчеты и построены кривые для выборок в 30, 50, 80, 138 единиц продукции. На рисунке 2.18 обозначены следующие риски:
– вероятность отклонить генеральную совокупность исследований при ее хорошем качестве (т.е. в генеральной совокупности удельный вес дефектных единиц продукции менее 10%) – учитывая долю заявленных дефектных исследований от ИИ-сервиса, риск принимаем равным 1%;
– вероятность принять генеральную совокупность при ее низком качестве – учитывая долю дефектных изделий, определенных валидатором ПО с ТИИ (в данном случае – валидатором является ГБУЗ НПКЦ ДиТ ДЗМ), риск принимаем равным 10%.
Анализируя данные таблицы 2.5 и учитывая описанные выше риски на уровне не более 10% и не более 5% соответственно, установили, что объем выборки, равный 80, удовлетворяет требованиям как со стороны ИИ-сервиса, так и валидатора.
Выполнены расчеты (таблица 2.5) для выборок в 30, 50, 80, 120 исследований с приемочным числом от нуля до четырех (приемочное число ограничивалось превышением рисков валидатора более 10% или ИИ-сервиса – более 5%).
Анализируя данные таблицы 2.6 и учитывая заданные риски, а также долю заявленных дефектных исследований от ИИ-сервиса (1%) и долю дефектных исследований, определенных валидатором (10%), установили, что объем выборки, равный 30, 50, 80 и 120 единиц продукции, удовлетворяет требованиям обеих сторон при приемочном числе, равном нулю. С учетом доли дефектных исследований при приемочных числах больше нуля наиболее подходящие объемы выборок равнялись 80 или 120 единицам.