Антон Владзимирский – Оценка качества и эксплуатационных параметров технологий искусственного интеллекта в здравоохранении. Учебное пособие (страница 3)

Шрифт

– способность организовывать и проводить контроль качества систем искусственного интеллекта на всех этапах жизненного цикла.

В результате изучения материала обучаемый должен:

· знать:

– принципы, возможности и ограничения организации контроля качества и эксплуатационных параметров медицинских изделий на основе технологий искусственного интеллекта;

– номенклатуру основных национальных стандартов в предметной области;

– основные методы и способы оценки эксплуатационных параметров, технологического и медицинского контроля, методы интегральной оценки;

– подходы к применению конкретных методов контроля на разных этапах жизненного цикла медицинских изделий на основе технологий искусственного интеллекта;

– подходы к организации контроля систем искусственного интеллекта для диагностической визуализации, продуктов на основе больших генеративных моделей;

· уметь:

– организовывать процесс контроля эксплуатационных параметров систем искусственного интеллекта на этапах жизненного цикла;

– выбирать подходы и методы контроля, исходя из вида и клинической задачи конкретной системы искусственного интеллекта;

· владеть:

– навыками вычисления эксплуатационных параметров по точности;

– навыками вычисления основных показателей качества и эффективности систем искусственного интеллекта;

– навыками оценки качества систем искусственного интеллекта для диагностической визуализации;

– навыками оценки качества систем искусственного интеллекта на основе больших генеративных моделей.

Изучение материала рассчитано на 12 академических часов самостоятельной работы. Для успешного освоения материала специальные материально-техническая и учебно-методическая базы не требуются. Рекомендуется наличие доступа в интернет для ознакомления со ссылками на цитируемые материалы.

В целях проверки усвоения информации предусмотрены ответы на вопросы для самоконтроля. Для повышения эрудированности и вовлеченности обучаемых опционально рекомендуется подготовка рефератов и докладов-презентаций.

Глава 1. Жизненный цикл систем искусственного интеллекта

Искусственный интеллект – комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые с результатами интеллектуальной деятельности человека или превосходящие их. Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение (в том числе то, в котором используются методы машинного обучения), процессы и сервисы по обработке данных и поиску решений (Указ Президента Российской Федерации от 10.10.2019 №490).

Технологии искусственного интеллекта – совокупность технологий, включающая в себя компьютерное зрение, обработку естественного языка, распознавание и синтез речи, интеллектуальную поддержку принятия решений и перспективные методы искусственного интеллекта (Указ Президента Российской Федерации от 10.10.2019 №490).

Жизненный цикл – развитие системы искусственного интеллекта и продуктов на ее основе от замысла до вывода из эксплуатации (ГОСТ Р 59921.4—2021).

Набор данных – состав данных, которые структурированы или сгруппированы по определенным признакам, соответствуют требованиям законодательства Российской Федерации и необходимы для разработки программ для электронных вычислительных машин на основе искусственного интеллекта (Указ Президента Российской Федерации от 10.10.2019 №490).

Разметка данных – этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения (Указ Президента Российской Федерации от 10.10.2019 №490).

В настоящее время создание, развитие, оценка и обеспечение качества и безопасности, применение систем искусственного интеллекта (СИИ) в здравоохранении Российской Федерации осуществляются на основе комплекса национальных стандартов «Системы искусственного интеллекта в клинической медицине» ПК 01 ТК 164 (см. приложение А).

Оценка качества выполняется:

– на всех этапах жизненного цикла системы искусственного интеллекта (программного обеспечения на основе технологий искусственного интеллекта);

– путем контроля эксплуатационных параметров, а также анализа результатов и эффектов применения конкретной системы в практическом здравоохранении.

Жизненный цикл систем искусственного интеллекта медицинского предназначения в виде унифицированной схемы представлен на рисунке 1.

С точки зрения непрерывного контроля жизненный цикл СИИ делится на следующие основные этапы:

1. Разработка (контроль ведется только разработчиком, в том числе в виде периодической внутренней валидации).

NB! Непосредственной разработке СИИ предшествуют обеспечение и контроль качества данных, применяемых для обучения. Для этого существуют специальные, научно обоснованные методологии8.

2. Внешняя валидация (проводится третьими лицами для независимого и объективного контроля качества и надежности СИИ).

3. Получение и поддержание статуса медицинского изделия (контроль трансформируется в процедуры технических и клинических испытаний, а после государственной регистрации – в мониторинг и учет неблагоприятных событий при эксплуатации СИИ).

Для каждого этапа реализуются стратегии комплексного тестирования и контроля; при этом целесообразно следовать базовому принципу, состоящему в методологическом разделении и параллельном осуществлении оценки технического качества (надежности, отказоустойчивости и т. д.) и медицинского качества (диагностической точности, эффективности и т. д.).

Глава 2. Эксплуатационные параметры систем искусственного интеллекта

Эксплуатационные параметры – параметры функционирования системы искусственного интеллекта, характеризующие качественно и/или количественно технические возможности системы искусственного интеллекта с точки зрения ее назначения (ГОСТ Р 59921.4—2021).

Параметры модели искусственного интеллекта – числовые значения, определяющие работу модели искусственного интеллекта, в частности выведение закономерностей, принятие решений или прогнозирование результатов (Указ Президента РФ от 10.10.2019 №490).

Большие генеративные модели – модели искусственного интеллекта, способные интерпретировать (предоставлять информацию на основании запросов, например, об объектах на изображении или о проанализированном тексте) и создавать мультимодальные данные (тексты, изображения, видеоматериалы и тому подобное) на уровне, сопоставимом с результатами интеллектуальной деятельности человека или превосходящем их (Указ Президента РФ от 10.10.2019 №490).

Эмбеддинг – представление слова в виде числового вектора, что позволяет сохранить семантическое сходство для различных слов, имеющих близкие значения (например, «подъезд» и «парадная»).

Стемминг – процесс усечения слова до корня.

Суммаризация – автоматическое создание краткого содержания исходного текста (обычно с применением больших генеративных моделей).

Эталонная суммаризация – идеальное краткое изложение исходного текста (данных электронной медицинской карты пациента), созданное врачами-экспертами в формате консенсуса. Необходима для расчета семантических метрик качества больших генеративных моделей.

N-грамма – последовательность из N смежных символов, расположенных в определенном порядке.

Эксплуатационные параметры систем искусственного интеллекта систематизированы и классифицированы в национальном стандарте ГОСТ Р 59921.4—2021.

Эксплуатационные параметры разделяются на категории по:

– точности;

– назначению;

– входным данным;

– принципу организации обучения;

– производительности;

– системной совместимости.

Это обязательный список параметров, который может быть дополнен с учетом требований регулятора, заказчика, пользователя, а также – особенностей, предназначения, условия применения самой СИИ.

Эксплуатационные параметры по точности определяют разными методами, исходя из особенностей работы данной СИИ.

Оценку точности СИИ проводят в дизайне диагностического исследования; при этом оптимально руководствоваться методологией и чек-листом STARD-2015. Отметим, что данный чек-лист не полностью подходит для проектов в области ИИ, поскольку содержит недостаточно конкретные рекомендации касательно качества и объема наборов данных, метрик диагностической точности, а также используемой терминологии. Тем не менее профильный чек-лист STARD-AI находится в разработке с 2021 года, и до момента его выхода STARD-2015 является лучшим из доступных решений.

Для оценки точности обеспечивают наличие некоего эталона – референс-теста, с которым сравнивают точность нового инструмента – индекс-теста (которым и является СИИ). На практике референс-тестом чаще всего служит верифицированный набор данных со специальной разметкой.

Согласно классическим подходам, размер выборки зависит от ожидаемого размера эффекта, уровня статистической значимости и мощности. Помимо этого, согласно ГОСТ Р 59921.5—2022, размер выборки для тестирования СИИ определяется целью его применения и зависит от следующих факторов:

2 3 4 Вперед