Анна Хоружая – Цифровые технологии в лучевой и инструментальной диагностике (страница 3)
Из общего числа 47,0% (38) работ посвящены диагностике онкологических заболеваний, в том числе злокачественных новообразований (ЗНО) пищеварительной системы, – 5 (28,0%), заболеваний дыхательной системы – 4 (22,0%), репродуктивной системы – 4 (22,0%), нервной системы – 2 (11,0%), эндокринной системы – 2 (11,0%), злокачественных опухолей забрюшинного пространства – 1 (6,0%). Диагностике поражений мозга (рассеянного склероза, аневризм, инсульта, внутричерепного кровоизлияния) были посвящены 11,0% (4) метаанализов. Такое же количество работ отмечается в области стоматологии, из них три посвящены обнаружению и сегментации структур и одна – принятию решений об удалении зубов. Всего три метаанализа (8,0%) посвящены диагностике поражений легких при новой коронавирусной инфекции. Такое же количество публикаций представлено по теме лучевой диагностики переломов, преимущественно – длинных костей конечностей. По одной работе (т. е. по 3,0%) пришлось на темы лучевой диагностики легочной эмболии, пневмоторакса, остеопороза, колоректальных полипов, ожогов; также один метаанализ рассматривал проблематику оценки риска задержки внутриутробного развития. Таким образом, максимальные усилия ученых в мире сосредоточены на создании технологий ИИ для выявления по результатам лучевых исследований онкологических заболеваний и болезней центральной нервной системы.
В большинство метаанализов – 20 из 38 (53,0%) – включены исследования нескольких различных модальностей, в остальных 43,0% – лучевые исследования только одной. Компьютерной томографии (КТ) посвящено 45,0% (18) метаанализов; причем как единственному методу – только три. ИИ для МРТ изучался в 29,0% (11) метаанализов, причем как единственный метод – в трех. Автоматизация анализа рентгенографии исследовалась в 16,0% (6) метаанализов, при этом только в одном из них – как единственный метод. Отдельно рентгенография органов грудной клетки исследована в 11,0% (4) метаанализов, при этом в двух из них – как единственный метод. ИИ в контексте проведения позитронно-эмиссионной томографии, совмещенной с КТ (ПЭТ КТ), исследован в 5,0% (2). Автоматизированному анализу цифровой маммографии было посвящено также 5,0% (2) исследований (причем в одно из них включили изучение томосинтеза). Применимость технологий ИИ в ультразвуковой диагностике (УЗД) стала объектом исследования в 16,0% (6) метаанализов, как единственный метод – в четырех из них. Конусно-лучевая компьютерная томография (КЛКТ) изучена в 8,0% (3) стоматологических метаанализов. В одной (3,0%) работе об обнаружении легочной эмболии изучали исключительно КТ-ангиографию. Обращает на себя внимание тот факт, что в пяти обзорах не было корректных данных о модальностях.
Таким образом, большинство исследователей пытаются систематизировать данные о результативности ИИ для совокупности модальностей (чаще всего – КТ, рентгенографии, ультразвуковой диагностики), преимущественно в контексте решения конкретной клинической задачи. Обращает на себя внимание малое количество работ, систематизирующих вопросы автоматизации маммографии, что явно не соответствует клинической, демографической и социально-экономической значимости данной разновидности лучевых исследований.
Абсолютное большинство исследователей изучают диагностическую точность технологий ИИ – это первая по распространенности научная задача. В 92,0% (35) метаанализов в качестве основных диагностических параметров точности использованы стандартные, общепринятые показатели – чувствительность, специфичность и площадь под ROC-кривой (AUROC). Соответствующие данные нами извлечены и систематизированы (таблица 1.1); далее рассчитали интервал обобщенных значений каждого показателя между метаанализами. При этом использовались только данные, где были в наличии средние значения. Если показатели приводились по подгруппам, то брали среднее значение. Таким образом, при обобщении данных 38 метаанализов, комплексно отображающих ситуацию с изучением искусственного интеллекта в лучевой диагностике, значение чувствительности ИИ колебалось в диапазоне 75,4—97,9%, в среднем оно составило 89,0% (медиана – 88,7%). Значение специфичности изменялось от 74,0 до 97,6%, составив в среднем 88,8% (медиана – 89,5%). Диапазон значений площади под характеристической кривой был 75,0—98,0%, среднее значение – 92,0% (медиана – 93,8%).
В подавляющем большинстве (36 из 38) метаанализов отмечается высокая диагностическая точность ИИ – как чувствительности (доли истинно положительных результатов), так и специфичности (доли истинно отрицательных результатов), а также AUROC, отражающей соотношение между истинно положительными и ложноположительными результатами. Высокие значения показателей точности ИИ выявлены при диагностике ЗНО, остеопороза, переломов, COVID-19, а также в области нейровизуализации. Вместе с тем фактически все приводимые результаты получены в ретроспективном дизайне, на дискретных наборах данных; выводы многочисленных авторов совершенно не подкреплены информацией о работе технологий ИИ в реальных клинических условиях отделений и центров лучевой диагностики.
Второй по распространенности исследовательской задачей является сравнение диагностической точности врачей-рентгенологов и технологий искусственного интеллекта. Эта задача рассматривается в 26,0% (10) метаанализов, пять из которых имеют онкологическую направленность. Надо подчеркнуть, что в 50,0% этих метаанализов отсутствовали данные о квалификации, опыте врачей-рентгенологов, что, несомненно, снижает объективность результатов. В одной работе (Campello et al.) диагностическую точность ИИ оценивали по нативным изображениям, а врачей – по изображениям с контрастным усилением [124]; эту работу рассмотрели отдельно.
Опираясь на данные из семи указанных выше работ (где соответствующая информация была представлена в полном объеме), определили интервалы показателей диагностической точности для ИИ и для врачей [178, 138, 165, 146, 179, 160, 174].
Значение чувствительности ИИ колебалось в диапазоне 75,4—91,0%, в среднем составляя 85,2% (медиана – 86,0%); для врачей-рентгенологов диапазон составил 73,0—94,0%, среднее – 84,4% (медиана – 85,0%). Специфичность ИИ колебалась от 78,0 до 96,0%, в среднем достигая 89,5% (медиана – 91,0%); для врачей диапазон составил 82,0—98,0%, среднее – 90,0% (медиана – 94,0%).
Диапазон значений площади под характеристической кривой для ИИ был 89,0—97,0%, среднее составило 93,5% (медиана – 92,5%); соответственно для врачей – 85,0—98,0%, среднее – 92,8% (медиана – 94,0%).
Лишь в двух метаанализах приведены уровни статистической значимости при сравнении диагностических параметров ИИ и врачей. В обзоре J. H. Yoon и соавторов (2023), рассматривающем диагностику ЗНО посредством цифровой маммографии и томосинтеза, показано, что чувствительность ИИ (80,6%) достоверно выше (p = 0,031), чем 143 суммарно включенных врачей (73,6%); показатели специфичности ИИ (85,7%) и врачей (89,6%) не различаются достоверно (p = 0,221); значения AUROC не различаются достоверно (p = 0,152) между ИИ (87—90%) и врачами (81—96%) [178].
В обзоре S. E. Hickman и соавторов (2023) по аналогичной тематике, но без томосинтеза, показано, что чувствительность ИИ (75,4%) и 211 суммарно включенных врачей (73%) не различается достоверно (p = 0,7); специфичность ИИ (90,6%) и врачей (88,6%) не различается достоверно (p = 0,73) [138].
Еще в четырех метаанализах, рассматривающих диагностику пневмоторакса с использованием рентгенографии грудной клетки и КТ [165], переломов костей конечностей с использованием рентгенографии и КТ [146, 179], узлов щитовидной железы с использованием ультразвукового исследования [160], указано отсутствие разницы в значениях диагностических показателей между ИИ и врачами; при этом приведены сами показатели, но отсутствуют значения p-value.
В целом отмечается крайне высокая гетерогенность количества врачей, данных об их стаже, квалификации, компетенциях. Отсутствуют принятые подходы к описанию параметров отбора врачей-рентгенологов для участия в исследованиях. Складывается четкое убеждение, что единственным критерием отбора является личная заинтересованность и энтузиазм конкретного врача.
Метаанализ C. A. Campello и соавторов (2023), рассматривающий диагностику злокачественных новообразований печени с использованием ультразвукового исследования, отличается тем, что врачи анализировали изображения, полученные с помощью контрастного усиления, а ИИ – нативные изображения. Авторы этой работы отмечают высокие диагностические показатели ИИ, но уровни значимости вновь отсутствуют [124].
Таким образом, по данным зарубежных авторов, диагностическая точность ИИ не уступает диагностической точности врачей, а в некоторых случаях может превосходить ее. В частности, показано, что диагностическая точность ИИ сравнима с показателями врачей-рентгенологов экспертного уровня, превосходя показатели «обычных» врачей [174]. Тем не менее число работ, проводящих прямые количественные сравнения между ИИ и врачами, даже в глобальной перспективе по-прежнему мало. Существенно снижает качество работ и отсутствие корректных характеристик компетенций включаемых в исследования врачей.