Медицинский искусственный интеллект теперь может прогнозировать показатели выживаемости, но он не готов к использованию для пациентов

Исследователи недавно разработали алгоритм, который мог угадать, выжили ли пациенты с сердечными заболеваниями или умерли от своего состояния в течение года. Анализируя данные теста электрической активности сердца, известного как электрокардиограмма или ЭКГ, алгоритм успешно предсказал выживаемость пациента в 85% случаев. Но его разработчики не смогли объяснить, как алгоритм это сделал. Заявленная цель заключалась в том, чтобы найти ранее неизвестную информацию, которую врачи не могли видеть на ЭКГ.

Алгоритм, разработанный американским поставщиком медицинских услуг Geisinger, был обучен с использованием 1.7 миллионов результатов ЭКГ от 400 000 пациентов, в том числе умерших от сердечных заболеваний и выживших. Но можно ли применять алгоритм так же точно и справедливо для прогнозирования новых случаев, насколько это возможно с этими историческими данными, еще не было проверено. Разработчики заявили, что необходимо провести испытания, чтобы увидеть, можно ли достичь аналогичных уровней точности с помощью прогнозов. Хотя у такого рода алгоритмов есть большой потенциал, есть причина по-прежнему опасаться спешить с использованием этих типов систем искусственного интеллекта (ИИ) для диагностики.

Одна из причин оставаться осторожной в отношении результатов алгоритма заключается в том, что очень часто алгоритмы, обученные с использованием исторических данных, становятся предвзятыми. Это связано с тем, что большая часть исторических данных, используемых в настоящее время для обучения алгоритмов, может быть в подавляющем большинстве случаев от мужчин и белых субъектов, что может повлиять на их точность. Например, алгоритмы, которые могли предсказывать рак кожи лучше, чем дерматологи, оказались менее точными при диагностике темнокожих людей, потому что система была обучена преимущественно на данных, полученных от белых людей.

Исторические данные также могут содержать предубеждения, которые отражают социальные недостатки, а не медицинские различия, например, если заболевание чаще встречается среди группы меньшинств, потому что они имеют худший доступ к здравоохранению. Такая предвзятость обнаруживается не только в алгоритмах, связанных со здоровьем, но и в алгоритмах распознавания лиц и фото-маркировки, найма, работы полиции и уголовного правосудия.

Таким образом, алгоритм Гейзингера нуждается в дальнейшем тестировании, чтобы убедиться, что показатели прогнозов одинаково точны для ряда людей. Например, одинаково ли он точен при прогнозировании риска смерти для женщин, как и для мужчин?? В конце концов, мы знаем, что у мужчин и женщин могут быть разные симптомы сердечного приступа, что можно увидеть по результатам ЭКГ.

Модель Geisinger также является "черный ящик" система, то есть решения, которые она принимает, не могут быть объяснены экспертами, и поэтому могут иметь предубеждения, о которых ее разработчики не знают. Хотя многие исследователи и политики считают неприемлемым разработку "черный ящик" алгоритмов, поскольку они могут быть дискриминационными, скорость, с которой были разработаны многие алгоритмы, означает, что в настоящее время существует несколько законов и нормативных актов, гарантирующих, что разрабатываются только беспристрастные честные модели ИИ.

Одним из решений может быть создание "объяснимый ИИ" (XAI). Это системы, предназначенные для того, чтобы исследователи могли видеть, на каких ключевых характеристиках данных фокусируется алгоритм и как он пришел к своему решению. Это может помочь им свести к минимуму любые предубеждения, которые может иметь алгоритм.

Другие рекомендации и стандарты также могут помочь исследователям в разработке более справедливого и прозрачного ИИ. Стандарт IEEE P7003 показывает разработчикам, как гарантировать, что они идентифицируют все затронутые группы в наборе данных, тестировать на наличие предвзятости, и предлагает, как оценивать и снижать риск предвзятости. IEEE P7001 показывает, как сделать ИИ прозрачным и понятным.

Понимание алгоритма

Знание того, как алгоритм Гейзингера принимает свои решения, также важно, чтобы врачи могли понять любые новые особенности риска сердечных заболеваний, которые, возможно, обнаружила модель. Например, другой алгоритм, который анализировал изображения для обнаружения переломов бедра, принимал решения, концентрируясь на дополнительных клинических данных, предоставленных ему. Это показало важность таких факторов, как возраст пациента или использование мобильного сканера (что указывает на то, что человек испытывал слишком сильные боли, чтобы добраться до основного сканера).

Исследования показали, что просмотр изображений и клинических данных позволяет поставить более точный диагноз. Но если исследователи не могут объяснить, как алгоритм сделал свой прогноз, это может означать, что алгоритм не может быть разработан для дальнейшего использования в диагностике.

Если врачи не осведомлены о функциях, на которые смотрит алгоритм, они могут включить эти функции в свой собственный анализ, а также результаты своего алгоритма. Это эффективно сосчитало бы признаки дважды, чрезмерно подчеркнув их важность и потенциально даже привело бы к ошибочному диагнозу. Врачи также могут чрезмерно полагаться на алгоритм, меньше взаимодействовать с пациентами и потенциально могут повлиять на общий уровень квалификации врачей.

Например, исследователи, разработавшие ИИ для диагностики детских болезней (таких как бронхит и тонзиллит), обнаружили, что его диагнозы лучше, чем у младших врачей. Однако старшие врачи по-прежнему могли ставить более точные диагнозы, чем ИИ. Таким образом, при неправильном использовании такие системы могут привести к риску того, что врачи никогда не достигнут уровня квалификации нынешних старших врачей.

По этой причине важно учитывать, как такие системы реализуются, и соответствуют ли они руководству на уровне сектора. Предоставление окончательного диагноза врачу потенциально может сделать диагнозы приложения более точными и предотвратить дескиллинг. Это было бы особенно важно, если бы модель была четко объяснима, а любые предубеждения были очевидны для врача.

Хотя алгоритм Гейзингера может предсказать, выжил ли кто-то или нет, важно оставаться осторожными в отношении подобных заявлений, поскольку ИИ может содержать ошибки в зависимости от того, как он обучен и спроектирован. Системы искусственного интеллекта должны способствовать принятию решений человеком, а не заменять его или поставщиков медицинских услуг. Как советует команда Гейзингера, этот ИИ может интерпретировать ЭКГ как часть более широкого диагностического инструментария – и на самом деле не является способом предсказать, умрет кто-то или нет.