OpenAI и Anthropic объявили о масштабных планах по выходу на рынок здравоохранения с помощью ориентированного на потребителя инструмента под названием ChatGPT Health и версии чат-бота Claude, который может помочь врачам поставить диагноз и написать медицинскую карту.
Примечательно, что в этом шквале анонсов не участвует Google.
Его чат-бот Gemini — один из самых популярных и функциональных, так почему бы не выйти и на прибыльный рынок здравоохранения?
Возможно, потому, что Google по опыту знает, что такие попытки могут обернуться катастрофическими последствиями.
Генеративный искусственный интеллект обладает огромным потенциалом в сфере медицинских консультаций.
Но новые компании, занимающиеся искусственным интеллектом, возможно, ослеплённые бравадой и шумихой, могут повторить судьбу Google, если не будут более прозрачными в отношении печально известных галлюцинаций своей технологии.
OpenAI постепенно внедряет новую функцию, которая позволяет пользователям задавать вопросы о своём здоровье. При этом используется отдельная память и ссылки на данные из медицинской карты человека или его фитнес-приложения, если они подключены.
Компания утверждает, что ChatGPT Health более безопасен и «не предназначен для диагностики», но многие люди уже используют его для определения заболеваний.
По данным компании, более 230 миллионов человек еженедельно обращаются к приложению за советом по вопросам здоровья.
Также был анонсирован ChatGPT для здравоохранения — версия бота для врачей, которая проходит испытания в нескольких больницах, включая Бостонскую детскую больницу и Мемориальный онкологический центр имени Слоуна-Кеттеринга.
Компания Anthropic, которая добилась большего успеха, чем OpenAI, в продажах корпоративным клиентам, запустила чат-бота, предназначенного для врачей.
Он выглядит так же, как потребительская версия Claude, но обучается на базах медицинских данных, таких как диагностические коды и информация о поставщиках медицинских услуг, — это помогает ему генерировать разрешительные документы — и на научных статьях из PubMed, что помогает ему консультировать врача по поводу потенциального диагноза.
Компания продемонстрировала, как такое обучение может повысить точность Claude. Когда потребительскую версию Claude спрашивают о кодах МКБ-10, которые врачи используют для классификации диагнозов или процедур, ответ оказывается верным в 75 % случаев, как сообщил директор по продуктам Anthropic Майк Кригер на мероприятии, посвящённом запуску в начале этого месяца. Но точность врачебной версии Claude, обученной на этих кодах, составляет 99,8 %.
Но какова точность постановки диагноза? Этот показатель кажется более важным. Когда я обратился в Anthropic, компания не смогла дать исчерпывающий ответ. Она сообщила, что её самая мощная модель логического вывода, Claude Opus 4.5, показала точность 92,3 % на MedCalc, где проверяется точность медицинских расчётов, и 61,3 % на MedAgentBench, где проверяется, может ли ИИ выполнять клинические задачи в смоделированной системе электронных медицинских карт.
Но ни один из них не показывает, насколько ИИ надёжен в плане клинических рекомендаций. Первый относится к тесту на дозировку лекарств и лабораторные показатели; 61,3 % — это, скажем прямо, тревожно низкий показатель.
К чести Anthropic, его модели более честны — они скорее признают неопределённость, чем будут выдавать ответы, — чем модели OpenAI или Google, согласно данным, собранным Scale, компанией в сфере ИИ, которую недавно приобрела Meta Platforms Inc. Anthropic приводил эти цифры во время презентации на конференции JPMorgan Chase Healthcare в Сан-Франциско, но такие похвалы не впечатлят врачей, если они не смогут количественно оценить точность диагностического инструмента.
Когда я спросил OpenAI о достоверности информации о здоровье, которую предоставляет ChatGPT, пресс-секретарь компании сказала, что модели стали более надёжными и точными в вопросах, связанных со здоровьем, по сравнению с предыдущими версиями, но она также не привела точных цифр, показывающих частоту возникновения галлюцинаций при предоставлении медицинских рекомендаций.
Компании, занимающиеся искусственным интеллектом, долгое время умалчивали о том, как часто их чат-боты допускают ошибки, отчасти потому, что это подчеркнуло бы насколько сложной проблемой было их решение.
Вместо этого они предоставляют сравнительные данные, показывающие, например, насколько хорошо их модели искусственного интеллекта справляются с экзаменом на получение медицинской лицензии. Но повышение прозрачности в вопросах надёжности будет иметь решающее значение для укрепления доверия как со стороны специалистов в области медицины, так и со стороны общественности.
Компания Alphabet Inc., владеющая Google, прошла через это на собственном горьком опыте. В период с 2008 по 2011 год она пыталась создать персональную медицинскую карту под названием «Google Health», которая могла бы собирать медицинские данные о человеке от разных врачей и больниц в одном месте.
Эта попытка провалилась отчасти из-за того, что Google столкнулась с огромной технической проблемой при объединении медицинских данных из несовместимых систем. Но была и более серьёзная проблема: людей пугала мысль о том, что они будут загружать свои медицинские данные в компанию, которая регулярно собирает личную информацию для рекламы.
Общественное недоверие было настолько сильным, что в 2018 году была прекращена успешная попытка лаборатории DeepMind компании Google предупредить врачей больниц о признаках острой почечной недостаточности после того, как выяснилось, что в рамках проекта был получен доступ к более чем миллиону медицинских карт пациентов из Великобритании.
Годом позже The Wall Street Journal обнародовал информацию о другой попытке Google, известной как Project Nightingale, получить доступ к медицинским картам миллионов пациентов из США.
Оба инцидента были расценены как скандалы, и урок был очевиден: люди считали Google ненадёжной компанией. Это делает судьбу компаний, занимающихся искусственным интеллектом в сфере здравоохранения, ещё более шаткой.
Проблемы Google были связаны с тем, как её воспринимала общественность, а не с ошибками, допущенными её системами при обработке медицинских записей.
Цена будет выше, если ChatGPT или Claude допустят ошибку, помогая врачам принимать решения, от которых зависит жизнь или смерть.
Возможно, именно наивность или зашоренное мышление побудили Дарио Амодея, исполнительного директора Anthropic, затронуть именно этот вопрос во время своего выступления о здравоохранении на прошлой неделе, хотя его компания не предоставила никаких данных для решения этой проблемы.
По его словам, определение “безопасности” расширялось по мере выхода его компании на новые рынки, такие как здравоохранение. “Здравоохранение - это то место, где вы не хотите, чтобы модель что-то придумывала”, - добавил он. “Это плохо”.
Но отказ сообщить, как часто это происходит? Это тоже плохо.
Источник

