Разбираем кейс ИИ-стартапа

Mar 25, 2024 13:14




Не так давно я писал по поводу повылезавших, как грибы после дождя, десятков ИИ-стартапов, что бизнес-модель «давайте создадим еще одного чат-бота, и вдруг все резко начнут им пользоваться» - это путь в никуда, лишенный каких-либо коммерческих перспектив.

Критиковать легко, возразят мне. А где же тогда путь к успеху ИИ-моделей и их разработчиков? Может, стартапы в области ИИ - это вообще безнадёжная тема, в которой нет ничего, кроме хайпа?

Это тоже был бы слишком поспешный вывод. Истина где-то посередине. И истина, прежде всего, в том, что всё критически зависит от выбора бизнес-стратегии и от грамотной ее реализации. Практика показывает, что для стартапов в любой сфере полезна определенная степень специализации. Особенно на начальном этапе. И особенно когда существуют сильные конкуренты. Стартапу нужна определенная ниша, потребности которой он сможет качественно закрыть скромными имеющимися у него ресурсами.

Это означает, что из попытки создать чат-бот «для всех», попутно показав кузькину мать сразу и ”OpenAI”, и «Гуглу», вряд ли получится что-то путное. Какова тогда альтернатива? Требование специализироваться означает, что потенциально существует большое количество привлекательных бизнес-идей, каждая для своей отдельной ниши.

Сегодня я бы хотел разобрать кейс с одной из таких специализированных бизнес-стратегий. Героем дня будет американский стартап ”Hippocratic AI”, на днях закрывший раунд А венчурного финансирования в размере 50 млн. долларов. На мой взгляд, кейс наглядный и интересный - в том числе и наличием нескольких подводных камней, которые мы обсудим немножко ниже.



Итак, начнем с продукта. Продукт, называемый “Polaris”, представляет собой чат-бота. Но чат-бот этот очень специализированный: он фокусируется на медицинских и околомедицинских темах, причем разработчики ставят цель воспроизвести в модели знания среднего медицинского персонала. Более того, сценарий применения модели на данный момент очень конкретен: предполагается, что роль “Polaris” будет заключаться в приеме телефонных звонков, первичной консультации потенциальных клиентов медицинской клиники, а также консультации пациентов по поводу лабораторных анализов и назначений. Американская клиническая практика предусматривает целый набор подобных "удаленных" мероприятий: опрос пациентов после выписки, инструктаж перед проведением плановых операций, мониторинг хронических больных и т.д.

То есть мы видим, что продукт нацелен на замену, как минимум частичную, совершенно реальной позиции, существующей практически во всех американских клиниках общего профиля. Выбор этой ниши весьма перспективен. В ближайшую декаду в США прогнозируется нехватка среднего медицинского персонала: число вакансий будет расти быстрее, чем выпуск новых сертифицированных сотрудников. Уровень безработицы для среднего медицинского персонала уже много десятилетий кратно ниже, чем для населения в целом - что свидетельствует о недостатке этих специалистов на рынке труда.

Вдобавок Америку, как и весь мир, ожидает старение населения. К 2050 году число пожилых людей в стране перевалит за 90 млн. Это гарантирует стабильный рост спроса на медицинский персонал - или на его электронные альтернативы.

На схеме ниже мы можем увидеть, из каких частей состоит продукт (кликабельно):


За преобразование речи в текст и обратно отвечают сторонние модельки. Ключевые особенности собственно “Polaris” мы видим в правой части схемы. Это набор отдельных моделей, включающих основного агента - этакий разговорный «фронт-энд», и вспомогательные модули, каждый из которых отвечает за узкий круг задач.

Стоит обратить внимание, что разработка и доведение до ума каждой из этих составных частей требовала отдельной команды (или, при последовательной разработке, отдельного периода времени). Для многих задач было необходимо привлечение квалифицированных специалистов из соответствующей области. Мы видим здесь около 20 задач. Что, при более вероятной параллельной разработке, подразумевает очень немаленький размер команды, обладающей широким набор компетенций в области организации медицинских услуг, в собственно медицине, в фармацевтике и т. д. Не говоря уже о машинном обучении.

Отметим блок Human Intervention Specialist в правом нижнем углу. Его задача - оценка хода беседы с клиентом и необходимости перевода клиента на медицинского работника-человека. Cистема делает это, когда пациент жалуется на появление новых симптомов, которые заслуживают внимания специалиста.


Для обучения отдельных модулей стартапу пришлось собрать базу проприетарных данных медицинской направленности. Помимо собственно телефонных диалогов клентов с колл-центрами медицинских клиник, использовалась медицинская литература, государственное законодательство, внутренние инструкции клиник и многое другое. Причем это был только первый этап.

Дальше ”Hippocratic AI” нанял медицинских специалистов и обычных людей, дал последним роль «пациента» и заранее написанные «сценарии», и люди начали создавать дополнительные данные для обучения.

Далее роль «пациента» оставалась у людей, а роль медсестры примерял на себя уже “Polaris”. Генерировалась новая порция диалогов. Диалоги после этого проверялись специалистами-людьми, оценивалось качество ответов и при необходимости неудачные реплики вручную переписывались специалистами. После чего эти данные использовались для дальнейшего обучения модели. Эти два этапа многократно повторялись.



Помимо диалога с пациентом, в задачи модели также входит заполнение карточек с клинической информацией по его итогам, а таже обмен информацией с внутренней системой учета клиники (например, запись на прием к тем или иным врачам).

Отдельной головной болью была настройка продуктивного взаимодействия между «фронт-энд»-агентом и узкоспециализированными моделями. За сложность системы и высокую точность отдельных модулей пришлось расплачиваться дополнительными усилиями по интеграции их в единое целое.

Но обучить систему мало - нужно ее еще и валидировать. Провести своего рода «контроль качества». Для этого был разработан еще один многостадийный план. Здесь были задействованы не только медицинские специалисты среднего уровня, но и врачи.

На первом этапе проверялось соответствие диалога определенному чек-листу. В чек-листе были такие пункты, как скорость и натуральность беседы, выполнение задачи и фактологическая точность.

На втором этапе эксперимент происходил с участием опытной и контрольной группы. В первой на звонки актёров-«пациентов» отвечал “Polaris”, во второй - человеческие медсёстры. После чего специалисты сравнивали ИИ и людей по ряду метрик. Ниже представлены результаты этого этапа:



По итогам тестирования ИИ показал результаты, сопоставимые с профессионалами-людьми. Причем в области разъяснений и мотивации пациентов “Polaris” даже существенно опередил человеческий персонал.

В общей сложности, к сегодняшнему дню для разработки и валидации системы было привлечено более 1100 медсестер и более 130 терапевтов. Цифры, не совсем типичные для стартапов в области цифровых сервисов. И существенно превосходящие численность персонала средней американской клиники.

Подытоживая, проделанный объем работы очень велик. Он потребовал глубокого понимания темы, внимания к деталям и тщательного планирования. А ведь изначально речь идёт лишь об одной позиции в штатном расписании клиники.

Несмотря на огромную сделанную работу, впереди у проекта еще больше задач. В частности, план «контроля качества» предусматривает третий этап - в котором должно принять участие не менее 5 тыс. медсестёр и 500 врачей-терапевтов. Очевидно, что это потребует внушительных затрат - для чего стартапу и понадобилось привлечение денег. Предполагается, что на данном этапе начнется и ограниченное внедрение системы в медицинские учреждения.

Какие преимущества этот продукт будет иметь с точки зрения менеджмента клиник? Мы уже сказали, что на данном этапе система не уступает человеческим специалистам. По крайней мере, в рамках многочисленных протестированных сценариев. Однако средняя зарплата медсестры еще в 2022 году составляла 39 долларов/час. Cейчас эта цифра должна быть ближе к $42/час. Прибавим сюда налоги и дополнительные расходы работодателя на персонал, составляющие в США в среднем половину от фонда оплаты труда - и мы получим стоимость работы около $63/час.



Клиника не в состоянии повлиять на затраты на лекарства, и очень незначительно может повлиять на стоимость других поставок. Зато она хорошо может управлять затратами на труд. В общей структуре затрат они составляют около 55%.

”Hippocratic AI” предлагает свою систему за 9 долларов/час. Это уже серьезная разница в пользу ИИ. Добавим сюда нехватку медицинских работников на рынке труда, «безотказность» ИИ и возможность более простой параллелизации задачи (т. е. система может отвечать на большое количество звонков одновременно) - и предложение действительно выглядит выигрышно.
Но выбранная ”Hippocratic AI” специализация на медицине несет с собой ряд дополнительных проблем. Прежде всего, это сфера, связанная с очень высоким уровнем риска. Пожалуй, это одна из самых критических сфер, которые только возможно представить. Ответственный подход к этим рискам означает, что компания должна бросать гигантские ресурсы на то, чтобы обеспечить безопасность своего продукта. В чём мы выше имели возможность убедиться.

Ситуация осложняется еще и тем, что медсестра - это лицензированная профессия в США. Чем отчасти и объясняется напряженность на рынке труда по данной специальности. Логика говорит, что и ИИ-продукт, нацеленный на замену этой профессии, тоже должен проходить процедуру лицензирования/сертификации.

Но у американских регуляторов позиция диаметрально иная: они считают, что они должны сидеть на своих тёплых креслах и никуда не торопиться. До сих пор в стране не существует федерального законодательства, регулирующего внедрение ИИ-систем в клиническую практику. Законы на уровне штатов можно пересчитать по пальцам одной руки; как правило, практические рекомендации там тоже отсутствуют.

Только 30% менеджеров клиник считают "очень вероятным", что к 2028 году национальный регулятор начнет выносить решения по безопасности медицинских ИИ-систем
В итоге разработка ”Hippocratic AI” находится в легальной серой зоне. К стартапу никаких претензий нет - напротив, их ответственный подход достоин уважения. Более того, мы видим у ”Hippocratic AI” шаги на стыке PR и комплаенс, весьма нетривиальные для стартап-индустрии. Так, в октябре прошлого года компания создала "Рекомендательный совет терапевтов" - независимый орган, в который вошли 7 менеджеров из медтеха и клиник, каждый с дипломом врача. Они согласились формировать политику в области проверки безопасности ИИ-моделей ”Hippocratic AI”.

При хороших раскладах все результаты валидации ”Hippocratic AI” вместе с политикой контроля качества когда-нибудь лягут на стол чиновничьей комиссии, комиссия их пролистает и даст добро. Возможно, их подход даже повлияет на будущие официальные рекомендации по тестированию подобных систем.

Но пока отсутствие внятных законодательных норм - это еще один риск для ИИ-продукта компании. Риск, который даёт менеджменту медицинских учреждений повод для колебаний: брать или не брать “Polaris” на вооружение.



Здесь можно предположить, что выбор «виртуальной медсестры», а не «виртуального врача» в качестве объекта разработки был продиктован в том числе и тем, что первая специальность решает менее ответственные вопросы. Ни диагностика, ни назначение лечения от нее не требуется. Это значительно снижает цену ошибки.

Но даже такая ограниченная ответственность по-прежнему наталкивается на юридическую неопределенность, связанную с отсутствием системы сертификации. При этом разработка проекта, как мы видим, требует очень внушительных расходов. Даже если у команды всё получится на техническом фронте (это сможет показать только практика), конечный успех проекта всё равно будет упираться в будущее развитие легального ландшафта ИИ-медицины.

Обобщим выводы из этого кейса. Чтобы у ИИ-продукта были перспективы, этот продукт должен выгодно выделяться на фоне других разработок в этой очень конкурентной области. Надежнее всего это можно достичь за счет специализации на конкретной области или конкретной проблеме.

Специализация потребует досконального знания выбранной области. Следует исходить из того, что разработка такого продукта потребует больших ресурсов - человеческих и финансовых - которые будут вложены в получение и обработку необходимых данных.

Процедуры валидации разрабатываемого продукта должны быть спланирован не менее (а лучше более) тщательно, чем процедуры его разработки. Опять же, на это потребуются значительные ресурсы.

Наконец, стоит чётко понимать юридические ограничения и риски, характерные для выбранной области. Чем их меньше - тем меньше шансов, что какой-то чиновник одним росчерком пера пустит все усилия команды коту под хвост.

_________________________________________

Друзья, я начал вести канал в Телеграм: Экономика знаний. Подписывайтесь!

данные, ИИ, инновации, онолитека, медицина, бизнес, технологии

Previous post Next post
Up