Тренды ИИ: что происходит в сфере искусственного интеллекта в 2021 году

Аналитический центр red_mad_robot и разработчик ИИ-решений RDL by red_mad_robot собрали важные тренды этого года: NLP, компьютерное зрение, беспилотники и многое другое. Прокомментировали новости эксперты «Тинькофф», «Полиметалл», «Яндекс», Lisa Device, «Сбер» и BestDoctor.

Если посмотреть на картину в целом, то ML-вычисления дешевеют, регулирование сферы ИИ становится прозрачнее, а многие решения на основе больших данных и нейросетей выходят на плато эффективности. Всё это приводит к росту инвестиций, увеличению числа компаний и команд и появлению большего числа Open Source-моделей.

Но главное — к реальному влиянию технологий из области искусственного интеллекта на жизни людей и работу компаний. Какие направления ИИ будут менять мир сильнее в ближайшее время?

NLP: уже роботы шутят над людьми, а не наоборот

Пожалуй, самый горячий ИИ-тренд 2021-го, а возможно, и нескольких следующих лет — технологии NLP. И это не псевдонаучная теория о манипуляции сознанием человека, а Natural Language Processing — обработка естественного языка. К этому направлению относится всё, что касается речевой аналитики, обработки и синтеза речи. Говоря проще — то, что позволяет людям и машинам общаться и взаимодействовать без посредников.

NLP — базовая технология, на основе которой можно создавать цифровые продукты. «Умный» спам-фильтр, классификатор сообщений, оценка пользовательских отзывов и запросов, чат-боты, Siri, «Алиса» и «умные» предметы обихода, управляемые голосом, — это всё работает благодаря NLP-технологиям.

NLP-технологии для нас — это реальность, в которой мы живем. Мы широко применяем NLP-движок для работы над голосовыми роботами, чтобы определять тематику обращений клиентов, входящих вызовов и затем запускать определенный сценарий разговора робота.

Также мы применяем NLP не только для понимания и общения с клиентами, но и для бизнеса — технология анализа речи позволяет контролировать и улучшать общение наших операторов с клиентами и следить буквально за всеми обращениями, обработанными сотрудником.

Павел Калайдин
директор по технологиям искусственного интеллекта «Тинькофф»

В последние годы NLP-технологии получили дополнительную динамику. ИИ-вычисления постоянно дешевеют, большие компании «дозрели» до вложений в эту область, а практические успехи уже позволяют применять наработки в продуктах и создают позитивный новостной фон. Всё это положительно сказывается на оценке рынка NLP-решений. Так, в 2019 Research and Markets прогнозировали рост объёма данного рынка к 2026 году до $28,6 млрд, а в 2021 они же скорректировали этот свой прогноз уже до $35,1 млрд.

История вопроса

В 2018 Google AI показала миру BERT (Bidirectional Encoder Representations from Transformers) — инструмент для обработки естественного языка на основе нейросетей. BERT тренировали на статьях «Википедии» и научили работать со 104 языками! Довольно продолжительный период именно BERT был state of the art или главным ориентиром, который показывал лучшие результаты на тестах по работе с естественным языком.

Bert, Ernie и Roberta — это персонажи ток-шоу для детей «Улица Сезам»

Если опускать технологические ноу-хау, то секрет успеха BERT — обучение модели на бОльшем количестве данных и дольше (ведь ценник на вычисления упал, а скорость обработки данных выросла). Потом была череда других моделей, разработчики которых действовали по тому же принципу, «ещё больше текстовых корпусов и времени для обучения»: SpanBERT, XLNet, RoBERTa (Facebook), ERNIE 2.0 (Baidu).

Лидер в NLP-гонке 2020

Конечно, NLP-модели были и до BERT. Да и BERT — это усовершенствованный вариант другой сети, GPT от компании OpenAI. И в мае 2020 ребята из OpenAI нанесли ответный удар с помощью GPT-3 — новой языковой модели, которая на текущий момент является лучшей в своём классе.

GPT-3 одна из самых «натренированных» сетей, но, помимо этого, у неё 175 миллиардов параметров для настройки, что говорит о вычислительной мощности и точности результатов при решении задач. Для сравнения, самая крупная версия GPT-2 включала 1,5 миллиардов параметров, а предыдущая крупнейшая нейросеть от Microsoft — 17 миллиардов параметров.

Цена вопроса

Стоимость обучения GPT-3 оценивается от $3,8 миллиона до $12 миллионов. Сложности подсчетам добавляют условно «неизвестные» параметры. Например, точные затраты на вычислительные ресурсы или затраты на подготовку корпусов текстов для обучения.

Почём NLP для народа?

BERT от Google бесплатный и есть в свободном доступе — можно брать его и дообучать под свои, узкоспециализированные задачи. OpenAI же держит GPT-3 под контролем, предоставляя доступ только избранным лицам и лицензируя свое ПО, — записаться в лист ожидания на доступ к API можно тут. Для задач на русском языке можно попробовать модели DeepPavlov или ruGPT-3 от «Сбера».

— Обработка текста и звучащей речи (NLP, Speech Analytics) — один из главных трендов 2021 года в сфере развития искусственного интеллекта. Сбер планирует уделить развитию этих направлений в этому году ещё больше внимания.

Один из наших ключевых RnD-проектов в этой сфере — модель ruGPT-3. Это самая большая нейросеть для русского языка, которая способна продолжать тексты, писать документы, делать разметку данных. У нейросети 13 млрд параметров. В отличие от OpenAI, Сбер делает технологию открытой: для заинтересованных стартапов, разработчиков и учёных доступно бесплатное публичное API и онлайн-демо.

Александр Ведяхин
первый заместитель Председателя Правления «Сбербанка»

Microsoft и NLP

Ребята из Редмонда давно занимаются NLP-проектами, но в последние годы привлекли к себе дополнительное внимание:

  • Инвестиции в OpenAI. Летом 2019 Microsoft рассказала, что вложит $1 млрд в разработчика NLP-решений в рамках партнёрства. Выгода Microsoft — доступ к продвинутым технологиям и прокачка Azure AI новым конкурентным преимуществом, по сравнению с облаками от Google, Amazon и других. OpenAI в рамках соглашения получил льготный доступ к серверам MS Azure — в 2017 году четверть расходов проекта ($7,9 млн) приходилась на инфраструктуру для облачных вычислений, и за последние годы эти затраты только возросли.
  • Тогда же, в июне 2019, партнёры заявили, что займутся разработкой AGI (Artificial General Intelligence) — это такой ИИ на стероидах. Зарабатывать на этой технологии также будут вместе.
Сооснователь OpenAI Сэм Альтман и глава Microsoft Сатья Наделла Microsoft
  • Эксклюзивная лицензия на GPT-3. В сентябре 2020 стало известно, что Microsoft получила эксклюзивную лицензию на созданный в OpenAI нейросетевой алгоритм генерации текста GPT-3. Это возмутило Илона Маска, одного из сооснователей OpenAI, который оставил организацию из-за конфликта интересов с Tesla.
  • Покупка за $16 млрд Nuance Communications — одного из самых известных в мире разработчиков технологий в области распознавания речи. Именно технологии Nuance были базой для создания Siri. У Nuance и Microsoft много общих корпоративных клиентов в здравоохранении, финансовом секторе и ряде других — это упростит интеграцию их решений.

Что дальше?

Пока NLP-технологии позволяют решать сложные, но всё ещё довольно приземлённые задачи. Продвинутые голосовые помощники, пусть даже имитирующие человеческую речь, чат-боты, классификаторы информации и умный поиск по документам, генерация контента и создание простых веб-макетов по описанию, а также пранки пользователей (куда же без них) — это хорошо, но ожидания от этого направления гораздо выше.

Например, одно из больших ожиданий игроков рынка, что NLP-технологии станут основой для новых интерфейсов взаимодействия людей и машин.

И, конечно, качество реализации и уровень удобства для пользователей должны обеспечить этим интерфейсам максимально широкое распространение, наравне с используемыми повсеместно графическими интерфейсами.

P. S. Некоторые примеры NLP-технологий могут ввести в заблуждение, что алгоритмы «понимают текст, делают логические выводы» и «настоящий» ИИ где-то рядом. Но мы вынуждены разочаровать: если упрощать, то система руководствуется правилами построения предложений и математически вычисляет подходимость каких-то слов для соседних слов, исходя из примеров, на которых её обучили и т. д.

Именно по этой причине NLP-модели могут выдавать смешные или несуразные для людей ответы, когда область применения, контекст оказываются для них слишком большими. Это подтверждают и в OpenAI.

Компьютерное зрение и системы распознавания на его основе

Компьютерное зрение — это обнаружение, отслеживание и классификация объектов с помощью обработки изображений или визуальных данных.

Люди уже давно применяют технологии компьютерного зрения. Первый товар по штрихкоду продали в магазине в 1974 году, а автоматическая сортировка писем на основе распознавания почтового индекса в СССР появилась ещё в 60-е годы и, пусть с доработками и улучшениями, применяется в России до сих пор. Развитие каналов связи и облачной инфраструктуры, а также одновременный рост и удешевление вычислительной мощности позволили решать задачи с помощью компьютерного зрения совершенно на другом уровне.

Факты

По оценкам Grand View Research, рынок систем компьютерного зрения к 2027 году достигнет $19 млрд. Вероятно, сейчас у многих людей это направление ИИ ассоциируется с системами распознавания лиц. Но, по данным тех же аналитиков, в 2019-м больше 50% рынка систем Computer Vision приходилось на решения для промышленности.

Например, недавно RDL by red_mad_robot совместно с компанией «Полиметалл» закончили внедрение системы на основе компьютерного зрения на перерабатывающем предприятии.

В последние годы отрасль серьезно продвинулась в развитии digital-решений. Цифровые модели мы внедряем и на активах компании. На одном из наших перерабатывающих предприятий в Казахстане сейчас реализуется проект использования машинного зрения. Он позволит определять рудные негабариты на линии питания мельницы, чтобы не забивался питатель и конвейер, с помощью камеры и специального программного обеспечения. Сейчас идет этап тестирования. В перспективе рассматриваем возможность применять машинное зрение для определения гранулометрического состава руды и стабилизации питания мельниц.

Алексей Лапшин
начальник управления СЭД и цифровых технологий компании «Полиметалл»

Похожий проект также сделали RDL by red_mad_robot вместе с ERG (Евразийская группа) — внедрили предиктивные модели на производство, которые прогнозируют гранулометрический состав сырья, в том числе часть, которая находится в нижнем невидимом слое.

Компьютерное зрение применяют и для охраны промышленных и других объектов, как это сделала госкорпорация «Ростех». Интеллектуальная система мониторинга в режиме реального времени обеспечивает поддержку принятия решений для операторов и должностных лиц. На основе видеоаналитики и прогнозирования.

Кто и как ещё применяет этот класс технологий?

Какие-то компании и государства используют системы распознавания лиц, какие-то — отказываются, но технология точно находится на пути развития. Поэтому даже те, кто говорят, что отказываются, нет-нет, да и применят технологию в частных случаях.

Пример: в штате Миннеаполис (США) запретили использовать системы распознавания лиц — жители США вообще против использования распознавания лиц властями и особенно силами правопорядка, — но для поиска людей, участвовавших в штурме Конгресса, технологию применяли.

Конечно, разные страны выбирают различные стратегии. В Китае система распознавания лиц — это один из важных компонентов системы социального рейтинга.

В России власти решились на использование подобных систем: Департамент информационных технологий (ДИТ) Москвы приобрел у компании NtechLab (входит в госкорпорацию «Ростех») технологию поиска лица в видеопотоке.

В МВД ведут разработку системы камер, способных распознавать человека с помощью анализа не только его лица, но и голоса, радужной оболочки глаза и походки. Это поможет искать преступников и находящихся в розыске подозреваемых.

При этом отношение людей к системам распознавания лиц достаточно лояльное: сторонников (47%) больше противников (42%) (социологическое исследование проводили в Москве — прим.)

Вообще, распознавание по «косвенным» признакам довольно «популярная» технология. Распознавание по походке применяется в Китае, технологии распознавания по татуировке есть в США. Кроме того, не стоит забывать и о распознавании по тепловой маске лица.

Компьютерное зрение в ретейле

Ретейл — ещё одна сфера, в которой активно применяются системы компьютерного зрения. Например, российский ИИ-стартап Intelligence Retail недавно привлек $1,5 млн инвестиций. Компания разработала технологию распознавания изображений на базе ИИ для FMCG и ретейла. Если проще, то платформа с помощью компьютерного зрения распознает ассортимент, что снижает трудозатраты персонала.

На сегодняшний день системы видеоаналитики с элементами ИИ — это насущная необходимость любой более-менее развитой торговой сети. И ретейлерам не обязательно в срочном порядке нанимать штат разработчиков — они вполне могут воспользоваться готовым решением, например, от Ivideon.

Системы, которые предлагает компания, в режиме реального времени анализируют очереди, активность касс и нагрузку кассиров. Можно ещё добавить мониторинг действий покупателей: выделять паттерны покупок или предотвращать кражи, особенно на кассах самостоятельного обслуживания.

С последним поможет проект компании Sequence Enforcement, который X5 Retail Group запустил в петербургских супермаркетах сети. В торговых и кассовых зонах скоро появятся камеры, следящие за возможным недобросовестным поведением покупателей. Так, если система увидит, что покупатель спрятал товар в карман, то сможет отследить траекторию его перемещения. Это решение на основе искусственного интеллекта различает до 15 вид краж.

Алгоритмы на дорогах

Еще один вариант применения компьютерного зрения — поддержание дорожной инфраструктуры. В Британии власти используют искусственный интеллект для отслеживания качества дорог. Алгоритмы анализируют спутниковые снимки: участки дороги, требующие ремонта, помечаются цветом, коммунальным службам остается лишь добраться до них и приступить к ремонту. Похожие системы запущены в Индии и в России.

Но безопасность на дорогах — это не только про отсутствие ям и снега. Компания VisionLabs (аффилирована со «Сбербанком» и Sistema VC) помогла «Яндекс.Такси» создать и внедрить систему для мониторинга усталости водителей. С помощью инфракрасной камеры она будет следить по 68 точками на лице, определяя степень усталости водителя: по частоте и длительности моргания, зевкам и наклонам головы. Если система поймет, что человек за рулём устал, она ограничит возможность принимать заказы.

Как ещё

Парочка неочевидных примеров, как применяют компьютерное зрение. Alphabet, компания, владеющая Google, научила алгоритмы распознавать рыб. Такую систему применяют на рыбных фермах, чтобы отслеживать показатели здоровья особей.

А в Google создали «умные» очки, которые помогают слабовидящим и незрячим ориентироваться в пространстве. Гаджет анализирует происходящее вокруг пользователя и рассказывает ему об этом.

Facebook разработал алгоритм, определяющий по видео предметы и области, с которыми может взаимодействовать человек. Нейросеть «понимает», что человек сделает с книгой, как возьмётся за ручку двери или нажмёт на кнопку.

«Потенциально интерактивные» области обозначаются в виде специальных областей взаимодействия. Так сеть фактически учится в той или иной мере предугадывать действия человека и, как следствие, предсказывать его поведение.

Компьютерное зрение успешно применяется и в спорте: команды Национальной футбольной лиги США используют ИИ-системы для выбора новичков на драфте, а НФЛ использует алгоритмы, чтобы анализировать игру футболистов по видео.

Что будет дальше?

Компьютерное зрение и решения в этой области чаще всего становятся источником данных или основой для рекомендательных или управляющих систем. А они, в свою очередь, способны учитывать показания других «внешних» систем. Такие сложные схемы используются, например, в беспилотниках.

Сейчас камеры становятся всё меньше и пыле/взрыво/шумозащищённее, показатели качества съёмки улучшаются. Да и сами алгоритмы позволяют улучшать и восстанавливать изображения, чтобы снижать нагрузку с каналов передачи данных. А поскольку большая часть решений на основе компьютерного зрения даёт относительно предсказуемый экономический эффект, число вариантов применения будет только расти.

Стоит отметить, что и в распознавании звуков происходят не менее интересные вещи. Просто их не так…«видно».

Куда же без беспилотников

Ещё одна важная тема 2020-го — беспилотный транспорт — активно развивается и в 2021. На данный момент рынок готов к консолидации: Amazon купила Zoox, а Uber продал беспилотное подразделение стартапу Aurora, в который уже вложились Amazon и Sequoia Capital (общий объем привлеченных инвестиций — $690 миллионов). А Woven Planet, «дочка» Toyota, приобрела подразделение Lyft, которое специализировалось на беспилотных автомобилях, за $550 миллионов.

Уже в начале этого года несколько изданий сообщали о партнерстве Apple и Hyundai по вопросам создания беспилотных электромобилей. Но переговоры приостановились из-за утечки информации со стороны корейского производителя. При этом Apple, разумеется, не планирует сворачивать производство — компания параллельно ведёт переговоры с шестью японскими автопроизводителями.

Почему компании объединяются?

Основная причина — высокая сложность реализации автономного беспилотного автомобиля или других транспортных средств. Да, скачок в технологиях, беспроводной связи и вычислительных мощностях позволил сделать прорыв в реализации. Но одного энтузиазма и текущих успехов мало, кажется, нужно ещё время для разработок и исследований.

Как компании, так и люди уже вложив в исследования немаленькие суммы, понимают, что этот забег будет гораздо длиннее марафонского и потребует ещё больших инвестиций. Для понимания, по итогам 2019-го, в сегменте беспилотных автомобилей компании инвестировали 10,4 млрд долларов более чем в 140 сделках.

Законодательные ограничения

Чтобы беспилотные автомобили могли свободно (насколько это возможно) передвигаться по общим дорогам, необходимо разработать стандарты, регулирующие их передвижение. Этим уже занимаются страны ООН: они планируют пересмотреть Конвенцию о дорожном движении.

Государства предлагают добавить в неё понятие «автоматизированной системы вождения» — комплекса, который осуществляет контроль за машиной. Также страны хотят признать водителем автоматизированную систему, если транспортное средство соответствует требованиям признавших поправки государств.

В это же время NHTSA (Национальное управление безопасностью движения на трассах) начало разработку стандартов для беспилотных автомобилей. Ожидается, что работа над одним из проектов будет завершена к концу 2021 года (или хотя бы в 2022 году).

Также в этом году правительство РФ планирует разрешить беспилотникам ездить по дорогам без страхующего водителя.

Принятие этого документа подчеркивает намерение государства развивать регулирование для автономного транспорта и создавать условия для активного развития отрасли. В числе мероприятий комплекса, стимулирующих развитие отрасли, расширение возможностей для тестирования и внедрения технологии в рамках Постановления Правительства № 1415. Это расширение подразумевает создание условий для движения беспилотных автомобилей без присутствия инженера-испытателя за рулем и в салоне, а также их коммерческое использование.

Юлия Швейко
пресс-служба «Яндекса»

Остается надежда, что страны, в которых есть компании-разработчики беспилотников (в том числе Россия), начнут более организованно действовать на международной арене, чтобы быстрее убрать барьеры для развития технологии.

Какие беспилотники ждут нас в ближайшем будущем?

  • В личных автомобилях будут и дальше развиваться более продвинутые системы помощи вождения, но полноценной беспилотности скорее всего в ближайшие годы ждать не стоит.
  • Грузовые автоперевозки, особенно междугородние, с бОльшей долей вероятности получат более продвинутые, а возможно, и какие-то гибридные системы, соединяющие беспилотный модуль и удалённого оператора, который сможет вмешаться в случае необходимости.
  • Автономная техника — от комбайнов до самосвалов и другой колёсной или летающей спецтехники — для эксплуатации в условиях бездорожья и замкнутых систем или маршрутов должна появиться гораздо раньше.
  • Беспилотники на закрытых территориях или маршрутах. Велика вероятность появления беспилотных авто, в том числе такси, или спецтехники, поездов или техники для перевозки грузов на закрытых и подконтрольных территориях: заводах, аэропортах, при разработке месторождений или в каких-то парках и так далее. Например, на закрытой/контролируемой, ограниченной территории можно запустить и беспилотное такси. Маршрут движения замкнутый, и логика организации движения хорошо контролируется.
  • Роверы-доставщики. Эта тенденция закономерно вытекает из 2020 года. Например, в период пандемии несколько компаний запустили роботов-доставщиков для передвижения в спальных районах. В Китае такой доставкой занялись JD.com, Meituan Dianping и Ele.me. В России технологию пока тестирует «Яндекс», который, кстати, в апреле 2021-го подключил свои «Яндекс.Роверы» к доставке из сторонних магазинов и ресторанов в московском районе Хамовники.

В общем в ближайшем будущем нас ждут инвестиции в развитие технологии, альянсы, слияния и поглощения разработчиков беспилотников технологическими компаниями и автопроизводителями, которые тоже не хотят превращаться в производителей «подставок для умных гаджетов».

Медтех и цифровая медицина

Период пандемии заставил всех обратить внимание на секторы, связанные с медициной, в том числе те, в которых используется машинное обучение.

Как технологии ИИ помогают медицине?

Например, повышают эффективность и качество работы: уменьшают сроки разработки лекарств, упрощают диагностику и постановку диагнозов. Алгоритмы уже сейчас с успехом увеличивают эффективность колоноскопии и сокращают сроки разработки новых препаратов.

А в каких-то странах и регионах проекты на основе ИИ сделают медицину доступнее, поскольку помогут снизить нагрузку на врачей: от анамнеза до предположений по диагнозу. Это позволит им помочь бОльшему количеству пациентов.

В каких областях внедрение наиболее перспективно?

Открытие новых лекарств

Это позволит значительно ускорить работу исследователей. И примеров такого ускорения на сегодняшний день уже много. Во-первых, американские биологи с помощью технологий ИИ открыли новый антибиотик халицин, который способен уничтожить до 35 различных видов бактерий.

Во-вторых, исследователи из IBM тоже отличились в этой области — создали алгоритм на основе глубоких генеративных моделей и моделирования молекулярной динамики, который способен «придумывать» новые антимикробные препараты.

А в-третьих, Facebook AI и Helmholtz Zentrum München разработали новый метод, который с помощью ИИ ускорит поиск эффективных комбинаций лекарств. Это приведет к снижению доз лекарственных средств, ослаблению побочных эффектов, а также снизит вероятность лекарственной устойчивости.

Решение серьёзных биологических проблем

В 2020-м алгоритмам удалось совершить настоящий научный прорыв: с помощью системы ИИ AlphaFold от DeepMind исследователи смогли предсказать пространственную структуру белка из его аминокислотной последовательности. Над решением этой задачи биологи трудились последние 50 лет!

Зачем это нужно? Быстрые и дешевые способы предсказания структуры белков позволяют эффективнее вести биомедицинские исследования самого широкого спектра: от разработки механизмов блокировки распространение инфекций в организме до исправления ошибок в сворачивании, которые приводят к нейродегенеративным и когнитивным расстройствам.

Новые способы диагностики

Раз уж мы заговорили о Facebook, нельзя не упомянуть о его сотрудничестве с рентгенологами Нью-Йоркского университета Langon Health, которое вылилось в проект fastMRI. Он способен прогнозировать результаты МРТ на основе данных, взятых из уже существующих снимков. И этот пример приводит нас к следующему перспективному направлению — поиску новых способов диагностики и постановки диагнозов.

А исследователи из МТИ создали нейросеть, которая способна обнаружить меланому. В основе модели — использование изображений с широким полем зрения и глубокое обучение. Система исследует пигментные пятна для эффективного и действенного обнаружения рака кожи.

Больше примеров медицинских проектов этого года можно посмотреть в последних «Робохрониках».

Многие мировые компании сейчас вкладываются в медицинские проекты. Это и Alibaba, который борется с заболеваниями сердечно-сосудистой системы, и IBM, который помогает бороться с раком, а также другие.

Важно, что искусственный интеллект не ставит окончательный диагноз самостоятельно. Он помогает врачу обратить внимание на течение болезни и поставить диагноз с большей точностью.

Планирование потребностей лечебного учреждения

С помощью искусственного интеллекта можно спрогнозировать потребности больницы. И компания Ericsson занялась этим вопросом.

Поскольку из-за пандемии ресурсы больниц были на грани, планирование стало более важным и сложным, чем в обычных обстоятельствах. Так Ericsson совместно с сотовым оператором Telia и шведским госпиталем при университете Сальгренска запустила систему на основе моделей искусственного интеллекта, которая может предсказать, например, сколько пациентов с COVID-19 будут госпитализированы. Для этого алгоритмы изучают анонимные данные, предоставленные Telia.

Почему «ИИ-доктора Хаусы» ещё не в каждой больнице?

Существует ряд причин, которые тормозят внедрение технологии. Во-первых, естественная консервативность регуляторов ограничивает скорость внедрения новых технологий. Так просто вывести новый продукт на рынок не получится — необходимы клинические испытания. Плюс решения ИИ должны быть интерпретируемы. Часто добиться этого сложно.

Во-вторых, для тренировки качественной нейросети нужна большая и хорошо размеченная база примеров, на которых она учится. А для хорошей разметки нужно привлекать высококвалифицированных врачей, которые займутся разметкой данных и сформируют обучающие выборки. Подобных специалистов не так много, у них есть собственная работа.

Конечно же, риск ошибки — это жизнь человека, поэтому количество проверок и скорость внедрения технологии сильно ниже, чем при решении установить на заводе систему на основе компьютерного зрения (хотя и это далеко не простая задача). Все это дополняется тем, что доступ к медицинским данным затруднен по законодательным причинам. Поскольку это персональные данные, оборот которых тщательно регулируется.

Тем не менее остановить прогресс невозможно, и крупные ИТ-компании постепенно решают эти задачи. В ближайшие годы мы наверняка увидим прорывы в области прогностической медицины, интеллектуальной диагностики и нахождении с помощью ИИ средств для лечения ранее неизлечимых болезней.

Что нас ждёт?

Ожидается, что стартапы в медтехе получат больше инвестиций, а новые технологические решения сделают помощь персонализированной и доступной для каждого пациента. Эксперты Crunchbase считают, что в будущем здравоохранение станет больше похоже на работу Netflix и Amazon: компании будут собирать данные и вовлекать пациента (=клиента) в процесс принятия решений. Насколько эти прогнозы реальны — увидим через несколько лет.

В основе системы будет пациент, его медицинские данные и данные образа жизни. Если он здоров, то это — SPO2 (насыщение крови кислородом), давление, температура, а ещё желательно анализ крови и анализ шумов легких и сердца. Так можно предсказать 99,3% возможных заболеваний заблаговременно.

Если пациент уже лечится или хронически чем-то болен, добавятся ещё и специфические данные для мониторинга за процессом выздоровления или для наблюдения и недопущения перехода в более осложненную фазу заболевания.

Все данные будут обезличены. Здоровые люди подсядут на медицинские переносные и носимые устройства для сбора основных данных для предсказания заболеваний. Причем носимые устройства будут отдавать данные почти их не анализируя, а переносные домашние умные аптечки или персональные пункты первой помощи станут такой же нормой, как компьютер в каждом доме. Все данные будут обрабатываться ИИ в облаке. И пока человек просыпается, «виртуальный» доктор уже сделает ежедневный чек-ап и понятно расскажет куда обратиться. И сам же запишет вас в лабораторию или сразу к врачу (с учетом вашего календаря), если появятся какие-то тревожные признаки заболевания.

В этом будущем не только будет разгружена транспортная нагрузка и загрузка больниц, но и будет охвачено максимальное количество населения. Будут развиваться продукты и сервисы ЦОД, для них обработка и хранение медицинских данных станут одним из ключевых направлений деятельности. А также крупные компании, особенно из экосистемы финтеха, начнут производить свои гаджеты или поглощать компании, занимающиеся разработкой новых инструментов для мониторинга здоровья. Это будет происходить в первую очередь потому, что люди начнут обращать внимание не только на свое физическое здоровье, но и на психическое. И им нужны будут очень дешевые решения, по подписке, которые они смогут получить в один клик в своем самом посещаемом приложении — мобильном банке или соцсети.

Анатолий Кияшко
CEO Lisa Device

Дипфейки: регулирование и законные способы монетизации

О дипфейках не знает, наверное, только тот, у кого нет интернета. Это ИИ-технология, появившаяся достаточно спонтанно. Долгое время дипфейк «чувствовал себя уютно» в области развлечений и фана, но за последние пару лет ситуация изменилась. Теперь это мощный инструмент, технологически бороться с которым крайне сложно.

Ещё в прошлом году мы писали: «О нём [дипфейке] много говорили уже в этом году, но в следующем году дипфейк станет действительно массовым явлением». И это предсказание сбылось. В 2020-м технология мелькала практически во всех выпусках «Робохроник». И текущий год не станет исключением — агентство Wunderman Thompson называет его одним из технологических трендов на 2021 год.

И если раньше дипфейки хоть и выглядели впечатляюще, но всё же не были до конца правдоподобными, то сейчас технология вышла на новый уровень. Фейковая реклама с CEO Dbrain, TikTok-аккаунт Deeptomecruise, в котором публикуются видео якобы от лица Тома Круза, — и это не единственные примеры резонансных дипфейков. Подделки зачастую настолько реалистичны, что их не могут распознать даже алгоритмы соцсетей, что уж говорить об обычных пользователях.

Одно можно сказать — ситуация с регулированием технологии должна измениться. Законодательная комиссия Великобритании уже планирует регулировать использование дипфейков в ближайшее время. А в Вашингтоне, например, приняли Deepfake Report Act. Он обязывает Министерство внутренней безопасности США ежегодно докладывать об использовании дипфейк-технологии.

Может ли дипфейк реально навредить? И такое бывает. Например, в Китае мошенники скупали изображения сограждан на «чёрном рынке в Интернете», пропускали их через дипфейк-приложения и загружали в госсистему распознавания лиц для регистрации поддельной компании, которая выдавала фейковые налоговые накладные. Эта схема обошлась государству в $76,2 миллиона.

А полезен-то он чем-нибудь может быть?

У технологии есть огромный коммерческий потенциал. Дипфейки уже используются в производстве видео и рекламы, а для известных людей это довольно удобно. Ведь, по сути, это их цифровое присутствие в нескольких проектах одновременно без необходимости физического участия.

Стоимость генерации профессионального видеоконтента весьма высока. Тут и выезд на натуру, гонорары звездам, дорогой постпродакшн. Дипфейки как технология приоткрывают новые возможности для генерации массового персонализированного видеоконтента. У этой технологии большое будущее.

Юрий Чайников
руководитель RDL by red_mad_robot

Вариант «мирного» применения дипфейков — это производство фильмов. Например, технология, которая автоматически адаптирует артикуляцию актёров в соответствии с текстом, что должно упростить работу локализаторов и команды озвучки.

Другой пример — предвыборный ролик индийского политика, в котором он обращается к избирателям на разных языках. Видео посмотрели около 15 млн человек, что значительно повысило его охват и эффективность работы с аудиторией.

Коммерциализация дипфейков может ускорить рост числа сервисов по созданию виртуальных медиаперсонажей. Пример уже есть: сервис Rephrase.ai создает ролики с «клонами» известных личностей для рассылок. А Epic Games представила MetaHuman Creator — конструктор, который позволяет за несколько минут создавать реалистичные цифровые модели человека.

Ложка дёгтя. Отчёт The State of Deepfake утверждает, что с декабря 2018 года число фейковых роликов удвоилось с 7964 до 15 тысяч. И 96% этих видео — порно. Reddit и Pornhub их отслеживают и удаляют. Но качество дипфейков улучшается, а создание упрощается.

Как компании пытаются обезопасить себя?

Facebook, например, собирается удалять дипфейки, чтобы не дезинформировать пользователей. Под действие санкций попадет контент, созданный с помощью технологий ИИ, в котором изменены лица и голоса. При этом сатирические и пародийные материалы удалять не будут.

Компания вообще предпринимает много усилий, пытаясь защитить пользователей (и себя) от дипфейков. Она и разработала защитную технологию, которая создаёт дипфейк-видео с пользователями, чтобы сторонние программы не смогли идентифицировать на этих роликах людей, и объявила конкурс с призом в $10 млн, чтобы найти эффективные способы отличать дипфейковые видео и фото.

Тот же вопрос волнует и Twitter — компания создает механизмы для обнаружения недостоверного контента.

Google также ищет способы борьбы с дипфейками: компания представила проект для обнаружения аудиофейков и опубликовала дипфейк-датасет, к съемке которого привлекла актеров.

А Reddit просто запретил публиковать материалы, которые могут ввести в заблуждение, и дипфейки. За нарушение — бан. На сатирические и пародийные материалы, как и Facebook, эта история не распространяется.

Что будет?

Как мы уже говорили, технологически бороться с дипфейками почти невозможно. Это же GAN-сети (генеративно-состязательные сети), биться с которыми с помощью «состязания» практически бесполезно, — вся суть этого метода и есть «состязание».

Единственный выход — законодательное регулирование, ограничение недопустимых применений и надежда на человеческую сознательность. В целом, именно дипфейки приводят как пример того, что ИИ — это джин, который почти вырвался из бутылки и в недобропорядочных руках может привести к непредсказуемым последствиям.

Эмоциональный ИИ

Человеческие эмоции — штука сложная. И полезная для компаний: многие уже планируют, как заявляет CB Insights, создать ИИ, который сможет интерпретировать эмоции, чтобы установить близкие отношения с клиентами. Так же считают и эксперты Telenor, по их мнению, в ближайшем будущем появятся персонифицированные помощники, которые будут помогать страдающим от одиночества людям. Эти устройства смогут отвечать на вопросы, звонить и предлагать развлечения.

Мы считаем это направление очень перспективным. Приведу лишь один пример, как мы используем модели распознавания эмоций в процессах взыскания и урегулирования задолженности. В этом направлении мы плотно работаем с компанией «АктивБизнесКонсалт», которая развивает продукты на базе речевых технологий под брендом VS Robotics.

Технология распознавания эмоций, во-первых, помогает нам формировать более целостный портрет клиента и выбирать наиболее оптимальные сценарии диалога или конкретного оператора. Во-вторых, это инструмент для контроля качества взаимодействия с клиентами, ведь мы должны быть уверены, что все стандарты качества соблюдаются на высоком уровне. В-третьих, это ещё и забота о наших сотрудниках.

Мы научились оперативно выявлять случаи эмоционального выгорания и в случае необходимости оказывать сотруднику помощь, а также формировать персональные рекомендации для его развития.
Кроме того, у нас есть робот-оператор, который совершает звонки по вопросам задолженности 300 тысячам клиентов в день. В этом году мы планируем научить его работе с эмоциями. Уверен, что это даст хороший эффект.

Александр Ведяхин
первый заместитель Председателя Правления «Сбербанка»

Интересно, что во время карантина спрос на эмоциональных чат-ботов вырос в разы. Один из ярких примеров — стартап Replika, ИИ-сервис для разговора о личном, и Xiaoice, голосовой помощник с приятным женским голосом, персонализированным подходом и высоким уровнем эмоционального интеллекта.

Развитие эмоциональности у голосовых помощников — логичный шаг, поскольку роботы используются все чаще, а многие люди имеют негативный опыт общения с автоматическими системами и ботами, который надо устранять.

Наш робот Олег, которого можно найти в суперприложении Тинькофф или во время звонка в колл-центр, совершенно точно один из самых эмпатичных голосовых помощников. Мы с самого начала создавали робота, который не будет похож на существующие аналоги за счет своего узнаваемого характера и отчасти человеческих черт. Личность Олега, его поведение и стиль общения моделирует команда редакторов. Они строят фразы Олега таким образом, чтобы он вызывал симпатию и при этом решал вопрос быстрее, чем оператор.

Олег в колл-центре — уже хороший собеседник, в будущем мы научим его подстраиваться под настроение собеседника и менять сценарий разговора в зависимости от этого.

Олег в чате мобильного приложения еще более компанейский: он запросто поддерживает диалог, если речь идет о решении финансовых вопросов, может давать советы, шутить, отвечать на нестандартные вопросы и многое другое. Мы чувствуем необходимость дальнейшего развития эмпатии, поэтому активно проводим эксперименты. Новыми результатами стала поддержка интонаций и эмоций на этапе синтеза речи.

Павел Калайдин
директор по технологиям искусственного интеллекта «Тинькофф»

Но не чат-ботами едиными. Распознавание эмоций можно применять и в развлекательной индустрии. Например, Facebook и Университет Карнеги-Меллон разработали бота по имени Pluribus, который смог выиграть в покер у профессиональных игроков. И если бы он просто просчитывал комбинации, мы бы о нём сейчас не писали. Pluribus «понимал», когда стоит блефовать и эффективно делал это.

В общем, чтобы усовершенствовать ИИ в 2021 году, стоит расширить его «чувства», считают ученые из МТИ.

Этика и регулирование

2020-й был своеобразным вызовом для всех. Пандемия отодвинула на задний план тему этики и регулирования технологий. Но подходы в регулировании технологий из стека ИИ и вопросы по этике их применения точно будут в тренде в ближайшие годы.

Без чёткой позиции регуляторов многие направления просто не могут рассчитывать на выход на рынок, а какие-то проекты, в том числе уже действующие, находятся в зоне риска из-за появления или изменения правил регулирования.

Яркий пример последнего — инициатива ЕС, аналогичная GDPR. Или, например, прекращение сотрудничества американских ИТ-компаний с органами правопорядка в США.

Удивительно, что анализу рисков, в том числе глобальных, при создании и использовании до сих пор уделялось относительно малое внимание, хотя на самом деле тема очень важная. Но факт остается фактом — это волнует очень узкий круг людей.
Например, сообщество рационалистов, которые видят в этом угрозу возникновения неконтролируемого сильного ИИ и гибели цивилизации.

С другой стороны, посмотрите, насколько радикально отличаются подходы к регулированию ИИ в Китае, ЕС и США. Авторитарный стиль доступа к данным, директивное внедрение массовых технологий слежки, накопления данных о всех в Ките в противовес довольно жесткой позиции по защите данных в Европе, начиная от запрета накапливать данные о несовершеннолетних, GDPR и заканчивая запретами установки видеорегистраторов на машинах.

Юрий Чайников
руководитель RDL by red_mad_robot

В силу особенностей технологии и нетривиальности её работы могут появиться иллюзорные ожидания в стиле «серебряной пули». Тем более, что решения на базе нейросетей и машинного обучения могут быть предвзяты и дискриминировать какие-то группы населения.

Примеры этого встречаются — от условно безобидных, ненадолго вышедших из-под контроля чат-бота с «радикальными взглядами» и с большей долей ошибок срабатывающих систем распознавания до упомянутых выше медицинских систем, которые могут дискриминировать людей, что потенциально может привести к риску преждевременной смерти.

Компании предлагают собственные решения, связанные с этикой. Так, Google к концу 2020-го планировала запустить новые сервисы по этике ИИ, в которых опубликует советы по задачам выявления расовых предубеждений в системах компьютерного зрения или разработке этических принципов, регулирующих проекты ИИ.

Facebook опубликовал набор данных, призванный помочь исследователям ИИ оценить свои алгоритмы компьютерного зрение и аудиомодели на предмет потенциальных ошибок. Набор данных «Случайные разговоры» состоит из видеороликов с тремя тысячами участников с разным оттенком кожи, разного возраста и пола. Это должно восполнить нехватку высококачественных наборов обучающих данных.

А «Сбербанк» представил федеральный проект «Искусственный интеллект», в котором рассказал, как распорядиться 120 млрд рублей до 2024 года в сфере ИИ.

К контролю ИИ призывали гендиректор Google Сундар Пичаи и глава Tesla и Space X Илон Маск.

Не только бизнес предлагает варианты регулирования ИИ. За защиту людей на государственном уровне взялись власти Татарстана. В республике учредили должность уполномоченного по технологиям искусственного интеллекта. Подобная практика в мире не нова. Например, в США есть комиссии по ИИ, в Канаде правительство финансирует Институт ИИ, а в ОАЭ есть министр по искусственному интеллекту.

Государства пытаются как-то регулировать этические аспекты внедрения ИИ. В России, например, эксперты настоятельно рекомендуют разработать этический кодекс «поведения» ИИ. А в Ватикане уже разработали документ, призывающий к защите прав человека. Даже Пентагон представил собственное видение регулирования искусственного интеллекта.

На местном уровне можно привести пример московских властей — в июле 2020-го в столице ввели экспериментальный правовой режим для развития ИИ.

Что ещё ждёт в 2021-м?

Демократизация ИИ станет одним из главных трендов для бизнеса. Так считает Gartner, так же говорят и в отчете State of AI 2020.

Пандемия значительно повлияла на общество — ИИ стал гораздо активнее, по мнению Gartner, внедряться в повседневную жизнь: системы компьютерного зрения помогали в соблюдении социального дистанцирования, чат-боты отвечали на вопросы и помогали справиться с одиночеством. В итоге все идет к тому, что алгоритмы станут дешевле (что уже происходит — вспомним 3D-модели MeInGame или алгоритмы для улучшения качества видео) и распространятся на широкую аудиторию.

В отчете State of AI 2020 демократизация ИИ воспринимается иначе — как расцвет и популяризация МLOps (объединение технологий и процессов машинного обучения и подходов к внедрению разработанных моделей в бизнес-процессы).

Сегодня основателям стартапов проще начинать работу с ИИ, поскольку инструменты стали доступнее, а инфраструктура более зрелая.

Искусственный интеллект — понятие относительное, по сути, это набор технологий, подразумевающий объединение ряда инструментов и подходов к анализу данных, работе с алгоритмами и многого другого.

В таком контексте под технологиями ИИ могут подразумеваться как любые проявления ML или использование нейросетей, так и алгоритмы и подходы к работе с информацией, которые применяются сейчас практически во всех отраслях бизнеса — и insuretech не исключение.

Инфраструктура сейчас действительно стала более доступной, в том числе потому что вычислительные мощности становятся все более доступными, а специальность «дата сайентист» набирает большую популярность.

Тем не менее применение ИИ важно в процессах, где технология решает задачи эффективнее, чем обычные аналитические алгоритмы. Мы используем эти технологии, разрабатывая инструменты на базе ИИ самостоятельно — они, в частности, находят свое применение в андеррайтинге, оценке прайсинга клиентов, а также для кодировки внутренней информации.

При этом нельзя сказать, что эти технологии невозможно было использовать несколько лет назад. BestDoctor — активно развивающийся бизнес, в том числе в части использования технологий ИИ. Они были актуальны для нас ранее — останутся и в дальнейшем.

Марк Саневич
сооснователь и генеральный директор BestDoctor

Согласно отчету ARK Invest, с 1960 по 2010 год мощности, затрачиваемые на машинное обучение, удваивались в соответствии с законом Мура.

В то же самое время затраты на обучение конкретного алгоритма последние три года снижались, что естественно при снижении стоимости вычислительных мощностей: в 2017 году обучение классификатора изображений, например, ResNet-50, стоило около $1000, а в 2019 году — около $10.

Российские CDO также отмечают, что ИИ-инжиниринг станет одной из актуальных тенденций из списка Gartner для большинства российских отраслей. Этот тренд предполагает подразделение, которое следит за развитием ИИ-проектов, их масштабированием и переходом в производство.

Ну и напоследок предсказания, которые не сбылись

Немало, на первый взгляд, интересных систем и алгоритмов обсуждалось и создавалось в 2020 году. Но не всем им суждено сохранить ту же популярность в 2021-м.

Много надежд возлагалось на цифровых двойников, поскольку они считались «неотъемлемой частью гиперавтоматизации», как многие считали в 2020-м. Но реальность прошедшего года показала, что этому тренду не суждено остаться на волне.

С одной стороны, любая модель реального процесса является цифровым двойником. Любой предиктор, будь то прогноз погоды или предиктор выхода из строя оборудования, чат-бот заменяющий часть функций белкового оператора, — все это примеры цифровых двойников. И не важно, что у него под капотом: простейшая линейная регрессия, численное решение системы дифференциальных уравнений, случайный лес или глубокая нейронная сеть.

С другой стороны, со временем термин «цифровой двойник» стал вызывать раздражение. На практике мало создать модель реального процесса. Нужно, чтобы ее качество было выше порога, после которого ее применение в бизнесе начинает приносить пользу.
Но на этапе старта проекта нет гарантий, что это получится. Что приводит к тому, что часть инициатив кончается неудачей: цифровой двойник создается, но пользы от него нет. Это нормально для R&D деятельности, но сильно раздражает многих заказчиков.

Юрий Чайников
руководитель RDL by red_mad_robot

В 2019-м много говорили и о чат-ботах. Они, в свою очередь, не то чтобы не оправдали надежд в ушедшем году, но тренд явно идет на спад. По мнению Юрия Чайникова, руководителя RDL by red_mad_robot, произошел классический переход по кривой Гартнера от пика завышенных ожиданий в долину разочарований. Появился опыт реального применения, стали понятны ограничения разных моделей и технологий и масштабы, на которых имеет смысл применять те или иные подходы к созданию чат-ботов.

Что касается платформ для работ с ИИ, в том числе тех, что можно собрать самостоятельно, то они займут свою нишу.

Каких-то 30 лет назад было непросто представить, что возникнут инструменты создания сайтов, не требующие квалификации программиста, верстальщика или дизайнера. Сейчас же десятки миллионов сайтов существуют на платформах типа Tilda или Wordpress. Да, в большинстве своем ими пользуется микробизнес, при этом корпорации с их непростыми бизнес-процессами продолжают создавать на заказ собственные сайты со сложной логикой.

Аналогичная судьба ждет и инструменты по созданию ИИ «своими руками на коленке». Тому будет способствовать ряд факторов: удешевление вычислительной стоимости условного «одного распознавания», совершенствование качества самих алгоритмов, удобство создания из модулей готового продукта и его рефакторинга. Но я думаю, что потребность корпораций в собственных ИИ-инструментах не исчезнет никогда.

Юрий Чайников
руководитель RDL by red_mad_robot

Немного пугающие нейрочипы и нейроинтерфейсы, будто сошедшие с экранов фантастических фильмов и сериалов, тоже не станут трендом этого года. Как проект NextMind, (они создали неинвазивное устройство, преобразующее сигналы мозга в цифровые команды, позволяя визуально управлять компьютерами, гарнитурами AR/VR и IoT-девайсами), так и чипы Neuralink, которые Маск планирует вживлять напрямую в мозг, тем самым «объединив» его с компьютером.

Дело в том, что эти технологии все еще находятся на очень ранних стадиях развития.

В некотором смысле сказка о нейрочипах уже стала былью. Просто в очень узких сегментах и от безысходности. Станет ли это таким же массовым явлением, как сейчас смартфон? Не знаю. Могут пройти десятилетия.

То, что делает Маск, — это суперталантливый пиар. Он подает очередной шажок в разработке технологии как невероятный прорыв. У меня лично вызывает смесь восторга и раздражения. Восторга, что разработки идут и за двадцать лет они неплохо продвинулись. А с другой стороны, созданный в 2011 году искусственный мозжечок для крысы был для меня гораздо большим прорывом.

Но, кажется, проблема деградации нервной ткани в месте контакта с электродами пока никуда не делась. Насколько я понимаю, ученые работают как в этом направлении, так и в направлении увеличения количества электродов и уменьшения их размеров. С другой стороны, первые эксперименты с бионическими глазами, позволяющие незрячим видеть за счет имплантации электродов в сетчатку, начались в конце девяностых, первые реальные пациенты были в 2002–2004 году, в 2007 году было уже несколько десятков таких пациентов, а сейчас эта технология получила разрешение на коммерческое использование в Европе и США. Это те самые нейрочипы, только с обвязкой в виде видеокамер в очках. Пока у них очень узкий сегмент применения.

Юрий Чайников
руководитель RDL by red_mad_robot

Материал вышел объёмный, но надеемся, что полезный. Если вам хочется узнать, каким был 2020-й в сфере ИИ, то читайте предыдущий материал с итогами года.

Чтобы не пропустить актуальные новости и новые материалы, подпишитесь на нас в Telegram.