Когда мы заговорим с искусственным интеллектом

Иллюстрация: Andy Selimov

Недавно стало известно, что Microsoft покупает стартап Maluuba, специализирующийся на исследованиях глубинного обучения. Молодая компания базируется в Монреале, неофициальном международном центре разработки искусственного интеллекта и технологий, которые позволяют его обуздать. Правда, два года назад о ребятах из Maluuba никто не знал и точно не собирался покупать за сумасшедшие деньги. Что еще раз подтверждает: для успеха важно оказаться в нужном месте и в нужное время. Ведь кроме финансовой подушки можно получить шанс изменить мир.

Maluuba основана Сэмом Пасупалаком и Кахером Сулейманом в 2011 году — тогда фаундеры были студентами университета Ватерлоо, что расположен в 400 милях от Монреаля. Название для дела выбрали не случайно, а связали его одним из своих первых курсов по компьютерной грамотности. Конечно, это не загадка яблока Apple, но шума от Maluuba может наделать не меньше.

Вскоре после основания ребята приступили к работе над голосовым помощником, который в целом напоминал Siri (до презентации iPhone 4s было еще несколько месяцев). Механика работы была схожа с той, которую использовали инженеры Apple, и создание ассистента требовало огромного количества механической и кропотливой работы, продвигалось медленно. Но пока они прозябали в Ватерлоо, мир не стоял на месте — корпорации вроде Google и Facebook обзавелись идеальным инструментом для реализации своих амбиций, адаптировав технологии глубинного обучения. Это перевернуло направление с ног на голову: распознавание голосовых и визуальных команд, переводы и анализ данных предстали в новом свете. Однако Пасупалак и Сулейман не собирались оставаться в стороне. К началу 2015 они переехали в Монреаль и начали активно собирать звездную команду ученых из местных университетов. В результате покупка со стороны Microsoft не заставила себя ждать — оказалось, что достаточно всего 13 месяцев, чтобы софтверный гигант принес в маленький стартап, штат которого едва перевалил за 50 человек, миллионы долларов. И это не единичная история успеха — в прошлом году Uber поглотил исследовательскую лабораторию Geometric Logic, чтобы нанять 15 человек. Каршерингового монстра, который активно присматривается к эксплуатации автономных машин, не смутило отсутствие реального продукта или опубликованных академических исследований. Двумя годами ранее подобную жадность к искусственному интеллекту продемонстрировал Twitter, выложив почти $150 млн за компанию Magic Pony, которой на момент покупки едва исполнилось два года. И догадайтесь, на чем специализировался стартап? Все то же глубинное обучение.

Таким сделкам несть числа — стартапы расхватывают как горячие пирожки. До сих пор неизвестно, сколько точно Microsoft выложила за свой билет в лигу компаний, сделавших ставку на машинное обучение. Сумма наверняка астрономическая, помнится, Google отдал за поглощение DeepMind $650 млн. Это те самые британцы, чей алгоритм положил на лопатки чемпионов в го и аннулировал доминирование человека в этой логической игре. У Intel расходы на покупку компании Nervana превысили $400 млн. Но в случае Microsoft сделка выразительна не потому, что будет соревноваться в затратности с другими приобретениями. Просто объект исследований Maluuba — другой. Компания сфокусировалась на создании инструментария, который поможет компьютеру работать с естественными запросами. Основатели решили отодвинуть на второй план распознавание речи и заставить искусственный интеллект понимать, что ему говорят. Если вы наблюдали за недавней истерией вокруг чат-ботов, то сможете оценить насколько разогрето это направление: кажется, именно восприятие естественных запросов сломает коммуникационную стену между человеком и компьютером. Звучат и более пафосные варианты — разработки позволят нам ступить на новый виток технологического развития.

Такой эффект должна обеспечить природа нейронных сетей, на которые полагаются исследователи Maluuba. Главное преимущество этих математических конструкций в том, что они почти самостоятельны. Раньше инженерам приходилось вручную адаптировать человеческий лексикон для построения системы, которая могла бы анализировать и применять эти данные в общении с человеком. Но нейронным сетям под силу «питаться» сырыми данными. С этим и связывают грядущую революцию, которая всё задерживается. Взгляните вокруг, сколько примеров у нас есть под рукой. Едва ли не каждый IT-гигант обзавелся голосовым ассистентом: рынок уже делят Microsoft Cortana, Google Search Assistant, Facebook M, Amazon Alexa, Siri. Добавьте к ним миллионы чат-ботов. И умножьте на нулевое умение этих продуктов вести диалог с людьми. Все понимают эту проблему и даже пытаются решить.

Два года назад Google уже публиковала исследование с описанием эксперимента, в ходе которого чат-бот смог поболтать о смысле жизни. Следом выступил Facebook — их детищу удалось прочитать отрывок из «Властелина колец» и ответить на вопросы о трилогии Толкиена. Присматривается к подобному и Amazon, который развивает Alexa. Неудивительно, что Microsoft, которая под руководством Сатьи Наделлы зарекомендовала себя в качестве лидера рынка облачных вычислений, вступила в игру. И виной всему те самые нейронные сети.

Условно говоря, это комплексные математические системы, которые учатся выполнять дискретные задачи, распознавая паттерны поведения в огромных массивах данных. Данные могут быть разными: например, архив из нескольких миллионов фотографий для распознавания конкретных объектов или лиц. Теперь добавим новых элементов в это уравнение: Google, Microsoft и Facebook располагают как массивными объемами данных, так и возможностью использовать огромные компьютерные кластеры для испытаний. Идеальный шторм, который в разы ускоряет прежние темпы в изучении этого направления. И все-таки Maluuba придется очень непросто. Основатели планируют научить свой алгоритм вести диалог. Но подходящих данных у них пока что нет: задача кардинально отличается от прежних примеров. Поэтому они создают собственные датасеты — первый содержит вопрос и ответ, второй ориентируется на имитацию условий диалога. В этом деле компания полагается не только на свои возможности, привлекая к работе масштабное комьюнити. Но даже наличие данных не полностью решает проблему. Разговор для нейронной сети — это не то же самое, что распознавание объекта на снимке. В первую очередь потому, что общение — не единичная задача, это смысловой поток, обработка которого требует опираться на предыдущий опыт. Нейронная сеть должна иметь «память» в каждом отдельном случае. Должна быть устойчива к максимальной вариативности. И некоторый прогресс в этом направлении уже есть.

Например, Пасупалак и Сулейман подумывают применить способ «изучения с подкреплением». Этот метод машинного обучения использует преимущества взаимодействия между средой и агентом (эту роль отдадут нейронке), применяя заданные правила для регистрации позитивных и негативных действий. Иными словами, распознаванию натуральных запросов может помочь постоянное повторение и слежение за корректностью реакций на них. Нужно сымитировать не определенный паттерн, а научить сетку анализировать контекст. Тут и спряталась главная опасность. Когда Microsoft выкатила своего чат-бота Xiaoice на китайский рынок, им воспользовались более 40 миллионов человек, и результаты казались обнадеживающими. Однако публичное тестирование в США обернулось провалом — из-за активности троллей бота сделали расистом и ксенофобом. Эту ситуацию и призвана исправить Maluuba. Но кроме победы над усердными двачерами, у бывших канадских студентов есть и более амбициозные цели. И если они вновь покажут их в нужное время и в нужном месте, то поменяют наше восприятие компьютеров. Но пока фильм «Her» остается художественным, а не документальным, предвидеть день, когда мы заговорим с искусственным интеллектом, невозможно.