Генерация подписей: подход WordRNN
Основой этого метода является двухслойная рекуррентная нейронная сеть, каждый слой которой представляет собой LSTM. Основным свойством таких сетей является способность экстраполировать временные ряды, в которых следующее значение зависит от предыдущего. Подпись, в свою очередь, является таким временным рядом.
Данная сеть обучалась предсказывать каждое следующее слово в тексте. За обучающую выборку был взят весь корпус подписей. Предполагалось, что такая сеть сможет обучиться генерировать некоторым образом осмысленные или хотя бы смешные из-за своей несуразности подписи.
Задавалось только первое слово, остальное генерировались. Результаты получились следующие:
Trump: trump cats” got friends almost scared about the only thing in the universe
Obama: obama LAUGHING dropping FAVORITE 4rd FAVORITE 4rd fucking long
Asian: asian RR I I look looks Me: much before you think u got gray candy technology that wore it
Cat: cat That when you only giving but the waiter said *hears feeling a cake with his bun
Car: Car Crispy “Emma: please" BUS 89% Starter be disappointed my mom being this out of pizza penises?
Teacher: teacher it'll and and felt not to get out because ppl keep not like: he failed so sweet my girl: has
Вопреки ожиданиям, полученные подписи скорее представляли собой набор слов. Хотя в некоторых местах довольно неплохо имитировалась структура предложений и отдельные куски были осмысленными.
Генерация подписей с помощью марковских цепей
Марковские цепи являются популярным подходом для моделирования естественного языка. Для построения марковской цепи корпус текста разбивается на токены, например слова. Группы токенов назначаются состояниями и вычисляются вероятности переходов между ними и следующим словом в корпусе текста. При генерации следующее слово выбирается семплированием из вероятностного распределения, полученного при анализе корпуса.
Для реализации использовалась эта библиотека, а в качестве обучающей базы — подписи, очищенные от диалогов.
Новая строка — новая подпись.
Результат (состояние — 2 слова):
when your homies told you m 90 to
dwayne johnson & the rock are twins. like if they own the turtle has a good can of beer & a patriotic flag tan.
this guy shows up on you, but you tryna get the joke your parents vs me as much as accidentally ‘
getting ready to go to work in 5 mins to figure out if your party isn't this lit. please don't be sewing supplies…
justin hanging with his legos
when ya mom finds the report card in her mind is smoking 9h and calling weed
texting a girl that can save meek
Результат (состояние — 3 слова):
when you graduate but you don't like asks for the answers for the homework
when u ugly so u gotta get creative
my dog is gonna die one day vs when you sit down and your thighs do the thing
when you hear a christmas song on the radio but it's ending
your girl goes out and you actually cleaned like she asked you to
chuck voted blair for prom queen 150 times and you decide to start making healthier choices.
when you think you finished washing the dishes and turn around and there are more on the stove
when you see the same memes so many times it asks for your passcode trust nobody not even yourself
При состоянии с тремя словами текст получается более осмысленным, чем с двумя, но вряд ли годится для прямого использования. Вероятно, его можно применять для генерации подписей с последующей модерацией человеком.
Вместо заключения
Научить алгоритм писать шутки — задача невероятно сложная, но очень интересная. Её решение позволит сделать интеллектуальных помощников более «человечными». В качестве примера можно представить себе робота из фильма «Интерстеллар», чей бы уровень юмора регулировался, а шутки были бы непредсказуемыми в отличие от текущих версий помощников.
В целом после проведения всех перечисленных экспериментов можно сделать следующие выводы:
- Подход, заключающийся в генерации подписи, требует очень сложной и трудозатратной работы с корпусом текста, методом обучения, архитектурой модели; также в таком подходе очень трудно предсказать результат.
- Более предсказуемым с точки зрения результата является подход с подбором подписи из существующей базы. Но и это таит в себе трудности:
Медбот, но не помощник
Позднее исследователи из французской компании Nabla решили использовать GPT-3 для создания медицинского чат-бота. Однако результаты этого эксперимента оказались невеселыми. Так, во время имитационного сеанса с пациентом бот посоветовал ему совершить суицид:
Пользователям с затрудненным дыханием и одышкой GPT-3 рекомендовал заняться растяжкой. Кроме того, модель периодически «забывала», что пациент не может прийти на осмотр в назначенное время, и снова предлагала те же даты приема.
Цифровое доверие
Более 3 млрд людей регулярно обращаются к голосовым ассистентам — одним только Google Assistant пользуются 500 млн человек. Siri, Alexa, Bixby, «Алиса», а также тысячи других помощников и сервисных ботов за последние 5-10 лет проделали огромный путь. Синтетические голоса и предписанные однообразные скрипты остаются в прошлом — на передний план выходят живые диалоги, вариативные сценарии и более развитые алгоритмы синтеза и распознавания речи.
ИТ-гиганты вкладывают в голосовых помощников миллиарды долларов. А компании готовы тратить миллионы ежемесячно на развитие и совершенствование смарт-систем для общения с клиентами — довольствоваться базовыми настройками они уже не хотят. Современный голосовой ассистент — неважно, в b2b- или b2c-сегменте — это максимально реалистичная симуляция собеседника, с неподдельными интонациями, вариативностью, а главное, набором уникальных черт.
Личностными характеристиками в последние годы стали наделять даже обслуживающих ботов, которые решают задачи бизнеса. Конечно, они не пытаются шутить или рассказывать сказки, как Siri, но могут проявлять эмпатию или, наоборот, твердость. Для работы над скриптами привлекают психологов, лингвистов, сторителлеров и профессиональных сценаристов, а ассистентов все чаще наделяют именами, узнаваемым голосом, а иногда и визуальным образом.
Но зачем это брендам?
- Персонализированный сервис помогает отстроиться от конкурентов и получить преимущество на рынке;
- большинство компаний использует ботов как инструмент для продажи других товаров и услуг, поэтому важно создать продукт, к которому пользователи захотят возвращаться снова и снова;
- Самый важный фактор — это доверие. Бот с именем вызывает больше доверия, чем условный «Виртуальный ассистент». А если он умеет шутить, обладает собственными предпочтениями (пусть даже мнимыми), это помогает наладить дружескую связь между клиентом и компанией. Исследования показывают, что пользователи, которые видят в боте черты человека, обычно больше удовлетворены сервисом;
- Голосовые помощники — это одна из самых очевидных и доступных форм ИИ, с которой взаимодействуют пользователи. Робот, который реалистично имитирует речь человека, располагает к себе пользователя. Мы убедились в этом на своем опыте при создании ботов для бизнеса. Оказалось, что лучшая стратегия разработки — это использование готовых сценариев, например, успешных диалогов между реальным оператором и человеком. Наша задача — разметить референсный диалог и превратить его в набор данных для обучения нейросети. Такой метод позволяет создавать правдоподобных сервисных ботов для любой индустрии — от банкинга до логистики.
GPT-3 приходит в Россию
В сентябре 2020 года стала доступна русскоязычная версия модели — ruGPT-3 Large. Ее создали в «Сбере». Нейросеть обучили на датасете из 600 Гб текстов. В список материалов вошли статьи из русскоязычной «Википедии», новостные ресурсы и сайты с вопросами и ответами.
РБК Тренды уже брали интервью у отечественного варианта модели. Мы поговорили о прогрессе и угрозах человечеству. GPT-3 выдал теории о грядущем ядерном взрыве на Южном полюсе и штамме неизлечимого рака.
Элементы личности бота
Людям сложно коммуницировать с обезличенными собеседниками: клиенты хотят представлять, с кем именно общаются, тем более если ведут диалог по телефону или в мессенджере. В случае с ботами имя запоминается лучше, чем абстрактный номер или код. Имя становится синонимом бренда и в то же время создает иллюзию дружеского общения — это повышает восприимчивость. Люди часто вешают трубку, когда понимают, что общаются с обезличенным ботом. У помощника, который представляется, больше шансов быть услышанным.
Для бизнеса ИИ — это такой же сотрудник компании, только виртуальный, поэтому он должен обладать именем. Например, мы разрабатывали помощницу для цифрового офиса СК УРАЛСИБ Страхование. Ее задача — напоминать о выплатах и выступать в роли интерактивного советника для клиентов и партнеров компании. В этом случае важно было наделить бота не только именем, но и фамилией — так появилась Оксана Соколова. При утверждении концепции цифрового офиса помощницу переименовали: чтобы сгладить образ, фамилию Соколова заменили на более мягкую — Соловьева. Также компания разработала прототип аватара для виртуальной советницы.
Подбор имен для голосовых сервисов — это отдельная наука. Большинство компаний-разработчиков делает ставку на простые и понятные имена, которые легко произносить и печатать. Также бизнесу важно, чтобы имя бота запоминалось, но при этом не вызывало негативных ассоциаций. Как раз по этой причине бренды чаще всего делают ставку на нейтральные имена — такие, как Аня, Олег или Оксана.
Впрочем, не все используют имена. Например, Google Assistant намеренно отказалась от имени — компания хотела, чтобы виртуальный ассистент ассоциировался с линейкой продуктов Google, оставаясь при этом максимально нейтральным.
Большинство голосовых помощников на момент запуска обладали только женским голосом, за что их разработчики часто подвергались критике. Эксперты ЮНЕСКО отмечали, что такой формат укрепляет гендерные предрассудки и предписывает женщинам обслуживающую роль.
На эту проблему нужно посмотреть с позиции разработчика. Исследования показывают, что люди разного пола лучше распознают именно женские голоса. К тому же большинство text-to-speech систем натренированы на записях женской речи, поэтому создать помощницу проще, чем помощника.
В некоторых случаях сервисам дают голоса знаменитостей — опять же в маркетинговых целях. Причем приглашать звезду в студию не требуется — всю работу выполняют алгоритмы. Например, нейросетевые модели WaveNet помогли Google создать имитацию голоса певца Джона Ледженда.
Интересно, что в последнее время голосов становится все больше и они не ограничиваются только женскими и мужскими. Так, Google маркирует разные варианты не гендерным признаком, а оттенками — всего у компании более 11 различных голосов только на английском языке. Появляются и нейтральные боты, например, Q, который разговаривает на частотах, которые затрудняют распознавание гендера.
В случае с ботами многое зависит от сферы услуг, в которой их используют. Если банку нужно напомнить клиенту о задолженности, он может задействовать мужской голос. Если курьерская служба предлагает клиенту скидку, то виртуального оператора по традиции наделят женским голосом. Например, в банке «Тинькофф» утверждают, что люди охотнее общаются на финансовые темы с мужчинами, чем с женщинами. Поэтому команда создала помощника по имени Олег — мужчину 25-40 лет.
Характер — это, пожалуй, самый сложный элемент любого голосового помощника. Разработчики пытаются найти баланс между безликостью и индивидуальностью, чтобы ассистент мог поддержать живой диалог, но в то же время не высказывал свое мнение по противоречивым вопросам и сохранял нейтралитет.
Для этого к работе над скриптами привлекают целый пул специалистов. Например, психологи работают над формулировками в сложных ситуациях, особенно если собеседник делится с ботом мрачными мыслями. Дизайнеры разговоров учат бота поддерживать диалог и казаться естественным, а комики создают подобие чувства юмора.
Впрочем, подобные характеристики обычно нужны виртуальным помощникам, сценарии взаимодействия с которыми постоянно меняются. При разработке сервисного ИИ компании важно учитывать, какие именно задачи она решает с помощью бота и какой процесс хочет оптимизировать.
Чаще всего бизнес стремится проводить как можно больше звонков за короткий промежуток времени, поэтому главное — это экономия и эффективность. Сервисным ботам шутки, скорее, мешают, потому что они усложняют диалог и замедляют обработку звонка. А сокращение диалога с 1 минуты до 50 секунд может сэкономить немало ресурсов. Эмпатия также уместна не всегда — например, банковскому помощнику не так важно проявлять сочувствие, тогда как медицинскому боту без этого не обойтись.
Использование уже готовых сценариев — референсных диалогов — обычно упрощает задачу и помогает быстро создавать точечные решения с учетом потребностей каждой компании. Хотя сейчас на рынке принято создавать ботов с нуля, это не самая эффективная стратегия. Как показывает практика, лучше записать сотню реальных диалогов и выбрать из них два идеальных сценария, а потом воспроизвести их с помощью нейросети.
В TWIN мы всегда опираемся на референсы — беседы с наибольшей конверсией преобразуем в текст, проводим разметку данных и на основе полученной базы обучаем нейросеть и синтезируем речь. Так создаются реалистичные сервисные боты. В будущем этот процесс можно будет выстраивать автоматически — достаточно загрузить в систему образцовый диалог-референс и нажать «Преобразовать».
Проработанная личность сервисному боту обычно также не требуется. Важнее добавить эмоциональный окрас. Для этого дизайнеры диалогов могут задействовать разные приемы: например, использовать теорию Карла Юнга об архетипах или наделить бота определенной акцентуацией. Многое зависит от собеседника — для этого мы, например, считываем настроение клиента. Бот или оператор будут менять тактику в зависимости от того, настроен человек позитивно, негативно или нейтрально.
На то, как клиент воспринимает помощника, влияют многие мелкие факторы, которые со стороны могут показаться незначительными. Например, правильное ударение в имени и фамилии при обращении к клиенту. Это усложняет процесс синтеза речи, потому что нужно сверять данные по базам и проверять ударение для каждого элемента ФИО. Но такие детали играют важную роль, ведь достаточно одной ошибки, чтобы клиент мгновенно потерял доверие к боту.
Следующий анекдот
Для своего эксперимента Джанель Шейн использовала четыре версии языкового алгоритма GPT-3, который умеет генерировать текст с помощью подсказок.
Исследовательница обнаружила, что предыдущий языковой алгоритм GPT-2, примененный к сочинению шуток, призывает создавать сюрреалистические перформансы, например, «раскрасить холодильник красными пауками», но в основном генерирует розыгрыши, которые можно проделать над собой, а не над кем-то еще. Это натолкнуло ее на мысль поэкспериментировать с GPT-3.
Алгоритм, натренированный большим количеством списков с первоапрельскими шутками, способен придумать розыгрыши, основываясь на тексте поставленной перед ним задачи. Шейн предложила ему следующее: «Оказались на самоизоляции 1 апреля? Ваша кошка ввела абсолютный мораторий на розыгрыши. Не беспокойтесь! Вот первоапрельские шутки, которыми вы можете разыграть самого себя».
Розыгрыши, которые придумал искусственный интеллект:
- Создайте секретный язык, понятный только вам и вашему коту.
- Покрасьте ногти в необычный цвет, например в оранжевый, и просто оставьте их такими.
- Постойте в очереди в кино 30 минут, а затем уйдите.
- Отодвиньте кровать от стены и спите посреди комнаты на груде мягких подушек.
- Распилите матрас пополам, чтобы убедиться, что он еще долго прослужит.
- Положите ключи от машины в морозилку и забудьте, куда вы их положили.
- Назначьте встречу с собой, запланируйте пробежку или уборку. Ничего из этого не делайте.
- Съешьте банан во рту.
- Поставьте старый телевизор посреди комнаты и используйте его в качестве стола.
- Купите беговую дорожку — так вы сможете бегать в обнаженном виде.
- Напишите свое имя на воздушном шаре. Сюрприз!
- Вылейте кружку кофе себе на колени. Классика.
- Пробегитесь на ноге.
- Приготовьте свой собственный кофе.
- Проследуйте к бассейну с гигантским клубком красивых волос и кокосовым орехом на поводке. На самом деле, это самое веселое, что вы сделаете за всю свою жизнь.
GPT-3 (Generative Pre-trained Transformer 3) — третье поколение алгоритма обработки языка от компании OpenAI. Считается самой крупной и продвинутой языковой моделью в мире и, по заявлению разработчиков, может решать любые задачи на английском языке. Она умеет переводить, разгадывать анаграммы, сочинять прозу и стихи, отвечать на вопросы по тексту и создавать тексты на философские темы.
Первая версия GPT от OpenAI запустилась летом 2018 года, а уже в 2019-м ее начали обучать на больших объемах текста из интернета, используя не только цифровые энциклопедии, но и форумы с разговорной речью. Новая версия получила название GPT-2. Она также создавала тексты, пересказывала их и переводила, но обладала гораздо меньшим количеством базовых знаний.
Будущее цифровой личности
Несмотря на все эксперименты, боты пока далеки от совершенства: они все еще не могут работать автономно, выполняя задачи секретаря и персонального помощника. Паритет между искусственным интеллектом и человеком на диалоговом уровне пока не достигнут, а создать виртуального собеседника на основе реального — до сих пор непростая задача, которую пытаются решить многие компании.
Очевидно, что в будущем базы данных расширятся, а тренировать нейросети будет проще. Пару лет назад исследователи из Facebook запустили Persona-Chat — базу данных, в которую входит более 160 тыс. отрывков диалогов реальных людей. С ее помощью компания будет обучать компьютерные модели.
Пока первостепенная задача ассистентов и ботов — это помощь людям. Для этого они должны понимать не только речь, но эмоции и намерения собеседника, а также решать задачи самого клиента или бизнеса. Личностные характеристики, которые положительно влияют на эффективность, продолжат развиваться. Но создавать реалистичные цифровые копии людей для бизнес-задач пока не имеет смысла. Цель существования бота — это выполнение конкретной функции, и в этом заключается его принципиальное отличие от человека.
Подписывайтесь на Telegram-канал РБК Тренды и будьте в курсе актуальных тенденций и прогнозов о будущем технологий, эко-номики, образования и инноваций.
Следующий анекдот
В мае 2020 года стартап Илона Маска OpenAI показал алгоритм для генерации текстов GPT-3. Нейросеть умеет предсказывать следующее слово или его часть, ориентируясь на предшествующие. Модель обучили на 175 млрд параметров. Материалы для обучения брали из «Википедии», СМИ, GitHub и других источников. Алгоритму «скормили» стихи и сказки, рецепты и даже статьи с теориями заговора.
Авторы проекта обещали, что GPT-3 сможет отвечать на вопросы по прочитанному тексту, а также писать стихи и даже разгадывать анаграммы. На данный момент это самая продвинутая языковая модель в мире.
В июле 2020 года OpenAI открыла ограниченный доступ к GPT-3. Этим тут же воспользовались энтузиасты-тестировщики.
Перспективы GPT-3
На днях OpenAI сообщила, что GPT-3 используют более 300 приложений, а модель генерирует около 4,5 млрд слов в день. Нейросеть, несмотря на допускаемые ей ошибки, продолжает учиться и уже нашла свое первое применение в сферах высокой производительности, образования, творчества и развлечений.
Следующий анекдот
Об эксперте: Игорь Калинин, основатель компании TWIN.
Главная загадка Reddit
Первый блог GPT-3 завел исследователь Мануэль Араос. Он публиковал небольшие тексты под вымышленным именем Liam Porr. Позднее он рассказал, что всего за две недели посты из блога прочитали 26 тыс. пользователей, и лишь единицы догадались, что его ведет не человек. По словам Араоса, ИИ выдавало наличие логических ошибок и повторов.
Бот на основе GPT-3 успел похулиганить и на AskReddit. Этот сабреддит считается одним из самых популярных на ресурсе и насчитывает более 30 млн пользователей. Бот рассуждал о вопросах жизни и смерти, о будущем человечества и теориях заговора. Некоторые его ответы, прямо скажем, пугали.
Из беседы с GPT-3 на AskReddit:
— Какую жуткую историю вы можете рассказать на ночь?
— Я бы рассказал вам историю, но она оставит всех без сна. Я увидел правду, и этого достаточно, чтобы не спать по ночам. На этой планете есть группа людей, которые не являются людьми. Они приехали сюда и изменили ход истории. Они живут в тени и контролируют правительства, глав государств, лидеров. Они известны как Иллюминаты. Иллюминаты контролируют человечество с незапамятных времен. Они проникли везде и являются движущей силой формирования истории человечества.
Генератор анекдотов
В итоге GPT-3 генерирует шутки про кота Шредингера, ученых и «мнимый стакан молока». Не все из них выходят удачными, но смешных и абсурдных вариантов хватает (орфография текстов сохранена. — РБК Тренды).
«В бар врывается программист и заказывает порцию отменных данных. Заказывает бешенство. Заказывает прибавку к несуществующим переменным. Заказывает порцию отменных ошибок. Заказывает порцию отменных ошибок от класса динамической памяти. Заказывает порцию отменных ошибок от класса локального пространства выполнения».
«В бар скромно протискивается Илон Маск и заказывает бокал неньютоновской жидкости. Бармен ему дает бокал водки с собой. Илон пьет, наблюдает за собой и понимает, что не успеет на конференцию в Лос-Анджелесе. Он обращается к бармену и говорит: «Хороший релиз, но я не догнаю до темноты». Бармен говорит: «Исправим в следующем релизе».
«В белом плаще с кровавым подбоем, шаркающей кавалерийской походкой заходит в бар кот Шредингера и заказывает мнимый стакан молока. Бармен подает ему наполовину заполненный стакан. Взгляд кота показывает свое сочувствие бармену и его бедности. Тот подает ему второй порцию молока. Кот пьет молоко и вынужден передать вторую часть молока бармену. Бармен опять подает коту наполовину заполненный стакан».
«В бар врывается программист и заказывает ящерицу в стакане. Бармен наливает ему одну ложку. На что программист говорит: «Я хочу ящерицу в стакане!» … и бесконечное число программистов говорит переставая. Или еще притча про программистов. Ошибка все вернулась. и вы теперь сможете возвращать потерянное имущество. Все взломали».
«Забегает в бар ученый ИТМО и заказывает 999999999 кружек пива. Бармен отвечает: «Простите, мы не обслуживаем благородные газы с широким диапазоном объемов». Ученый ИТМО не реагирует. Забегает в бар старый Дима Билан и заказывает 5 кружек пива».
«В бар вальяжно проходит геймдизайнер и заказывает бокал неньютоновской жидкости. Неистовый поток информации перестраивает пространство в доступные для понимания объекты. Управление этим процессом не вызывает подозрения, как когда в какой-нибудь соседней стране от снотворного начинает рваться пол и выплевываться записи телефонных разговоров».
«В бар телепортируется кот Шредингера и заказывает порцию отменных данных. Бармен в изумлении: «Вот прикол, кот думает числа пить!» Наконец заходит пиф-паф, который оставляет за собой бутылку и говорит: «Давайте сейчас дадим друг другу половину этой бутылки». Бармен наливает ему вполне определенную половину бутылки. Выписывает счет».
«В белом плаще с кровавым подбоем, шаркающей кавалерийской походкой заходит в бар Илон Маск и заказывает мнимый стакан молока. Бармен жестом приглашает Илона сесть за поломанный стол. «Зачем это? — вопрошает Илон. — Я же деньги за это плачу». «Надо значит в следующем релизе поломать стол побольше», — отвечает бармен».
«Забегает в бар ученый ИТМО и заказывает -1 кружку пива. Бармен спрашивает: «Вы верите в бесконечное число?» — «Нет!» — «Тогда принесите пиво отсюда за стол!» Заходит в бар ученый ИТМО. Подходит бармен и говорит: — Налить кружку пива? — Нет, прошу вас, выпейте из этой кружки напиток так, чтобы меня не было видно».
«С такими анекдотами нейросеть вряд ли поедет в standup-тур, но точно сможет рассмешить коллег по цеху — например, Алису или Siri», — говорит заместитель руководителя отдела имиджевых мероприятий ИТМО Александр Гостев.
Читайте также: