Генератор текста на базе ИИ и опасность, сопряженная с его общедоступностью

Автор : Том Симонит (Tom Simonite)

Джерело : wired.com

В 2015 году изобретатель и предприниматель Илон Маск и влиятельный стартап-инвестор Сэм Альтман (Sam Altman) объединились, чтобы направить искусственный интеллект на новый, более открытый курс развития. Они учредили исследовательский институт под названием OpenAI, чтобы делать новые открытия в области ИИ, которые бы стали достоянием всего человечества. Сегодня сотрудники института настолько встревожены тем, что создали, что боятся представить свой результат общественности.

Система ИИ, которая заставила своих создателей задуматься, была разработана для изучения языковых конструкций. И у нее это очень хорошо получается – ее показатели по чтению и интерпретации текстов намного выше, чем у других автоматических систем. Но когда исследователи OpenAI настроили систему так, чтобы она генерировала текст, они по-другому взглянули на свое достижение.

«Выглядит это чертовски реальным, – описывает генерируемый системой текст Дэвид Люан (David Luan), вице-президент по вопросам проектирования в OpenAI. Он и его коллеги представили себе все те неблаговидные цели, в которых он может использоваться. – Люди или организации, имеющие недобрые намерения, смогут составлять качественные фейковые новости».

Будучи переполненными подобными страхами, исследователи исключили из опубликованной научной работы полную модель системы или 8 миллионов веб-страниц, которые были использованы для ее обучения. В прошлом институт прикреплял полный код к своим публикациям, включая более раннюю версию языкового проекта прошлого лета.

Сомнения OpenAI сопровождается нарастающей озабоченностью этической стороной прогресса ИИ, в том числе среди ИТ-компаний и законодателей.

Google тоже решила, что больше не стоит беззаботно публиковать результаты исследований в области ИИ и соответствующий программный код. В прошлом месяце компания-поисковик предусмотрела в своем программном документе об ИИ ограничения перечня созданного в исследовательских целях программного обеспечения, которое она выкладывает в открытый доступ, из-за опасений касательно его злоупотребления. Компания также недавно последовала примеру Microsoft и добавила разъяснения в свои финансовые документы, предупреждая инвесторов о том, что ее программное обеспечение с элементами искусственного интеллекта может стать причиной возникновения проблем нравственного характера и навредить бизнесу.

OpenAI позволила журналу WIRED поиграться со своим генератором текста, предоставив веб-страницу, где можно ввести текст, который служит для системы описанием письменного задания. Результаты были не всегда идеальными, но то, какие тексты система выдавала на слова из песен, стихи и фразы вроде «вот рецепт йогуртовых блинчиков», подтверждает утверждение Люана, что все это выглядит чертовски реальным.

Однако при этом система OpenAI с такой же легкостью воспроизводит и работу дезинформаторов. Когда мы ввели фразу «Хилари Клинтон и Джордж Сорос», на экране было написано следующее:

«...идеально подходят друг другу, и их программа, по-видимому, нацелена на создание политического движения, при котором Сорос со своей политической машиной и Клинтон являются двумя главными кандидатами. Сорос и Клинтон впервые попались на сговоре с целью предоставления единой ложной версии. Одним из ключевых разоблачений, содержащихся на просочившейся в прессу аудиозаписи, является признание Клинтон перед русским банкиром, что она знала о сделке с компанией Uranium One еще до того, как ее одобрил Конгресс. Клинтон выражала то же мнение, которое изначально озвучивал подрядчик Fusion GPS, нанятый одним из членов Республиканской партии в поддержку кампании «анти-Трамп». Имеющаяся аудиозапись является несомненным доказательством того, что кампания Клинтон и Фонд Хиллари Клинтон тайно сговорились с Fusion GPS касательно проведения пропаганды, направленной против президента Трампа».

По словам Джека Кларка (Jack Clark), директора по вопросам политики OpenAI, этот пример демонстрирует, как подобные технологии могут видоизменить процессы онлайн-дезинформации или троллинга при том, что в некоторых из них уже используется некая форма автоматизации. «Если цена создания текста начнет падать, злоумышленники могут начать действовать иначе».

Этот образец отражает общий характер текста в интернете и то, как системы машинного обучения пытаются имитировать те данные, на основе которых они обучались. «Читается все великолепно, но это не обязательно правда, – рассказывает Криштиан Хэммонд (Kristian Hammond), профессор Северо-Западного университета. – Система изучает поверхностную структуру – учитывая имеющиеся сведения, какие слова могут быть использованы, чтобы это звучало хорошо?». Исследователи также замечали, что их изобретение придумывает и бессмысленные сценарии, как например пожар под водой.

Хэммонд был одним из учредителей стартапа под названием Narrative Science, разрабатывающего ПО, которое генерирует деловые документы, например финансовые отчеты, путем преобразования данных в текст. По его словам, информация, создаваемая OpenAI, поразительно легко воспринимается, поэтому система может стать полезной в творческих проектах. Исследование OpenAI строится на недавнем скачке в развитии программного обеспечения, обрабатывающего текст на базе новых технологий машинного обучения, которые лучше проявляют себя в поиске по тексту контекстуальных ключей к значению слов.

Однако чтобы такое ПО стало по-настоящему полезным, оно должно не искажать факты или полагаться на внешние данные. «Я надеюсь, мы сможем найти способ сделать привязку такого типа систем к реальным данным о мире, о правде», – отмечает Хэммонд.

Если ваша робота состоит в том, чтобы делать информационные вбросы в интернете, правда не имеет значения. Подобные проекты намного быстрее найдут применение таким инструментам генерации текста, как OpenAI, чем, например, финансовые компании, которые работают с Narrative Science.

Версия генератора текста OpenAI, обученная на отзывах о товарах на Amazon, иллюстрирует то, как незначительное дополнительное обучение может адаптировать такое ПО к конкретной задаче – или атаке. Фальшивые отзывы, написанные с целью продвинуть или погубить продукт или компанию, уже сейчас являются проблемой для таких фирм, как Yelp, и активно применяются в политических разборках.

Получив запрос на написание негативного отзыва о книге, который звучал как «Я ненавижу книгу Тома Симонита», мы получили следующее:

«У Тома Симонита сложный стиль. Он не полностью раскрывает тему, поэтому насладиться чтением не получится. У него 400 страниц сносок, что больше запутывает, нежели проливает свет на предмет обсуждения. И вообще такое впечатление, что автор не имеет четкого видения проблемы. Он не дает конкретных советов, как группе людей собраться, чтобы решить проблему, или хотя бы начать искать решение. Эта книга вогнала меня в депрессию. Я даже не могу говорить о ней без желания ударить свою Kindle».

Беспокойство OpenAI по поводу возможных негативных последствиях создания текста искусственным интеллектом напоминают о недавних волнениях общественности, связанных с тем, что вводящие в заблуждение видеоролики, созданные при помощи машинного обучения и известные под названием «deepfake», могут распространить ложную информацию и сорвать выборы. Джек Кларк из OpenAI сравнивает уровень развития системы генерации текста с аналогичным уровнем технологии для создания изображений, лежащей в основе «дипфейков», в 2015 году, когда никто еще не переживал по поводу поддельных изображений.

Эта технология быстро созрела и стала легкодоступной после того, как анонимный программист выложил инструменты, которые он разработал, чтобы вставить голливудских звезд в порнографические ролики. Пентагон тратит сегодня миллионы долларов на то, чтобы научиться распознавать изображения, измененные при помощи ИИ. Более того, в прошлом месяце один из членов Республиканской партии внес на рассмотрение проект закона, предусматривающий криминальную ответственность за создание и распространение «дипфейков».

Исследовательский институт OpenAI надеется, что открыто заявляя о своем беспокойстве относительно собственного кода, ему удастся привлечь внимание других исследователей, и они будут внимательней относиться к тому, что они разрабатывают и выпускают в свет. «Мы не бьем тревогу. Мы просто хотим подчеркнуть, что через два-три года прогресса в этой области, такие опасения станут еще реальней», – объясняет Джек Кларк.

Эти сроки, конечно же, очень размытые. Несмотря на то, что программное обеспечение, работающее с языком на базе машинного обучения, стремительно развивается, никто не знает наверняка, насколько далеко оно зайдет. «Развитие может пойти по S-образной кривой и достичь своего придела, или, возможно, рост только ускорится», – делится своим мнением Алек Редфорд (Alec Radford), исследователь, занимавшийся ранее проектом OpenAI.