Сильные стороны и ограничения подходов к обнаружению дипфейкового текста
The strengths and limitations of approaches to detect deepfake text
Кредит: Пу и др.

Достижения в области машинного обучения недавно позволили разработать вычислительные инструменты, которые могут создавать убедительные, но искусственно созданные тексты, также известные как дипфейковые тексты. Хотя автоматическое создание текстов может иметь несколько интересных применений, оно также вызывает серьезные опасения с точки зрения безопасности и дезинформации.

Синтетически созданные тексты в конечном итоге также могут быть использованы для введения в заблуждение интернет-пользователей, например, посредством крупномасштабного создания экстремистских или насильственных текстов, направленных на радикализацию отдельных лиц, поддельных новостей для кампаний по дезинформации, текстов электронной почты для фишинговых атак или поддельных отзывов, нацеленных на определенные отели, заведения или рестораны. В совокупности это может еще больше снизить доверие некоторых пользователей к онлайн-контенту, побуждая других пользователей к антиобщественному и рискованному поведению.

Недавнее исследование, проведенное исследователями из Технологического института Вирджинии в сотрудничестве с исследователями из Чикагского университета, LUMS Пакистана и Университета Вирджинии, недавно изучило ограничения и сильные стороны существующих подходов к обнаружению дипфейковых текстов. Их статья, ведущими авторами которой являются студенты Jiameng Pu и Zain Sarwar, будет представлена на конференции IEEE S&P'23, посвященной компьютерной безопасности.

«Большая часть исследований в области безопасности, которые мы проводили до 2016 года, исходили из того, что атакующий является алгоритмически слабым. Это предположение больше не соответствует действительности, учитывая достижения в области ИИ и машинного обучения. В 2017 году мы опубликовали статью, в которой исследуется, как языковые модели (LM), такие как RNN, могут быть неправильно использованы для создания поддельных обзоров на таких платформах, как Yelp», — сказал TechXplore Бимал Вишванат, исследователь из Технологического института Вирджинии, который руководил исследованием.

«Это был наш первый шаг в этом пространстве. С тех пор мы наблюдали быстрый прогресс в технологиях LM, особенно после выпуска семейства моделей Transformer. дезинформации, создавать спам-мнение и оскорбительный контент, а также более эффективные методы фишинга».

За последние несколько лет многие ученые-компьютерщики во всем мире пытались разработать вычислительные модели, способные точно обнаруживать синтетический текст, сгенерированный усовершенствованными машинными модулями. Это привело к введению множества различных защитных стратегий; в том числе те, которые ищут определенные артефакты в синтетических текстах, и другие, которые полагаются на использование предварительно обученных языковых моделей для создания детекторов.

«Хотя эти средства защиты сообщали о высокой точности обнаружения, все еще было неясно, насколько хорошо они будут работать на практике в условиях противоборства», — пояснил Вишванат. «Существующие средства защиты были протестированы на наборах данных, созданных самими исследователями, а не на синтетических данных в дикой природе. На практике злоумышленники приспосабливались к этим средствам защиты, чтобы избежать обнаружения, и существующие работы не учитывали такие враждебные настройки».

Средства защиты, которые злоумышленники могут легко преодолеть, слегка изменив дизайн своих языковых моделей, в конечном счете неэффективны в реальном мире. Таким образом, Вишванат и его коллеги решили изучить ограничения, сильные стороны и реальную ценность некоторых из наиболее многообещающих моделей обнаружения дипфейкового текста, созданных до сих пор.

В их статье основное внимание уделялось 6 существующим синтетическим схемам обнаружения текста, представленным за последние несколько лет, каждая из которых показала замечательные результаты в первоначальных оценках с точностью обнаружения в диапазоне от 79,6% до 98,5%. Оценивались следующие модели: BERT-Defense, GLTR-GPT2, GLTR-BERT, GROVER, FAST и RoBERTa-Defense.

«Мы благодарим разработчиков этих моделей за то, что они поделились с нами кодом и данными, поскольку это позволило нам точно воспроизвести их», — сказал Вишванат. «Наша первая цель состояла в том, чтобы надежно оценить эффективность этих средств защиты на реальных наборах данных. Для этого мы подготовили 4 новых синтетических набора данных, которые мы теперь выпустили для сообщества».

Чтобы собрать свои наборы данных, Вишванат и его коллеги собрали тысячи синтетических текстовых статей, созданных различными платформами генерации текста как услуги, а также дипфейковые посты Reddit, созданные ботами. Платформы генерации текста как услуги — это интернет-сайты с искусственным интеллектом, которые позволяют пользователям просто создавать синтетический текст и который может быть использован для создания вводящего в заблуждение контента.

Сильные стороны и ограничения подходов к обнаружению дипфейкового текста
Кредит: Пу и др.

Чтобы надежно оценить эффективность шести моделей защиты, которые они выбрали для обнаружения дипфейковых текстов, исследователи предложили серию «недорогих» стратегий уклонения, которые требуют только изменений в генераторе текста на основе LM во время вывода. В основном это означает, что LM, генерирующий поддельный текст, может быть адаптирован или улучшен во время испытаний без необходимости дополнительного обучения.

«Мы также предложили новую стратегию уклонения, называемую DFTFooler, которая может автоматически искажать или модифицировать любую синтетическую текстовую статью, чтобы избежать обнаружения, сохраняя при этом семантику», — сказал Вишванат. «DFTFooler использует общедоступные LM и использует информацию, уникальную для проблемы обнаружения синтетического текста. В отличие от других противоборствующих схем возмущения, DFTFooler не требует доступа к классификатору защиты жертвы для создания уклоняющихся образцов, что делает его более скрытным и практичным инструментом атаки. ."

Оценки группы дали несколько интересных результатов. Во-первых, исследователи обнаружили, что производительность трех из шести моделей защиты, которые они оценили, значительно снизилась, когда они были протестированы на реальных наборах данных, при этом их точность упала на 18-99%. Это подчеркивает необходимость улучшения этих моделей, чтобы они хорошо обобщали различные данные.

Кроме того, Вишванат и его коллеги обнаружили, что изменение стратегии декодирования текста LM (т. е. выборки текста) часто ломало многие защитные механизмы. Эта простая стратегия не требует дополнительного переобучения модели, поскольку она только изменяет существующие параметры генерации текста LM, и поэтому злоумышленникам очень легко применить ее.

«Мы также обнаружили, что наша новая стратегия состязательного манипулирования текстом под названием DFTFooler может успешно создавать уклоняющиеся образцы, не требуя каких-либо запросов к классификатору защитника», — сказал Вишванат. «Среди шести защит, которые мы оценили, мы обнаружили, что одна защита, называемая FAST, наиболее устойчива в этих враждебных условиях по сравнению с другими защитами. К сожалению, FAST имеет сложный конвейер, который использует несколько передовых методов НЛП, что затрудняет понимание его лучшая производительность».

Чтобы лучше понять качества, которые делают модель FAST особенно устойчивой и надежной при обнаружении дипфейковых текстов, исследователи провели углубленный анализ ее функций. Они обнаружили, что устойчивость модели обусловлена использованием семантических признаков, извлеченных из статей.

В отличие от других моделей защиты, оцениваемых в этом исследовании, FAST анализирует семантические характеристики текста, рассматривая именованные сущности и отношения между этими сущностями в тексте. Это уникальное качество, по-видимому, значительно улучшило производительность модели на реальных наборах данных дипфейков.

Вдохновленные этими открытиями, Вишванат и его коллеги создали DistilFAST, упрощенную версию FAST, которая анализирует только семантические признаки. Они обнаружили, что эта модель превосходит исходную модель FAST в условиях состязательности.

«Наша работа подчеркивает потенциал семантических функций для создания устойчивых к сопротивлению схем синтетического обнаружения», — сказал Вишванат. «Несмотря на то, что FAST подает надежды, еще есть значительные возможности для улучшения. Создание семантически согласованных длинных текстовых статей по-прежнему является сложной проблемой для LM. Таким образом, различия в представлении семантической информации в синтетических и реальных статьях можно использовать для создания надежной защиты. ."

Пытаясь обойти детекторы дипфейкового текста, злоумышленники не всегда могут изменить смысловое содержание синтетических текстов, особенно когда эти тексты предназначены для передачи определенных идей. Таким образом, в будущем результаты, полученные этой группой исследователей, и созданная ими упрощенная модель FAST могут помочь усилить защиту от синтетических текстов в Интернете, потенциально ограничивая крупномасштабные кампании по дезинформации или радикализации.

«В настоящее время это направление не исследовалось в сообществе безопасности», — добавил Вишванат. «В нашей будущей работе мы планируем использовать графы знаний для извлечения более богатых семантических функций, что, как мы надеемся, приведет к созданию более эффективной и надежной защиты».

Образец цитирования : Сильные стороны и ограничения подходов к обнаружению дипфейкового текста (2022 г., 21 ноября), получено 22 ноября 2022 г. с https://techxplore.com/news/2022-11-strengths-limitations-approaches-deepfake-text.html.
Этот документ защищен авторским правом. За исключением любой честной сделки с целью частного изучения или исследования, никакая часть не может быть воспроизведена без письменного разрешения. Контент предоставляется только в ознакомительных целях.
БезопасностьМашинное обучение и искусственный интеллект
Дата публикации: 2022.11.22