Информация

Неудачный дебют: как спам и порно проникли в новую GPT-4o

Быстрая покупка VPN для России через удобный Телеграмм-бот:

Проблема в китайской версии GPT-4o может привести к снижению производительности и ошибочным ответам.

OpenAI 13 мая представила свою новейшую модель искусственного интеллекта GPT-4o (Omni). Однако спустя несколько дней после выпуска модели китайские пользователи заметили, что в новой версии что-то пошло не так: токены, используемые для разбора текста, содержали множество спамных и порнографических фраз.

14 мая Тяньле Цай, аспирант Принстонского университета, изучающий эффективность вывода в крупных языковых моделях, получил доступ к публичной библиотеке токенов и составил список из 100 самых длинных токенов на китайском языке, используемых моделью для обработки китайских запросов.

Оказалось, что только 3 из них были достаточно распространены, чтобы использоваться в повседневных разговорах; остальные представляли собой слова и выражения, связанные с азартными играми и порнографией. Самый длинный токен длился 10,5 китайских иероглифов и буквально означал «бесплатное японское порнографическое видео для просмотра».

В OpenAI не предоставили комментариев по ситуации.

GPT-4o должен был превзойти своих предшественников в обработке многоязычных задач благодаря новому инструменту токенизации, который лучше сжимает тексты на неанглийских языках. Однако для китайского языка новая токенизация привела к появлению большого количества бессмысленных фраз. Эксперты объясняют это недостаточной очисткой данных перед обучением модели.

Неправильные токены затрудняют понимание их смысла моделью, что может приводить к генерации ошибочных или небезопасных ответов, что позволяет исследователям обходить меры безопасности OpenAI.

Модели проще всего обрабатывать текст посимвольно, но это требует больше времени и ресурсов. Токены, представляющие собой последовательности символов с определённым значением, позволяют модели работать быстрее и эффективнее. С выходом GPT-4o OpenAI представила новый токенизатор, который добавил поддержку неанглийских языков. Всего в новом токенизаторе 200 000 токенов, около 24% из которых на других языках, включая русский, арабский и вьетнамский.

  Слежка без границ: Великобритания приняла законопроект о тотальном цифровом контроле

Получи VPN-прокси для России через наш удобный Телеграмм-бот:

Инвестор в области ИИ Диди Дас считает, что основное преимущество нового токенизатора заключается в снижении стоимости обработки запросов на этих языках, а не в повышении качества. Дас также отметил, что токены на хинди и бенгали отражают обсуждения людей, включающие имена и названия, без спамных и порнографических выражений, в отличие от китайских токенов.

Разница обусловлена качеством обучающих данных: в китайских токенах много спам-слов, используемых в контексте порнографии и азартных игр. Это говорит о том, что корпус данных для китайского языка был загрязнен и не был должным образом очищен.

Такие загрязненные данные могут быть результатом практики, когда спам-сайты встраивают свою рекламу в контент других сайтов, чтобы обходить фильтры и индексироваться поисковыми системами, что подтверждают китайские пользователи, которые сообщают о частом появлении спамных сайтов в результатах поиска Google.

Дас утверждает, что решение проблемы спама несложное и может включать простые методы фильтрации. Однако OpenAI, по мнению Даса, не провела должную очистку данных для китайского языка перед выпуском GPT-4o. Стоит отметить, что подобные проблемы отсутствовали в предыдущих версиях – GPT-3.5 и GPT-4.

Пользователи также обнаружили, что токены можно использовать для обхода защитных механизмов модели, заставляя её генерировать запрещенные ответы. Например, запрос на перевод длинных китайских токенов может привести к появлению слов, не включенных в запрос, что является признаком «галлюцинаций» модели.

Проблема возникает, когда токенизатор и сама языковая модель обучаются на разных наборах данных. Из-за этого модель не понимает редко используемые токены, что может вызывать странные и небезопасные ответы.

Решение проблемы заключается в том, чтобы набор данных для токенизатора соответствовал набору данных для модели, чтобы избежать расхождений. Однако это сложно реализовать на практике, так как обучение языковых моделей занимает месяцы и требует постоянного улучшения и фильтрации данных.

  Золотой Щит Китая – оружие ArcaneDoor: как цензура используется для шпионажа

Эксперты считают, что проблема несложна для решения, но может усложниться с развитием модели, особенно в мультимодальных системах, включающих текстовые и визуальные элементы. Если проблема с китайскими токенами не будет решена, она может усугубиться при работе с визуальными токенами, что требует еще более сложной фильтрации данных.

Искусственный интеллект уже умнее вас. Как не стать рабом машин?

Узнайте у нас!

Купить безопасный VPN означает приобретение виртуальной частной сети (VPN), которая обеспечивает высокий уровень безопасности и защиты ваших данных при использовании интернета. Безопасный VPN предлагает множество функций, направленных на защиту вашей конфиденциальности, анонимности и предотвращение утечек данных.

Почему стоит купить безопасный VPN?

  • Защита личных данных: Безопасный VPN защищает ваши данные от кражи и слежки, особенно при использовании общественных Wi-Fi сетей.

  • Обход цензуры: Безопасные VPN позволяют обойти географические ограничения и получить доступ к заблокированным ресурсам и сайтам.

  • Спокойствие: Зная, что ваши данные защищены, вы можете более уверенно использовать интернет и меньше беспокоиться о безопасности.

  • Гибкость и настройки: Безопасные VPN часто предлагают различные настройки и функции, которые могут быть адаптированы под ваши нужды.

Оставить ответ