Как отличить текст нейросети? Ученые нашли точный способ детекции

Признайтесь, вам тоже интересно, можно ли отличить мою статью от текста, написанного машиной? Ученые из МГУ решили найти ответ на этот вопрос. И, кажется, они значительно продвинулись в решении задачи.

Команда исследователей из Московского университета провела любопытный эксперимент. Они задались целью научиться выявлять тексты, созданные искусственным интеллектом. Для этого они взяли две мощные лингвистические модели: одну на базе ruRoBERTa (заточенную под русский язык), а другую — на архитектуре LSTM, которая отлично улавливает последовательности и контекст.

Охотники за нейротекстами: как это работает?

Для чистоты эксперимента ученые собрали огромный массив данных — 20 тысяч текстов. В этой куче смешались живые, человеческие тексты и их цифровые двойники, включая, что особенно актуально, отзывы с популярных маркетплейсов. Представляете масштаб проверки?

Итоги впечатляют. Модель на основе RoBERTa справилась с детекцией на 86%. То есть в большинстве случаев она могла уверенно сказать: «Это человек» или «Это машина». LSTM-модель тоже не подвела, показав результат в 82%. Это очень высокие показатели, если учесть, насколько «умными» стали современные генераторы.

Но и здесь не обошлось без нюансов. С короткими текстами, длиной меньше 40 символов, у моделей начались проблемы. Почему? Все просто: в коротких отзывах и комментариях все мы используем шаблонные фразы вроде «все супер» или «быстрая доставка». И человек, и нейросеть пишут их практически одинаково. Получается, чем безличее текст, тем сложнее найти его автора?

Несмотря на эту трудность, обе модели доказали свою практическую ценность. Они уже сейчас могут стать основой для инструментов, которые помогут модераторам, журналистам или ученым отделить живое слово от цифрового. Интересно, пройдет ли эта статья их проверку?