Современные нейросети научились генерировать качественные тексты. С их помощью создают не только статьи и рекламные материалы — встречаются случаи, когда учащиеся получают отличные оценки за сочинения и курсовые работы, полностью написанные искусственным интеллектом.
Использование нейронных сетей для создания контента часто имеет негативные последствия. Во-первых, сайты с генерированным контентом могут просесть в поисковой выдаче. Во-вторых, наличие фактических ошибок в таких текстах вызовет недовольство читателей. Также есть риски обвинения в плагиате, так как ИИ использует чужие материалы для создания своих собственных.
Table of contents
Можно ли обнаружить контент, созданный нейросетью?
Параллельно с развитием нейронных сетей стали прорабатывать инструменты, позволяющие обнаружить генерацию текстов искусственным интеллектом. Та же компания Google вложила средства для проработки алгоритмов, выявляющих использование на сайтах таких материалов.
Сейчас можно получить однозначный ответ — да, современные инструменты позволяют обнаружить контент, полученный при помощи ИИ.
Как человек может отличить ИИ-текст
Тексты, сгенерированные нейросетью, пока еще можно определить без использования каких-либо инструментов. Однако ИИ совершенствуется и, возможно, уже через несколько лет человек не сможет самостоятельно понять, кем написан материал.
Чтобы определить, кто «автор» контента, следует понимать принципы написания текстов нейросетью:
- ИИ не генерирует новые идеи — основа материалов всегда заимствованная;
- машина пишет только формальным языком, в текстах отсутствуют эмоции;
- нейросеть пишет конкретно — на поставленный вопрос она даст точные формулировки без анализа и рассуждений;
- часто встречаются смысловые ошибки;
- одна мысль может повторяться несколько раз;
- некоторые части материала нелогичные, иногда не связанные с уже написанным;
- возможны отклонения от сути повествования.
Неопытные копирайтеры тоже могут допускать подобные ошибки, только стоит понимать, что для нейронной сети эти оплошности превращаются в закономерность.
Какие сервисы помогут отличить ИИ-текст
Большинство сервисов для выявления текстов, написанных нейросетью, заточены под англоязычные материалы. К тому же они обучены на GPT-2, то есть в анализе используются устаревшие алгоритмы, поэтому результат не всегда может быть достоверным.
Разработчики трудятся над созданием новых сервисов, но уже сейчас пользователям доступны несколько платформ, довольно успешно справляющихся с поставленной задачей.
GPTZero
Приложение с простым интерфейсом, созданное для преподавателей. Изначально цель работы GPTZero — проверка ученических работ на факт самостоятельной работы с материалом.
В основе алгоритма сравнение работ, написанных человеком и искусственным интеллектом. Сейчас GPTZero считается одним из наиболее точных детекторов AI-текстов. Работает с моделями GPT-3, GPT-4, ChatGPT, Bard и другими.
Для начала работы достаточно вставить материал в специальное окно или загрузить текстовый файл.
Мы проверили с помощью сервиса одну из наших статей. GPTZero с точностью определил, что текст был написан человеком.
Для сравнения был взят текст, сгенерированный ChatGPT. Его также проверили в сервисе. Интересно, что GPTZero считает, что его тоже написал человек.
Возможно, у сервиса немного опыта с русскоязычными текстами, поэтому мы проверили его на сгенерированной ИИ статье на английском. Но и здесь результат неверен:
Content at Scale
Над созданием сервиса работал Джастин Макгилл — предприниматель, специализирующийся на использовании технологий для автоматизации продаж и маркетинговых инициатив. Он обладает большим опытом в SEO и маркетинге, что позволило ему заложить в основу сервиса свое понимание работы с текстами.
Алгоритмы Content at Scale опираются на миллиарды реальных текстов, довольно точно прогнозируя использование ИИ вероятных слов.
Для оценки материалов используются три показателя — предсказуемость, вероятность и шаблонность. В правую часть экрана выведены фразы, которые с большей вероятностью написаны нейросетью.
С проверкой текста нашей статьи сервис не справился. Материал, написанный копирайтерами, показался ему слишком роботизированным.
Впрочем, и материал, написанный нейросетью, сервис тоже определяет как результат работы ИИ.
А что с английским текстом? Сгенерированный ИИ текст только частично определяет как роботизированный.
AI Content Detector от Copyleaks
Доступное решение от нейросети Copyleaks. В основе работы алгоритма лежат технологии ИИ, которые обнаруживают похожие результаты из многочисленных источников.
Главная цель Copyleaks — обнаружить плагиат и обеспечить подлинность контента, что позволит создать безопасную среду для обмена идеями и обучения.
С текстом нашей статьи сервис справился — платформа подтвердила, что материал был написан человеком.
Положительный результат принесла и проверка текста, сгенерированного нейронными сетями. Сервис без ошибок определил, что текст написан машиной.
GLTR
Сервис создан представителями Гарварда в совместной работе с IBM для проверки текстов по модели GPT-2. Однако доля верно угаданных материалов из написанных нейросетью составляет около 66%. GLRT с такой же вероятностью определяет тексты, сгенерированные GPT-3.
В основе работы сервиса — попытка предсказать каждое последующее слово в тексте. Например, в предложении «Основой классической солянки служит мясной…»⁽ логическим завершением будет «…бульон». Так может написать и человек, но если весь материал построен на предсказуемых словах, то с большей вероятностью он сгенерирован машиной.
На данный момент сервис работает только с англоязычными текстами.
Зачем проверять тексты на генерацию нейросетью?
Существует как минимум три причины, зачем следует проверять тексты на факт создания их искусственным интеллектом:
- Удержание и повышение позиций в поисковых системах. За сгенерированные тексты поисковые платформы могут наложить санкции на сайт и сдвинуть его на неопределенное число позиций ниже по поиску. Если существует потребность в генерации текстов, обязательно следует их редактировать и рерайтить, после чего стоит проверить результат на факт генерации нейронными сетями.
- Проверка честности копирайтера. Хитрые копирайтеры нашли легкий способ заработать, выдавая сгенерированные тексты за свои. Перед принятием заказа лучше проверить его в нескольких сервисах.
- Проверка конкурентов. С помощью сервисов для проверки на генерацию AI легко узнать, как ваши конкуренты создают свой контент.
Как работают детекторы ИИ
Детекторы, опознающие сгенерированный машиной текст, развиваются параллельно совершенствованию навыков самих нейронных сетей. С каждым разом они более точно определяют, кто создал проверяемый материал.
В их основе лежат те же алгоритмы, которые используются нейросетью для генерации контента — обрабатывается большой объем информации с выявлением закономерностей и общих признаков. У генеративных моделей появляется все больше параметров, их постоянно дообучают на новых текстах и фидбеках пользователей. Плюс постепенно внедряется лингвистический анализ фрагментов.
Стоит ли использовать для SEO текст, сгенерированный ИИ?
Поисковые системы не приветствуют использование сгенерированных текстов для SEO сайтов. Постепенно прорабатываются алгоритмы, которые выявляют такие материалы и позволяют наказывать интернет-ресурсы за их применение.
Ценность в текстовых нейросетях все-таки есть, если использовать их правильно. Так, они подходят для генерации идей, создания плана статьи или основы для будущего текста. Также текстовые ИИ можно использовать для других целей бизнеса, например, создания описаний товаров или постов в социальные сети.
Conclusion
Детекторы текстов, сгенерированных нейросетью, работают по индивидуальным алгоритмам, в которых записана программа самообучения. Часто они могут определять только материалы, полученные в результате использования конкретной модели ИИ.
К тому же, технологии развиваются стремительно, регулярно обучаются и совершенствуются. С каждым днем тексты, созданные искусственным интеллектом, все сложнее отличить от человеческого языка. Многие детекторы просто не успевают за развитием нейросетей. Поэтому абсолютно достоверный результат они дать не могут.