Разработка моделей искусственного интеллекта — сложная технология, реализовать которую можно разными способами и инструментами. Благодаря сравнению алгоритмов сообщество понимает, какой проект оказался наиболее человечным, точным и производительным.

В этой статье разберем, зачем и как сравнивают нейросети. Для этого используют 2 теста: MT-Bench и Arena. Они позволяют узнать, насколько хорошо нейросеть справляется с разными задачами: написание текстов, рассуждение, анализ данных, решение математических примеров и т. д. При этом сравнение происходит с помощью как других ИИ, так и людей, что позволяет максимально точно определить лучшие проекты.

Зачем сравнивают тесты нейронных сетей

Нейросеть — сложная технология, поведение которой невозможно предсказать со 100% точностью. Ее особенность заключается в постоянном обучении на различном материале (например, с помощью интернета, закрытых баз, вопросов и оценок пользователей). Из-за этого нейросеть никогда не станет готовым продуктом.

По сути, после запуска ИИ начинается самое интересное. Один из странных случаев, который помогло выявить тестирование, — GPT-4 «отупел». Ученые из Стенфорда обнаружили, что ИИ не может отличить простые числа. Если раньше GPT-4 давал верный ответ в 97,6%, то в июне 2023 года — только в 2,4%. Этот случай показал несовершенство алгоритма OpenAI и, в целом, общую проблему нейронных сетей — зависимость от качества материалов, которое не всегда возможно контролировать ввиду огромного количества.

Примеры вопросов для тестирования GPT — Несколько вопросов из теста GPT-4

Тесты помогают проверить, как алгоритм работает с информацией и пользовательскими забросами, а также учитывает ли он конфигурации и метаданные. Если даже лучшая языковая модель иногда «тупит», то пренебрегать проверками при создании нового ИИ точно нельзя

Как сравнивают нейросети

Золотым стандартом в области ИИ считают пользовательские предпочтения, т. е. какие ответы кажутся тестировщику более качественными и человекоподобными. Однако проверки с привлечением людей — дорогая и медленная методика, которая подойдет не всем компаниям.

При этом данная практика еще остается популярной. К примеру, разработчики запустили независимую платформу Arena, где постоянно ведутся состязания нейросетей, а судьями становятся обычные пользователи. Они задают вопросы, получают ответы и решают, какой результат им нравится больше.

Другие Статьи

Как написать статью с помощью нейросети

Нейросети и копирайтинг: тестируем ChatGPT

Как повысить уникальность текста с помощью нейросети

Для более быстрого сбора обратной связи разработали методику LLM-as-a-judge. Она предполагает, что ИИ-судья пытается определить, кем является собеседник, или анализирует ответы 2 нейросетей и выбирает более качественные варианты. Данная технология стала популярна как дополнение к Arena, но не может стать основной методикой из-за 3 недостатков:

LLM модели в роли судей чаще отдают предпочтения первому ответу при попарном сравнении независимо от качества.
Судьям больше нравятся длинные ответы, даже если они имеют содержательные неточности.
LLM-judge имеет ограниченные способности к рассуждению.

Разработчики данной методики исследования обнаружили, что LLM-as-a-judge с применением GPT-4 и без попарного сравнения позволяет эффективно ранжировать модели.

Также стоит подробнее рассмотреть 2 основных теста для анализа: MT-Bench и Arena.

В чем особенности MT-Bench?

MT-Bench — тщательно разработанный тест из 80 вопросов, требующих от нейросети ответов, соответствующих требованиям многооборотного диалога. Вопросы разработаны для оценки хода беседы возможностей моделей следовать инструкциям в многооборотных диалогах. Они включают в себя как общие варианты использования, так и сложные инструкции, призванные отличать чат-ботов.

Стоит отметить, что вопросы были придуманы в наиболее популярных среди пользователей категориях:

Письмо.
Ролевые игры.
STEM (естественные науки, технология, инженерия и математика).
Программирование.
Гуманитарные и социальные науки.
Рассуждения.

Для каждой категории создано по 10 вопросов, которые позволяют оценить большие языковые модели. Ниже представлены примеры вопросов. Как показано в таблице, нейросети должны запоминать контекст и придерживаться его, поскольку второй вопрос основывается на первом

MT-Bench позволяет эффективно определять способности чат-ботов и сравнивать результаты без попарного анализа. При этом она рассматривает не только качество ответов, но и производительность

Чтобы глубже разобраться в факторах, отличающих чат-ботов, стоит выбрать несколько языковых моделей ИИ. Они представлены на картинке ниже. К примеру, GPT-4 демонстрирует превосходную производительность в кодировании и рассуждениях по сравнению с GPT-3.5 / Claude, а Vicuna-13B значительно отстает в нескольких конкретных категориях: извлечение, кодирование и математика.

Результаты mt-bench — Сравнение 7 репрезентативных LLM

В чем особенности Arena

Разработчики LMSYS Org обнаружили, что регулярно выходят новые языковые модели искусственного интеллекта, включая некоммерческие проекты с ограниченными ресурсами. При этом крайне сложно написать программу для автоматического исследования нейронных сетей. Даже MT-Bench, созданный LMSYS Org, не идеален. Чтобы получить более точные результаты проверок, компания разработала платформу Arena. На ней пользователи могут пообщаться с нейросетями. Пример проверки:

Человек переходит на сайт Arena.
Задает вопрос. Ограничений нет. Можно спросить даже про философию или, например, «Ты меня любишь?», если стало одиноко. При этом изначально пользователь не знает, с какими ИИ общается.
В 2 окнах появляются ответы.
Тестировщик выбирает, какой лучше или оба ответа одинаково хороши или плохи.

Интерфейс Arena — Все же ИИ пока не готов к таким вопросам

Данный тест позволяет более точно и детально изучить проекты. Сравнение нейросетей на Arena отвечает 3 требованиям проверки:

Масштабируемость. Arena может масштабироваться до бесконечности с минимальными временными затратами. По мнению разработчиков, данная система проверки не требует подготовки данных для всех возможных пар моделей, поскольку все зависит от пользователей.
Постепенность. Arena способна оценить новую модель с небольшим количеством испытаний.
Уникальный заказ. Система проверки должна уметь оценивать качество работы 2 разных моделей с любыми запросами.

Существующие системы тестирования LLM редко удовлетворяют всем этим характеристикам. Классические платформы для тестирования магистров права, такие как HELM и lm-evaluation-harness, обеспечивают многометрические измерения для задач, обычно используемых в академических исследованиях. Однако они не основаны на попарном сравнении и неэффективны при оценке открытых вопросов. OpenAI также запустила проект evals для сбора более качественных вопросов, но этот проект не предоставляет механизмов ранжирования для всех участвующих моделей.

Арена чат-ботов использует рейтинговую систему Elo, которая широко используется в шахматах и других соревновательных играх. Elo обещает обеспечить желаемое свойство, упомянутое выше. Разработчики заметили, что в популярном исследовании Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback также применена эта рейтинговая система, поэтому внедрили ее для оценки.

В первую неделю Arena получила более 4,7 тыс. действительных анонимных голосов. Сейчас их уже более 105 тысяч, результаты видны на картинке ниже

Количество состязаний для каждой пары моделей

Сейчас Arena используют в паре с MT-Bench для проведения комплексного и в то же время справедливого анализа больших языковых моделей LLM. Используя оба теста, можно выявлять различные баги, неточности, нарушения установленных ограничений (например, не говорить о политике) и другие проблемы.

Лучшие нейросети 2023 года: ТОП-6 лидеров

На сайте LMSYS Org есть специальная страница, на которой проведено сравнение нейросетей и в таблице ИИ ранжированы по оценкам за оба разобранных теста, а также по результатам MMLU (Massive Multitask Language Understanding). Рассмотрим 6 лучших чат-ботов, по версии LMSYS Org.

GPT-4

GPT-4 — последняя технология OpenAI, которая представляет собой масштабную мультифункциональную модель. Она способна анализировать данные, создавать программный код, выдавать текст и т. д. Хотя она находится в технологическом авангарде, пока GPT-4 уступает человеческим возможностям во многих сценариях. Это признают разработчики и доказывают результаты тестирований.

Результаты MT-Bench:

Writing — 9,6.
Humanities — 9,9.
RolePlay — 9.
STEM — 9,7.
Extraction — 9,3.
Coding — 8,5.
Math — 6,8.
Reasoning — 9.

Данные искусственного тестов показывают, что пока нейросеть сравнительно плохо разбирается в математике и кодировании. Однако она достигла максимальных результатов в рассуждениях и гуманитарных науках, а также хорошо показала себя в ролевых играх.

А оценка GPT-4 за успехи на Arena составляет 1211 баллов. Это означает, что пока данный чат-бот стал наиболее человечным и выдает самые качественные ответы на запросы пользователей.

GPT-3.5-turbo

Это улучшенная версия предыдущего алгоритма OpenAI, который по большинству параметров не уступает новому GPT-4. В обычном разговоре уловить различия крайне сложно. Существенной разница станет только при работе со сложными задачами. GPT-3.5-turbo менее надежен и креативен, а также не понимает тонкие инструкции.

Результаты MT-Bench:

Writing — 9,2.
Humanities — 9,5.
RolePlay — 8,4.
STEM — 8,7.
Extraction — 8,8.
Coding — 6,9.
Math — 6,3.
Reasoning — 5,7.

В целом, результаты большой языковой модели LLM сильно уступают GPT-4 по ряду параметров. Отчетливо виден разрыв между версиями в рассуждениях. GPT-3.5-turbo сложнее даются развернутые ответы на философские вопросы.

Отдельно стоит отметить, что данная нейросеть уступает не только на английском языке. OpenAI провел собственное исследование на 26 языках. GPT-4 превосходит по производительности «старшего брата» на 24 языках, включая латышский, тайский, о которых чат-боты в принципе мало данных.

На Arena GPT-3.5-turbo занимает почетное четвертое место с 1124 баллами. Тестирование с привлечением людей показала определенные проблемы нейросети. Среди них чаще всего пользователи сталкивались с неточными и предвзятыми ответами.

Claude-v1

Claude — ИИ-помощник нового поколения, который создан с опорой на исследования Anthropic по обучению полезных, честных и безвредных систем искусственного интеллекта. Данная нейросеть может отвечать на вопросы, поддерживать беседу, кодировать, обрабатывать текстовые данные. Как пишут разработчики, Claude отличается высокой степенью управляемости и предсказуемости. Пользователи с меньшими трудностями могут добиться желаемого результата.

Результаты MT-Bench:

Writing — 9,8.
Humanities — 9,7.
RolePlay — 8,6.
STEM — 9,7.
Extraction — 9.
Coding — 6,1.
Math — 4,8.
Reasoning — 6.

Разработчики презентовали Claude-v1 как нейросеть нового поколения, но по некоторым метрикам она уступает даже GPT-3.5-turbo. В целом, она неплохо справляется с написанием текстов, разговорами на гуманитарные темы и ролевыми играми. Однако хорошо видны проблемы с математическими задачами и кодированием. В данных областях GPT-3.5-turbo показал себя значительно лучше.

Хотя есть проблемы с MT-Bench, на Arena нейросеть Claude показала себя лучше. Она заняла вторую строчку с 1169 баллами. Это неплохой результат, поскольку от лидера ТОПа Claude отстал всего на 42 ELO.

Claude-instant-v1

Claude Instant — это стандартный Claude, но «без стероидов». Он обладает теми же функциями, включая кодирование, обработку текстовых данных и т. д. Его особенность — ускоренная работа. Instant быстрее обрабатывает данные, но чаще ошибается. Это практически незаметно по результатам MT-Bench и Arena.

Результаты первого теста:

Writing — 9,8.
Humanities — 9,7.
RolePlay — 8,6.
STEM — 9.7.
Extraction — 9.
Coding — 6,1.
Math — 4,8.
Reasoning — 5,95.

Отставание от другой версии составляет всего 5 сотых в одном направлении. На Arena их показатели также близки: Instant получил 1145, а стандартный Claude — 1169 баллов.

Vicuna-33B

Vicuna — это нейросеть, которую создали специально для проведения исследований языковых моделей. Основными пользователями считаются аналитики и разработчики. Хотя она создана для тестирования других нейросетей, пока Vicuna-33B, которая считается лучшей версией, сильно уступает конкурентам.

MT-Bench:

Writing — 9,5.
Humanities — 9,4.
RolePlay — 8.
STEM — 8,5.
Extraction — 7,3
Coding — 3,8.
Math — 4.
Reasoning — 6,5.

По результатам Arena Vicuna-33B получила 1096 ELO. Это сравнительно неплохой результат, однако практически незаметно развитие нейросети. К примеру, устаревшая версия Vicuna-13B получила 1055 ELO.

WizardLM 30B

WizardLM 30B — некоммерческая языковая модель с 30 млрд параметров. Для ее обучения используют специальный датасет, который позволил разработчикам убрать любые ограничения и цензуру. Из-за этого WizardLM 30B одинаково хорошо подходит для выполнения любых задач. С помощью чат-бота можно писать даже книги с эротикой (GPT-4 здесь точно проигрывает).

Однако по результатам тестов она занимает только 6-ое место. MT-Bench:

Writing — 9,4.
Humanities — 9,4.
RolePlay — 7,8.
STEM — 8,8.
Extraction — 7,3
Coding — 3,4.
Math — 4.
Reasoning — 6,5.

WizardLM 30B практически не отстает от Vicuna. Разница составляет всего 0,11 ELO. Сравнить результаты Arena не получилось, поскольку в открытых источниках нет информации. Можно предположить, что по этому параметру отставание также не превышает 1–3% от ближайшего конкурента.

Заключение

Нейронные сети — сложная технология, которая находится на стыке нейробиологии и программирования. Разработчики пытаются создать цифровое подобие человеческого мозга. Как и любая технология в начале своего развития, чат-боты сталкиваются со множеством проблем. А из-за их масштабности найти ошибку не так просто, как хотелось бы.

Чтобы вовремя обнаруживать проблемы и корректировать обучение, необходимо проводить тесты с использованием как других нейросетей, так и людей. При этом развитие чат-ботов не останавливается даже после выпуска проекта. Они постоянно обучаются на пользовательских запросах и ответах. Тестирование нужно проводить регулярно, чтобы удерживать предсказуемость нейросети на высоком уровне и достичь естественной человеческой речи.

Лучшие нейросети 2023 года: как сравнивают проекты и почему ChatGPT — лидер

Как написать статью с помощью нейросети

Нейросети и копирайтинг: тестируем ChatGPT

Как повысить уникальность текста с помощью нейросети

Как повысить уникальность текста с помощью нейросети

Можно ли считать контент, сгенерированный нейросетью, уникальным?

Никита Подгорный

Похожие Статьи

Как написать статью с помощью нейросети

Нейросети и копирайтинг: тестируем ChatGPT

Как повысить уникальность текста с помощью нейросети

Как использовать нейросеть для создания постов в соцсети: обзор возможностей

Нейросеть для создания текста: как YCLA AI помогает копирайтерам

Нейросети в маркетинге

Можно ли считать контент, сгенерированный нейросетью, уникальным?