Разработка моделей искусственного интеллекта — сложная технология, реализовать которую можно разными способами и инструментами. Благодаря сравнению алгоритмов сообщество понимает, какой проект оказался наиболее человечным, точным и производительным.
В этой статье разберем, зачем и как сравнивают нейросети. Для этого используют 2 теста: MT-Bench и Arena. Они позволяют узнать, насколько хорошо нейросеть справляется с разными задачами: написание текстов, рассуждение, анализ данных, решение математических примеров и т. д. При этом сравнение происходит с помощью как других ИИ, так и людей, что позволяет максимально точно определить лучшие проекты.
Зачем сравнивают тесты нейронных сетей
Нейросеть — сложная технология, поведение которой невозможно предсказать со 100% точностью. Ее особенность заключается в постоянном обучении на различном материале (например, с помощью интернета, закрытых баз, вопросов и оценок пользователей). Из-за этого нейросеть никогда не станет готовым продуктом.
По сути, после запуска ИИ начинается самое интересное. Один из странных случаев, который помогло выявить тестирование, — GPT-4 «отупел». Ученые из Стенфорда обнаружили, что ИИ не может отличить простые числа. Если раньше GPT-4 давал верный ответ в 97,6%, то в июне 2023 года — только в 2,4%. Этот случай показал несовершенство алгоритма OpenAI и, в целом, общую проблему нейронных сетей — зависимость от качества материалов, которое не всегда возможно контролировать ввиду огромного количества.
Тесты помогают проверить, как алгоритм работает с информацией и пользовательскими забросами, а также учитывает ли он конфигурации и метаданные. Если даже лучшая языковая модель иногда «тупит», то пренебрегать проверками при создании нового ИИ точно нельзя
Как сравнивают нейросети
Золотым стандартом в области ИИ считают пользовательские предпочтения, т. е. какие ответы кажутся тестировщику более качественными и человекоподобными. Однако проверки с привлечением людей — дорогая и медленная методика, которая подойдет не всем компаниям.
При этом данная практика еще остается популярной. К примеру, разработчики запустили независимую платформу Arena, где постоянно ведутся состязания нейросетей, а судьями становятся обычные пользователи. Они задают вопросы, получают ответы и решают, какой результат им нравится больше.
Для более быстрого сбора обратной связи разработали методику LLM-as-a-judge. Она предполагает, что ИИ-судья пытается определить, кем является собеседник, или анализирует ответы 2 нейросетей и выбирает более качественные варианты. Данная технология стала популярна как дополнение к Arena, но не может стать основной методикой из-за 3 недостатков:
- LLM модели в роли судей чаще отдают предпочтения первому ответу при попарном сравнении независимо от качества.
- Судьям больше нравятся длинные ответы, даже если они имеют содержательные неточности.
- LLM-judge имеет ограниченные способности к рассуждению.
Разработчики данной методики исследования обнаружили, что LLM-as-a-judge с применением GPT-4 и без попарного сравнения позволяет эффективно ранжировать модели.
Также стоит подробнее рассмотреть 2 основных теста для анализа: MT-Bench и Arena.
В чем особенности MT-Bench?
MT-Bench — тщательно разработанный тест из 80 вопросов, требующих от нейросети ответов, соответствующих требованиям многооборотного диалога. Вопросы разработаны для оценки хода беседы возможностей моделей следовать инструкциям в многооборотных диалогах. Они включают в себя как общие варианты использования, так и сложные инструкции, призванные отличать чат-ботов.
Стоит отметить, что вопросы были придуманы в наиболее популярных среди пользователей категориях:
- Письмо.
- Ролевые игры.
- STEM (естественные науки, технология, инженерия и математика).
- Программирование.
- Гуманитарные и социальные науки.
- Рассуждения.
Для каждой категории создано по 10 вопросов, которые позволяют оценить большие языковые модели. Ниже представлены примеры вопросов. Как показано в таблице, нейросети должны запоминать контекст и придерживаться его, поскольку второй вопрос основывается на первом
MT-Bench позволяет эффективно определять способности чат-ботов и сравнивать результаты без попарного анализа. При этом она рассматривает не только качество ответов, но и производительность
Чтобы глубже разобраться в факторах, отличающих чат-ботов, стоит выбрать несколько языковых моделей ИИ. Они представлены на картинке ниже. К примеру, GPT-4 демонстрирует превосходную производительность в кодировании и рассуждениях по сравнению с GPT-3.5 / Claude, а Vicuna-13B значительно отстает в нескольких конкретных категориях: извлечение, кодирование и математика.
В чем особенности Arena
Разработчики LMSYS Org обнаружили, что регулярно выходят новые языковые модели искусственного интеллекта, включая некоммерческие проекты с ограниченными ресурсами. При этом крайне сложно написать программу для автоматического исследования нейронных сетей. Даже MT-Bench, созданный LMSYS Org, не идеален. Чтобы получить более точные результаты проверок, компания разработала платформу Arena. На ней пользователи могут пообщаться с нейросетями. Пример проверки:
- Человек переходит на сайт Arena.
- Задает вопрос. Ограничений нет. Можно спросить даже про философию или, например, «Ты меня любишь?», если стало одиноко. При этом изначально пользователь не знает, с какими ИИ общается.
- В 2 окнах появляются ответы.
- Тестировщик выбирает, какой лучше или оба ответа одинаково хороши или плохи.
Данный тест позволяет более точно и детально изучить проекты. Сравнение нейросетей на Arena отвечает 3 требованиям проверки:
- Масштабируемость. Arena может масштабироваться до бесконечности с минимальными временными затратами. По мнению разработчиков, данная система проверки не требует подготовки данных для всех возможных пар моделей, поскольку все зависит от пользователей.
- Постепенность. Arena способна оценить новую модель с небольшим количеством испытаний.
- Уникальный заказ. Система проверки должна уметь оценивать качество работы 2 разных моделей с любыми запросами.
Существующие системы тестирования LLM редко удовлетворяют всем этим характеристикам. Классические платформы для тестирования магистров права, такие как HELM и lm-evaluation-harness, обеспечивают многометрические измерения для задач, обычно используемых в академических исследованиях. Однако они не основаны на попарном сравнении и неэффективны при оценке открытых вопросов. OpenAI также запустила проект evals для сбора более качественных вопросов, но этот проект не предоставляет механизмов ранжирования для всех участвующих моделей.
Арена чат-ботов использует рейтинговую систему Elo, которая широко используется в шахматах и других соревновательных играх. Elo обещает обеспечить желаемое свойство, упомянутое выше. Разработчики заметили, что в популярном исследовании Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback также применена эта рейтинговая система, поэтому внедрили ее для оценки.
В первую неделю Arena получила более 4,7 тыс. действительных анонимных голосов. Сейчас их уже более 105 тысяч, результаты видны на картинке ниже
.
Сейчас Arena используют в паре с MT-Bench для проведения комплексного и в то же время справедливого анализа больших языковых моделей LLM. Используя оба теста, можно выявлять различные баги, неточности, нарушения установленных ограничений (например, не говорить о политике) и другие проблемы.
Лучшие нейросети 2023 года: ТОП-6 лидеров
На сайте LMSYS Org есть специальная страница, на которой проведено сравнение нейросетей и в таблице ИИ ранжированы по оценкам за оба разобранных теста, а также по результатам MMLU (Massive Multitask Language Understanding). Рассмотрим 6 лучших чат-ботов, по версии LMSYS Org.
GPT-4
GPT-4 — последняя технология OpenAI, которая представляет собой масштабную мультифункциональную модель. Она способна анализировать данные, создавать программный код, выдавать текст и т. д. Хотя она находится в технологическом авангарде, пока GPT-4 уступает человеческим возможностям во многих сценариях. Это признают разработчики и доказывают результаты тестирований.
Результаты MT-Bench:
- Writing — 9,6.
- Humanities — 9,9.
- RolePlay — 9.
- STEM — 9,7.
- Extraction — 9,3.
- Coding — 8,5.
- Math — 6,8.
- Reasoning — 9.
Данные искусственного тестов показывают, что пока нейросеть сравнительно плохо разбирается в математике и кодировании. Однако она достигла максимальных результатов в рассуждениях и гуманитарных науках, а также хорошо показала себя в ролевых играх.
А оценка GPT-4 за успехи на Arena составляет 1211 баллов. Это означает, что пока данный чат-бот стал наиболее человечным и выдает самые качественные ответы на запросы пользователей.
GPT-3.5-turbo
Это улучшенная версия предыдущего алгоритма OpenAI, который по большинству параметров не уступает новому GPT-4. В обычном разговоре уловить различия крайне сложно. Существенной разница станет только при работе со сложными задачами. GPT-3.5-turbo менее надежен и креативен, а также не понимает тонкие инструкции.
Результаты MT-Bench:
- Writing — 9,2.
- Humanities — 9,5.
- RolePlay — 8,4.
- STEM — 8,7.
- Extraction — 8,8.
- Coding — 6,9.
- Math — 6,3.
- Reasoning — 5,7.
В целом, результаты большой языковой модели LLM сильно уступают GPT-4 по ряду параметров. Отчетливо виден разрыв между версиями в рассуждениях. GPT-3.5-turbo сложнее даются развернутые ответы на философские вопросы.
Отдельно стоит отметить, что данная нейросеть уступает не только на английском языке. OpenAI провел собственное исследование на 26 языках. GPT-4 превосходит по производительности «старшего брата» на 24 языках, включая латышский, тайский, о которых чат-боты в принципе мало данных.
На Arena GPT-3.5-turbo занимает почетное четвертое место с 1124 баллами. Тестирование с привлечением людей показала определенные проблемы нейросети. Среди них чаще всего пользователи сталкивались с неточными и предвзятыми ответами.
Claude-v1
Claude — ИИ-помощник нового поколения, который создан с опорой на исследования Anthropic по обучению полезных, честных и безвредных систем искусственного интеллекта. Данная нейросеть может отвечать на вопросы, поддерживать беседу, кодировать, обрабатывать текстовые данные. Как пишут разработчики, Claude отличается высокой степенью управляемости и предсказуемости. Пользователи с меньшими трудностями могут добиться желаемого результата.
Результаты MT-Bench:
- Writing — 9,8.
- Humanities — 9,7.
- RolePlay — 8,6.
- STEM — 9,7.
- Extraction — 9.
- Coding — 6,1.
- Math — 4,8.
- Reasoning — 6.
Разработчики презентовали Claude-v1 как нейросеть нового поколения, но по некоторым метрикам она уступает даже GPT-3.5-turbo. В целом, она неплохо справляется с написанием текстов, разговорами на гуманитарные темы и ролевыми играми. Однако хорошо видны проблемы с математическими задачами и кодированием. В данных областях GPT-3.5-turbo показал себя значительно лучше.
Хотя есть проблемы с MT-Bench, на Arena нейросеть Claude показала себя лучше. Она заняла вторую строчку с 1169 баллами. Это неплохой результат, поскольку от лидера ТОПа Claude отстал всего на 42 ELO.
Claude-instant-v1
Claude Instant — это стандартный Claude, но «без стероидов». Он обладает теми же функциями, включая кодирование, обработку текстовых данных и т. д. Его особенность — ускоренная работа. Instant быстрее обрабатывает данные, но чаще ошибается. Это практически незаметно по результатам MT-Bench и Arena.
Результаты первого теста:
- Writing — 9,8.
- Humanities — 9,7.
- RolePlay — 8,6.
- STEM — 9.7.
- Extraction — 9.
- Coding — 6,1.
- Math — 4,8.
- Reasoning — 5,95.
Отставание от другой версии составляет всего 5 сотых в одном направлении. На Arena их показатели также близки: Instant получил 1145, а стандартный Claude — 1169 баллов.
Vicuna-33B
Vicuna — это нейросеть, которую создали специально для проведения исследований языковых моделей. Основными пользователями считаются аналитики и разработчики. Хотя она создана для тестирования других нейросетей, пока Vicuna-33B, которая считается лучшей версией, сильно уступает конкурентам.
MT-Bench:
- Writing — 9,5.
- Humanities — 9,4.
- RolePlay — 8.
- STEM — 8,5.
- Extraction — 7,3
- Coding — 3,8.
- Math — 4.
- Reasoning — 6,5.
По результатам Arena Vicuna-33B получила 1096 ELO. Это сравнительно неплохой результат, однако практически незаметно развитие нейросети. К примеру, устаревшая версия Vicuna-13B получила 1055 ELO.
WizardLM 30B
WizardLM 30B — некоммерческая языковая модель с 30 млрд параметров. Для ее обучения используют специальный датасет, который позволил разработчикам убрать любые ограничения и цензуру. Из-за этого WizardLM 30B одинаково хорошо подходит для выполнения любых задач. С помощью чат-бота можно писать даже книги с эротикой (GPT-4 здесь точно проигрывает).
Однако по результатам тестов она занимает только 6-ое место. MT-Bench:
- Writing — 9,4.
- Humanities — 9,4.
- RolePlay — 7,8.
- STEM — 8,8.
- Extraction — 7,3
- Coding — 3,4.
- Math — 4.
- Reasoning — 6,5.
WizardLM 30B практически не отстает от Vicuna. Разница составляет всего 0,11 ELO. Сравнить результаты Arena не получилось, поскольку в открытых источниках нет информации. Можно предположить, что по этому параметру отставание также не превышает 1–3% от ближайшего конкурента.
Заключение
Нейронные сети — сложная технология, которая находится на стыке нейробиологии и программирования. Разработчики пытаются создать цифровое подобие человеческого мозга. Как и любая технология в начале своего развития, чат-боты сталкиваются со множеством проблем. А из-за их масштабности найти ошибку не так просто, как хотелось бы.
Чтобы вовремя обнаруживать проблемы и корректировать обучение, необходимо проводить тесты с использованием как других нейросетей, так и людей. При этом развитие чат-ботов не останавливается даже после выпуска проекта. Они постоянно обучаются на пользовательских запросах и ответах. Тестирование нужно проводить регулярно, чтобы удерживать предсказуемость нейросети на высоком уровне и достичь естественной человеческой речи.