Вы здесь ▸ Технологии и инструменты ▸
Яндекс запустил Lite-версию генеративной текстовой модели YandexGPT 3
YandexGPT 3 — последняя линейка генеративных моделей Яндекса. Она хорошо подходит для применения в ИТ-продуктах и для других бизнес-задач. При этом компании могут дообучать её на собственных примерах. YandexGPT 3 Lite — это облегчённая версия генеративной модели Яндекса нового поколения.
Применение
YandexGPT 3 Lite подходит для разных типов бизнеса, от небольших компаний до крупных организаций. Она уже доступна на облачной платформе Yandex Cloud. Клиенты могут протестировать её и плавно внедрить в свои продукты через API в сервисе Foundation Models. Стоимость использования YandexGPT 3 Lite — 20 копеек за тысячу токенов. Новые пользователи Yandex Cloud смогут бесплатно протестировать её в демо-режиме.
Нейросеть хорошо показывает себя в сценариях, где важны время реакции и оптимизация затрат, то есть позволяет решать простые задачи бизнеса в режиме реального времени. Например:
- Бот-консультант на сайте в чате или по телефону
- Система подсказок и подготовки ответов для операторов call-центров
- Суммаризатор результатов – создание маркетинговых материалов или дайджеста рабочих встреч
- Анализ данных, необходимых для принятия решений
Сравнение с YandexGPT 2 Lite
По данным замеров новая модель по многим параметрам превосходит YandexGPT 2 Lite — облегчённую модель предыдущего поколения. По итогам теста YaMMLU_ru (русскоязычной версии международного эталонного теста MMLU), новая модель даёт на 6 п.п. больше верных ответов, чем модель предыдущего поколения. Модели сравнивали также по методике Side by Side: нейросети отвечали на одни и те же вопросы, а эксперты выбирали лучший ответ. В среднем YandexGPT 3 Lite отвечала лучше, чем YandexGPT 2 Lite, в 68% случаев. Эксперты оценивали также, насколько хорошо новая модель справляется с задачами классификации, генерации контента, ответами на вопросы и другими основными типами бизнес-задач. Новая модель допускает меньше орфографических и фактических ошибок, чем модель второго поколения YandexGPT 2 Lite.
Особенности обучения
Для создания новой модели разработчики усовершенствовали все этапы обучения. В частности, улучшили отбор данных для предварительного этапа обучения (pretraining), повысив долю полезной информации. А кроме того, стали использовать на этом этапе технологию curriculum learning, позволяющую поэтапно усложнять данные. На втором этапе обучения (alignment, или выравнивание модели), включающем в себя обучение с подкреплением (reinforcement learning), улучшили модель для оценки качества ответов нейросети. Кроме того, в архитектуру нейросети добавили технологию Grouped Query Attention. Она ускоряет обработку данных без потери качества. Ключевые этапы обучения модели — это выравнивание (Alignment), включающее в том числе стадию обучения с подкреплением (RL). В статье на Хабре приводятся детали реализации Alignment и RL.