Яндекс запустил Lite-версию генеративной текстовой модели YandexGPT 3

YandexGPT 3 — последняя линейка генеративных моделей Яндекса. Она хорошо подходит для применения в ИТ-продуктах и для других бизнес-задач. При этом компании могут дообучать её на собственных примерах. YandexGPT 3 Lite — это облегчённая версия генеративной модели Яндекса нового поколения.

Yandex GPT 3 Lite
Применение

YandexGPT 3 Lite подходит для разных типов бизнеса, от небольших компаний до крупных организаций. Она уже доступна на облачной платформе Yandex Cloud. Клиенты могут протестировать её и плавно внедрить в свои продукты через API в сервисе Foundation Models. Стоимость использования YandexGPT 3 Lite — 20 копеек за тысячу токенов. Новые пользователи Yandex Cloud смогут бесплатно протестировать её в демо-режиме.

Нейросеть хорошо показывает себя в сценариях, где важны время реакции и оптимизация затрат, то есть позволяет решать простые задачи бизнеса в режиме реального времени. Например:

  • Бот-консультант на сайте в чате или по телефону
  • Система подсказок и подготовки ответов для операторов call-центров
  • Суммаризатор результатов – создание маркетинговых материалов или дайджеста рабочих встреч
  • Анализ данных, необходимых для принятия решений
Сравнение с YandexGPT 2 Lite

По данным замеров новая модель по многим параметрам превосходит YandexGPT 2 Lite — облегчённую модель предыдущего поколения. По итогам теста YaMMLU_ru (русскоязычной версии международного эталонного теста MMLU), новая модель даёт на 6 п.п. больше верных ответов, чем модель предыдущего поколения. Модели сравнивали также по методике Side by Side: нейросети отвечали на одни и те же вопросы, а эксперты выбирали лучший ответ. В среднем YandexGPT 3 Lite отвечала лучше, чем YandexGPT 2 Lite, в 68% случаев. Эксперты оценивали также, насколько хорошо новая модель справляется с задачами классификации, генерации контента, ответами на вопросы и другими основными типами бизнес-задач. Новая модель допускает меньше орфографических и фактических ошибок, чем модель второго поколения YandexGPT 2 Lite.

Особенности обучения

Для создания новой модели разработчики усовершенствовали все этапы обучения. В частности, улучшили отбор данных для предварительного этапа обучения (pretraining), повысив долю полезной информации. А кроме того, стали использовать на этом этапе технологию curriculum learning, позволяющую поэтапно усложнять данные. На втором этапе обучения (alignment, или выравнивание модели), включающем в себя обучение с подкреплением (reinforcement learning), улучшили модель для оценки качества ответов нейросети. Кроме того, в архитектуру нейросети добавили технологию Grouped Query Attention. Она ускоряет обработку данных без потери качества. Ключевые этапы обучения модели — это выравнивание (Alignment), включающее в том числе стадию обучения с подкреплением (RL). В статье на Хабре приводятся детали реализации Alignment и RL.


Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *