Технологии работы с текстом. Актуально?

Корпорация Microsoft сообщила о разработке GraphRAG — методологии улучшенного извлечения данных для генерации текста из определенных источников (RAG). Подробности см. на странице проекта и в статье.

GraphRAG использует графы знаний для улучшения ответов на запросы. Во время запроса система обращается к графу знаний и использует резюме сообществ и связи между сущностями для формирования контекста. При этом считается, что этот улучшенный контекст помогает LLM дать более точный ответ, чем традиционные методы, основанные на поиске по метрикам векторного сходства.

GraphRAG — методология улучшенного извлечения данных для генерации текста

Архитектура GraphRAG состоит из ключевых компонентов:

  • Indexer : разделяет корпус текстовых данных на мелкие текстовые блоки (TextUnits), извлекает из них сущности, связи и ключевые утверждения.
  • Clustering : группирует данные в иерархическую структуру. Для создания графа знаний используется метод Лейдена.
  • Community Summarization : генерирует обобщенные описания для каждой группы данных, что помогает в понимании контекста и смыслового связывания всей информации.
  • Knowledge Graph : структура, объединяющая сущности и их связи, созданная на основе обобщенных описаний.

GraphRAG значительно улучшает работу языковых моделей с локальными частными данными, позволяя им более точно и полно отвечать на сложные вопросы, требующие синтеза информации из разных источников.

⚠️ Рекомендации и предупреждения
  • Эффективность индексации зависит от правильной идентификации понятий.
  • Индексация может быть дорогостоящей, рекомендуется создание тестового набора данных.
  • Система предназначена для пользователей, имеющих опыт в предметной области.
  • Необходим анализ ответов человеком для получения достоверной информации.
  • Методология наиболее эффективна на текстовых данных с общей темой и множеством сущностей.
Документация

Локальный запуск

Конфигурирование

Эмулятор Azurite

Github

Github для запуска на API Azure

Заключение

Зачем я написал об этой технологии? Есть распространенные, принимаемые как безусловная данность и часто встречаемые мнения.

Во-первых, утверждается, что у потребителей текстовый контент в значительной степени вытесняется другими видами контента: изображение, анимация, видео, аудио и т.п. То есть, тексты если и читают, то значительно меньше, чем ранее.

Во-вторых, считается, что и производители контента ориентированы прежде всего на мультимедиа, где доля текста минимизируется.

Эти два утверждения естественно связаны. Понятно, что здесь мы встречаемся с дилеммой курицы и яйца, имея в виду причинно-следственную связь между производимым и потребляемым контентом. Но суть обоих утверждения одна: роль текста в информационных коммуникациях уменьшается. По всей видимости это не так. Работа одной из крупнейших IT-корпораций, один из многочисленных результатов которой, кратко описан выше, подтверждает это. Контекст поста позволяет рекомендовать познакомиться и с приложением Текстоматика, разработанного для интеллектуального анализа текстовых документов.


Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *