Вы здесь ▸ Исследования ▸
Технологии работы с текстом. Актуально?
Корпорация Microsoft сообщила о разработке GraphRAG — методологии улучшенного извлечения данных для генерации текста из определенных источников (RAG). Подробности см. на странице проекта и в статье.
GraphRAG использует графы знаний для улучшения ответов на запросы. Во время запроса система обращается к графу знаний и использует резюме сообществ и связи между сущностями для формирования контекста. При этом считается, что этот улучшенный контекст помогает LLM дать более точный ответ, чем традиционные методы, основанные на поиске по метрикам векторного сходства.
Архитектура GraphRAG состоит из ключевых компонентов:
- Indexer : разделяет корпус текстовых данных на мелкие текстовые блоки (TextUnits), извлекает из них сущности, связи и ключевые утверждения.
- Clustering : группирует данные в иерархическую структуру. Для создания графа знаний используется метод Лейдена.
- Community Summarization : генерирует обобщенные описания для каждой группы данных, что помогает в понимании контекста и смыслового связывания всей информации.
- Knowledge Graph : структура, объединяющая сущности и их связи, созданная на основе обобщенных описаний.
GraphRAG значительно улучшает работу языковых моделей с локальными частными данными, позволяя им более точно и полно отвечать на сложные вопросы, требующие синтеза информации из разных источников.
⚠️ Рекомендации и предупреждения
- Эффективность индексации зависит от правильной идентификации понятий.
- Индексация может быть дорогостоящей, рекомендуется создание тестового набора данных.
- Система предназначена для пользователей, имеющих опыт в предметной области.
- Необходим анализ ответов человеком для получения достоверной информации.
- Методология наиболее эффективна на текстовых данных с общей темой и множеством сущностей.
Документация
Github для запуска на API Azure
Заключение
Зачем я написал об этой технологии? Есть распространенные, принимаемые как безусловная данность и часто встречаемые мнения.
Во-первых, утверждается, что у потребителей текстовый контент в значительной степени вытесняется другими видами контента: изображение, анимация, видео, аудио и т.п. То есть, тексты если и читают, то значительно меньше, чем ранее.
Во-вторых, считается, что и производители контента ориентированы прежде всего на мультимедиа, где доля текста минимизируется.
Эти два утверждения естественно связаны. Понятно, что здесь мы встречаемся с дилеммой курицы и яйца, имея в виду причинно-следственную связь между производимым и потребляемым контентом. Но суть обоих утверждения одна: роль текста в информационных коммуникациях уменьшается.
По всей видимости это не так. Работа одной из крупнейших IT-корпораций, один из многочисленных результатов которой, кратко описан выше, подтверждает это.
Контекст поста позволяет рекомендовать познакомиться с приложением Текстоматика, разработанного для интеллектуального анализа текстовых документов.