Продолжаю оценивать качество резюме текста с помощью модели Doc2Vec библиотеки Gensim

Я продолжаю эксперименты, позволяющие оценить качество резюмирования текста. Метод, который является предметом экспериментов – это вычисление семантического сходства текстов с помощью модели Doc2Vec библиотеки Gensim. При этом появляется возможность получить количественное значение показателя степени отражения в резюме основных мыслей исходного документа. В данном материале я повторяю серию экспериментов, описанных ранее, но с другими данными. Этими данными является исходный документ и несколько резюме, сгенерированные различными языковыми моделями.

Технология резюмирования текстов sumy

Новая задача
Настройка и обучение Doc2Vec
Результаты оценки качества резюме
Обсуждение результатов
Примечания
И что дальше?

Новая задача

Здесь описывалось решение задачи оценки семантического сходства каждого из 13-ти резюме, сгенерированных различными алгоритмами, с текстом исходного стихотворения А.А. Блока. В результате мы определили качество резюмирования и сравнили с субъективными (пока только моими) оценками. Для решения задачи использовалась модель Doc2Vec библиотеки Gensim. Ниже описывается решение той же задачи, но с другими текстами, с которыми я также работал при сравнении моделей для резюмирования текстов [123]. Это текст общего описания приложения Текстоматика и тексты 13-ти резюме, сгенерированных теми же алгоритмами.

Настройка и обучение Doc2Vec

Наборы данных для обучения модели:

  • DS1 – исходный текст и тексты всех сгенерированных резюме (14 документов).
  • DS2 – тексты DS1 и текст статьи той же тематики (1 документ).
  • DS3 – тексты DS2 и текст другой статьи той же тематики (1 документ).
  • DS4 – тексты DS3 и текст третьей статьи той же тематики (1 документ).
  • DS5 – тексты DS4 и тексты статей из Википедии: [1], [2], [3], [4] (4 документа).

Эти пять наборов данных (всего 21 документ) были использованы для подбора значений гиперпараметров модели. Основные гиперпараметры следующие: количество итераций процедуры обучения (эпох) – 200, размер вектора документа – 300, минимальная частота активных слов – 2, скорость обучения – 0.025.

Процедура подготовки исходных данных, обучения и оценки качества модели стандартные для Doc2Vec. Как и в первой части исследования, я не привожу здесь исходных кодов на Python. Они достаточно просты и соответствуют руководствам разработчиков.

Результаты оценки качества резюме
Результаты оценки качества резюме c Doc2Vec библиотеки Gensim
Обсуждение результатов
  • На графике видно, что, начиная с набора DS3 (модель оценки резюме d2v_model_ds_1_3.mdl), значение показателя сходства резюме и исходного текста стабилизируется.
  • Разброс значений показателя семантического сходства резюме и исходного текста для всех моделей (за исключением rubert_telegram_headlines) не велик: в пределах 0.2.
  • Первые пять мест по убыванию эффективности заняли модели sumy : LSALexRank, LuhnTextRank, KL Divergence. Мои оценки в исследовании: LexRank – 4, Luhn – 3, LSA – 2, TextRank – 2, KL Divergence – 2. Недооценил LSA, остальное полностью совпадает. Все-таки нужна статистика по экспертным оценкам.
  • По группе специализированных нейросетей для суммаризации текста порядок по убыванию эффективности следующий: rut5_base_absum, mT5_multilingual_XLSum, mbart_ru_sum_gazeta, t5_summary_en_ru_zh_base_2048, rubert_telegram_headlines. Мои оценки в исследовании: mbart_ru_sum_gazeta – 3, rut5_base_absum – 3, mT5_multilingual_XLSum – 2, t5_summary_en_ru_zh_base_2048 – 2, rubert_telegram_headlines – 1. Здесь я переоценил mbart_ru_sum_gazeta, остальное полностью совпадает. Аналогично предыдущему пункту – нужна статистика по экспертным оценкам.
  • По группе LLM порядок по убыванию эффективности следующий: GigaChat, YandexGPT, GPT4. Моя оценка в исследовании:GPT4 – 5, GigaChat – 4, YandexGPT – 3. Статистика по экспертам!
  • Несмотря на то, что значения оценок близки, адекватная дифференциация возможна. Это дает основание использовать подход Gensim + Doc2Vec для оценки качества суммаризации текстов.
Примечания

Модель Doc2Veb уже использовалась мною при разработке приложения Текстоматика. Показатели качества текстов Соответствие содержания и Семантическое сходство вычисляются с ее помощью.

Также отмечу актуальность используемых инструментов. На YandexGPT ответил: Библиотека Gensim действительно современная и активно используется в области анализа текста. Она предоставляет инструменты для обработки естественного языка, тематического моделирования и других задач.

И что дальше?

Мы убедились, что использование Gensim + Doc2Vec для оценки качества суммаризации текстов дает результаты. Насколько можно им доверять? Чтобы проверить это мы должны:

  • Увидеть влияние гиперпараметров модели Doc2Veb на качество ее обучения. И подобрать лучшие их сочетания.
  • Количественно оценить эффективность обученной модели Doc2Veb при вычислении показателя семантического сходства текстов.


Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *