Вы здесь ▸ Образование ▸
Как оценить эволюцию качества авторских текстов?
Эффективное представление результатов научных исследований имеет значение. Причина очевидна: понимание инвесторами, заказчиками, коллегами, клиентами работы исследователя есть залог долговременного и плодотворного сотрудничества. Один из способов донести свои идеи, подходы, методики, модели, расчеты до партнера – это грамотный текстовый материал. Когда мы готовим статью, отчет, обзор, реферат, препринт и т.п. естественно стремиться к читаемости, понятности, уникальности, осмысленности текста. Отмечу ожидаемое и опять же естественное желание автора совершенствовать тексты своих трудов. Как можно понять итог этого совершенствования? Что реально улучшается? На какие стороны текста следует обратить особое внимание? Каковы тенденции процесса подготовки авторских текстов с точки зрения их презентационности? Какова в целом эволюция качества текстов автора? В этом посте я описываю мое небольшое исследование по данной теме и показываю, как можно обоснованно, доказательно и не слишком трудоемко ответить на эти вопросы.
Описание эксперимента
Объектом этого исследования были выбраны мои собственные статьи, написанные в период с 1991 по 2023 год. Количество статей – 75. В реальности их значительно больше, полный список см. здесь. Для анализа текстов использовалось приложение Текстоматика, анализировался текст каждого документа. Модель оценки включала три показателя:
- Удобочитаемость. Сложность восприятия текста. Интерпретируется по шкале уровня образования читателя, которому текст будет доступен для понимания. Чем выше значение показателя, тем сложнее текст. Мы используем этот метод.
- Семантическое сходство. Смысловое сходство, похожесть, близость текста документа с текстами других документов. Чем выше значение показателя, тем более текст похож на другие тексты той же самой тематики. Мы используем модель Gensim + Dov2Vec.
- Смысловая нагрузка. Доля элементов текста без смысловой нагрузки (стоп-слов, фразеологизмов, соединительных единиц, усилителей и т.п.). Чем выше значение показателя, тем больше текст перегружен лишними словами.
На графиках ниже представлена динамика изменения значений этих показателей по годам написания статей. Значения показателей нормализованы, то есть приведены к диапазону 0…1. Красной линией показан тренд (линейная регрессия).
Обсуждение результатов
- Значение показателя “Удобочитаемость текста” за весь период наблюдения повышалось. Это означает, что сложность восприятия текстов статей автора возрастает. Ничего удивительного, сложность тематики самих статей очевидным образом повышается.
- Значение показателя “Семантическое сходство текстов” за весь период наблюдения также повышалось. Это означает, что степень уникальности текстов статей автора уменьшается. Здесь можно смягчить приходящий на ум негативный вывод тем, что статьи автора отражают продолжающиеся исследования в определенной области. Автор вынужден частично повторяться в текстах, чтобы обеспечить связность и преемственность изложения.
- Значение показателя “Смысловая нагрузка текста” за весь период наблюдения снижалось. Это означает некоторое увеличение незначащих слов и выражений в текстах статей автора. По всей вероятности, автор стремится к большей “литературности” текстов статей, надеясь улучшить их восприятие. Пока это не удается – см. динамику показателя “Удобочитаемость текста”.
Заключение
А вот интересно было бы проверить, как выглядят с этой точки зрения статьи автора в данном блоге? Сделаем это в ближайшем будущем.