Вы здесь ▸ Исследования ▸
Продолжаем оценивать эволюцию качества авторских текстов: записи блога
Продолжаем оценивать эволюцию качества авторских текстов, начатую в статье Как оценить эволюцию качества авторских текстов? Сейчас мы увидим, как некоторые важные показатели – удобочитаемость, семантическое сходство и смысловая нагрузка – меняются у записей в моем блоге. Я считаю естественным желание автора улучшать тексты своих трудов, включая любые тексты: научные статьи в академическом стиле, научно-популярные статьи, записи блога, учебные работы, техническую документацию и т.п. Поэтому мне было бы интересно посмотреть как меняется качество текстов блога этого сайта. Улучшаю ли я эти тексты, как автор, или нет?
Описание эксперимента
Объектом этого исследования были выбраны записи моего блога (того, что вы читаете сейчас) за период с 2022 по 2023 год. Количество записей – 135. Для анализа текстов использовалось приложение Текстоматика, анализировался текст каждого документа. Как и ранее, модель оценки включала три показателя:
- Удобочитаемость. Сложность восприятия текста. Интерпретируется по шкале уровня образования читателя, которому текст будет доступен для понимания. Чем выше значение показателя, тем сложнее текст. Мы используем этот метод.
- Семантическое сходство. Смысловое сходство, похожесть, близость текста документа с текстами других документов. Чем выше значение показателя, тем более текст похож на другие тексты той же самой тематики. Мы используем модель Gensim + Dov2Vec.
- Смысловая нагрузка. Доля элементов текста без смысловой нагрузки (стоп-слов, фразеологизмов, соединительных единиц, усилителей и т.п.). Чем выше значение показателя, тем больше текст перегружен лишними словами.
На трех графиках ниже представлена динамика изменения значений этих показателей по годам месяцам публикации записей. Значения показателей нормализованы, то есть приведены к диапазону 0…1. Красной линией показан тренд (линейная регрессия).
Обсуждение результатов
- Значение показателя “Удобочитаемость текста” за весь период наблюдения незначительно снижалось. Это означает, что сложность восприятия записей моего блога хотя и медленно, но снижается.
- Значение показателя “Семантическое сходство текстов” за весь период наблюдения практически остается на том же уровне. Причем довольно невысоком. Это означает, что степень уникальности текстов статей автора стабильна. Автор старается не повторяться в записях одной тематики.
- Значение показателя “Смысловая нагрузка текста” за весь период наблюдения повышалось. Это означает сокращение бессмысленных слов и выражений в текстах блога автора. Тексты все больше становятся текстами по существу рассматриваемых в них вопросов.
Заключение
Также интересно было бы проверить, как соотносятся показатели качества текстов академических статей и записей блога. Буду готовить материалы.