Интеллектуальный анализ текстовых документов и баз данных: проекты, экспертиза, исследования, консультации, публикации. Надеюсь, что мои достижения привлекут внимание и дадут повод для совместной работы.
Вы здесь ▸
Технологии и инструменты ▸ Как самостоятельно выбрать лучший текст? Например, учебник или роман.
Интеллектуальный анализ текстовых документов и баз данных: проекты, экспертиза, исследования, консультации, публикации. Надеюсь, что мои достижения привлекут внимание и дадут повод для совместной работы.
Как самостоятельно выбрать лучший текст? Например, учебник или роман.
Ранее мною было показано, что можно обоснованно и самостоятельно выбрать лучший текст из нескольких имеющихся, не используя запредельных технологий. Например, выбрать учебник для рекомендаций студентам или для самоподготовки. Ну, или роман для прочтения, похожий на недавно прочитанный и понравившийся текст. А здесь я покажу, как можно выполнить эту приятную работу без программирования с помощью приложения Текстоматика. При этом не надо писать программы на Python по приведенным рекомендациям.
Еще раз подчеркну, что задача выбора подходящего текстового материала достаточно типична. Под термином “подходящий” в данном случае я имею в виду материал, похожий по содержанию на некоторый эталон. Например, описание какого-либо интересного занятия, тематический план для самообразования, рабочая программа по учебной дисциплине, понравившаяся книга и т.п. Понятно, что сделанный выбор будет предварительным, более точное мнение о выбранном тексте можно сформулировать, начав его читать. 😉
В настоящей статье я рассказываю как можно самостоятельно выбрать учебник по базам данных. Порядок действий приведен ниже.
Выбор учебников для сравнения с эталоном
Учебники — это файлы в форматах docx, pdf или txt. А эталон в нашем случае это рабочая программа дисциплины “Базы данных”. Например, может подойти эта.
Загрузка документов
Итак, загрузка документов. Ее можно выполнить после запуска приложения Текстоматика и авторизации в нем. Используйте блок “Загружайте документы” на начальной странице или меню “Документы/Загрузить”. На форме загрузки категорию для загружаемых документов (например, “Базы данных”) и при необходимости теги (например, “Учебник”). Потом согласно инструкции нажмите кнопку “Выбрать файлы”, выберите файлы, сделайте описание документов и нажмите кнопку “Загрузить”.
Одновременно можно выбрать и загрузить несколько файлов. Для дополнительной информации используйте справку — значок рядом с полем формы. Загрузка небыстрый процесс, файлы подвергаются серьезному анализу. Поэтому наберитесь терпения.
Видео загрузки документов
Выбор модели оценки
Использование модели оценки документов обязательно для того, самостоятельно выбрать лучший текст. Для выбора модели используйте блок “Выбирайте модель оценки” на начальной странице или меню “Документы/Выбрать модель”. Если Вы уже создали модель ранее, то отметьте ее в списке и нажмите кнопку “Выбрать”. А если модели нет, то ее нужно создать — нажмите кнопку “Создать”.
На форме создания модели ее можно создать самостоятельно, но лучше использовать стандартную. Нажмите кнопку “Предопределенную модели” и выберите модель “ПОМ_Сходство_документов”. Введите имя модели и исправьте ее описание (если необходимо). Модель включает единственный индикатор оценки для оценки документов – “Семантическое сходство”. Параметры модели можно оставить те, что заданы по умолчанию (их можно изменить позже). Нажмите кнопку “Сохранить”. Вы увидите, что модель появилась в списке и она уже отмечена. Нажмите кнопку “Выбрать”.
Видео выбора модели оценки документов
Настройка модели и оценка документа
После выбора модели для оценки Вы переходите к списку документов. Другие способы выйти на этот список — использовать блок “Оценивайте документы” на начальной странице или меню “Документы/Показать все”. Важный момент — мы будем оценивать эталон. Индикатор “Семантическое сходство” позволяет оценить семантическое или смысловое сходство, похожесть, близость текста эталона с текстами других документов данной категории — “Базы данных” в нашем случае. Поэтому отмечаем документ “Рабочая программа дисциплины…”, нажимаем на кнопку “Далее” (или “Оценить”) и переходим к форме для настройки модели оценки.
Здесь можно изменить значения параметров модели. Обычно это “Вес”, “Ключевой параметр”, “Обучить модель”, “Документов для обучения”, “Документов для сравнения”. Изменим их. Значения других параметров подбираются из опыта использования приложения, сейчас оставляем их без изменений. Нажимаем на кнопку “Оценить”. Запускается процесс оценки документа. Через некоторое время появляются результаты.
Видео настройки модели и оценки документа
Просмотр и анализ результатов
На странице результатов Вы видите название оцененного документа, имя модели оценки, категорию и теги документа, дата и время оценки. Далее идет строка по показателю: название показателя, оценки по шкалам (нормализованной, Харрингтона, классической российской), вес показателя, значение и ссылка на рекомендации.
Кликнув по этой ссылке, видим сообщение, что “Степень уникальности содержания документа неудовлетворительна. Необходимо серьезно переработать документ, исключив необоснованные заимствования.” Вообще говоря, в нашем случае это нормально, мы не проверяем уникальность текста рабочей программы, а оцениваем ее относительное сходство с учебниками. Но можно исключить это пугающее сообщение. Для этого нужно установить в параметрах модели диапазон нормативных значений. Например, установить верхнее значение равное 1.0. По умолчанию установлено 0.95. В любом случае кликаем ссылку “Наиболее похожие документы”.
Видим список учебников и их степень сходства с рабочей программой. Делаем предварительный вывод, что учебник в первой строке списка наиболее соответствует содержанию рабочей программы. Поставленная задача самостоятельно выбрать лучший текст решена. Результаты оценки можно распечатать на память.