Анализ текстов на заимствование методом построения семантических моделей — страница 7

  • Просмотров 17554
  • Скачиваний 409
  • Размер файла 291
    Кб

к RDF, но оптимизированном для хранения в БД. Фактически, такая семантическая модель будет представлять собой множество ссылок на данные из словаря, представленное в виде ориентированного графа, взвешенного по вершинам и ребрам. Имеет смысл также выполнять анализ полученной модели с целью выделения из нее оригинальной смысловой нагрузки, для того, чтобы анализ проводился по основному смыслу текста, а не по множествам

семантических лексем, имеющих общий смысл. 4.     Анализ текста на заимствование. Данная операция аналогична помещению образца в базу данных: a.     сначала требуется осуществить преобразование текста в формат простого текста (plain text); b.     Для оптимизации перебора по множеству образцов выполнить позиционирование данного текста в некоторых предметных областях – проставить индексы соответствия

данного текста для каждой предметной области. Далее анализ текста вести в предметных областях, индекс которых наибольший (в порядке убывания); c.      Построить семантическую модель данного текста, представленную в виде взвешенного орграфа; d.     Выполнить выделение основного смысла из текста, убрав множества семантических лексем, имеющие общий характер. Скорректировать построенный граф; e.     

Выполнить сравнения с образцами, хранящимися в БД в порядке убывания индекса соответствия предметной области. Сравнения вести на основе определения степени изоморфности двух графов – исходного и образца; f.       Сделать вывод о степени заимствования материалов, подготовить соответствующий отчет; g.     Если процент заимствования является допустимым, то считать текст оригинальным и внести его в общую

базу данных образцов. h.     Если текст был признан оригинальным и внесен в общую базу данных, то должны быть установлены соответствия между всеми семантическими лексемами, относящимися к этому тексту и уникальным номером текста в БД 1.2. Выводы Задача анализа текстов, представленных на естественных языках, может решаться различными методами. Выбор метода зависит, как правило, от характера текста. Во многих случаях при

автоматизированном анализе может быть применен метод релевантностей. Однако, если текст был некоторым образом модифицирован, то эффективным решением может оказаться применение технологий, основанных на анализе смысловой нагрузки текста. РАЗДЕЛ 2 Подходы к решению задачи анализа заимствований Основными автоматизированными методами решения задачи анализа заимствований текстов, представленных на естественном языке,