Анализ текстов на заимствование методом построения семантических моделей — страница 8

  • Просмотров 17584
  • Скачиваний 409
  • Размер файла 291
    Кб

являются: 1.     Анализ на базе релевантностей; 2.     Анализ на базе анализа смысловой нагрузки текста 2.1. Анализ на базе оценки релевантностей Одним из методов анализа текстов на предмет заимствований из публичных источников является метод, основанный на анализе уровня релевантности. Методика получения индекса релевантности для задачи анализа текстов на заимствование похожа на алгоритм получения уровня

релевантности в поисковых системах. С точки зрения поисковых систем, под релевантностью понимают меру соответствия результатов поиска запрошенным данным. Определять факт вхождения ключевых слов, заданных в качестве запроса на поиск можно разными способами: 1.                 Точный поиск подстроки в строке 2.                 Нечеткий поиск подстроки в

строке. Для выполнения такого поиска вводят понятие “расстояние между строками”. По определению Хемминга, расстоянием между 2 строками является число позиций в строке, на которых символы отличаются. При решении задачи нечеткого поиска определяется максимально допустимое число dmax – расстояние между строками. Если производится нечеткий поиск подстроки A в строке B, то считается, что A является подстрокой B, если d(A, B) <= dmax. При

анализе текстов на наличие заимствований на базе вычисления релевантности, возможно, использовать следующий алгоритм: Предположим, что ·        A – некоторый исходный текст, представленный на естественном языке; ·        B = {B1, B2, … , Bn} – множество текстов, среди которых следует производить поиск. В таком случае задача анализа текста A на заимствование из текстов множества B сводится к сортировке

множества B по уровням заимствований в порядке убывания. Уровни заимствований определяются численной величиной – расстоянием Хемминга между A и Bi, где i – номер рассматриваемого текста из множества B. Таким образом, для каждого элемента множества B определяются два подэлемента – текст и уровень заимствования из него текста A: B = {{ B1, d1}, { B2, d2}, … , { Bn, dn}} (2.1) Причем, множество B должно быть представлено таким образом, что (2.2) Имеет

смысл рассматривать не все тексты из множества B, а только те, для которых di < dдоп, где dдоп – допустимый предел заимствований. Сложность алгоритма поиска расстояния между строками очень зависит от конкретной реализации соответствующего алгоритма. Вывод о том, какой именно из алгоритмов поиска расстояний между строками следует делать исходя из анализа следующих данных: ·        Максимальный и средний размеры