Анализ текстов на заимствование методом построения семантических моделей — страница 5

  • Просмотров 17576
  • Скачиваний 409
  • Размер файла 291
    Кб

синонимы или текст был переведен на другой язык), то результаты такого анализа могут оказаться неудовлетворительными. В таком случае имеет смысл использовать алгоритмы, которые предполагают построение семантических моделей исходного и предполагаемых оригинальных текстов и проводить сравнения этих моделей. Задача анализа текстов, представленных на естественном языке на предмет заимствований в разных системах решается

по-разному: 1.    Система “antiplagiat.ru работает по принципу анализа ключевых фраз и предназначена, в основном, для использования в учебных заведениях.Cистема собирает информацию из различных источников: загружает из Интернета и обрабатывает сайты, находящиеся в открытом доступе, базы научных статей и рефератов. Полученные материалы проходят процедуру фильтрации, в результате которой отбрасывается бесполезная с точки

зрения потенциального цитирования информация. 2.    Система “Лингвоанализатор”. Анализ ведется на основе стилистики предполагаемого оригинального текста – атрибутики текста. 3.    Методика выявления плагиата в исходных текстах компьютерных программ, приведенная в [48]. 4.    Система PlagiatInform работает по аналогии с системой Антиплагиат и рассчитана на применение на базе учебных заведений. Автор работы

выполнил исследование методов анализа текстов на заимствования, предложил свои подходы к решению задачи. РАЗДЕЛ 1 Методы решения задачи анализа текстов на заимствование. Постановка задачи Задача анализа текстов, представленных на естественном языке, в настоящий момент решается, как правило, тремя основными методами: 1.     Анализ текстов экспертом в предметной области, к которой можно отнести анализируемый текст.

Данный метод не предполагает автоматизацию процесса анализа. Анализ проводит некоторое лицо, которое считается достаточно компетентным в соответствующей области знаний; 2.     Анализ текстов на базе оценки релевантностей. Данный метод является достаточно хорошо сформированным, хотя применяется он, в основном, для поиска информации в глобальных сетях. На базе данного метода осуществляется поиск практически во всех

поисковых системах Интернета (Google, Yahoo, Lycos, Rambler, Yandex и др.). Этот же метод может быть успешно использован для анализа текстов на наличие заимствований. По такому принципу работает достаточно популярная в данный момент система antiplagiat.ru. Метод не требует использования значительных вычислительных ресурсов. Для этих целей требуется время, соответствующее алгоритму дихотомического поиска. Однако этот метод не может быть применен в