Анализ текстов на заимствование методом построения семантических моделей — страница 10
синонимами), то такой метод может не дать требуемого результата. 2.2. Анализ на базе оценки смысловой нагрузки текста Данный метод анализа принципиально отличается от того, который был изложен в разделе 2.1, схема организации процесса проверки осуществляется иным способом. 2.2.1. Формирование семантического словаря Процесс проверки текстов, представленных на естественном языке, на базе алгоритмов анализа смысловой нагрузки опирается на заранее форматизированный банк данных – семантический словарь. Возможно выделить 2 основных типа словарей, используемых в алгоритмах анализа семантических данных: 1. Базовый словарь. Данный словарь представляет собой совокупность независимых фактов, уровень достоверности которых является максимальным. В словарь этого уровня предполагается включать: a. Словарь синонимов; b. Словарь родственных семантических лексем; c. Формальные лингвистические правила языков, которые могут быть выражены в виде фактов; d. Список правил перевода с одного языка на другой 2. Семантический словарь. В данном словаре предполагается хранить семантические данные базы документов, которую требуется использовать в качестве исходной. При анализе текстов на заимствование потребуется выявлять наличие заимствований именно из этой базы документов. Несмотря на то, что логически эти 2 типа словарей значительно отличаются, представление данных обоих словарей очень похоже, поэтому для них возможно применение одного и того же алгоритма. В данной работе формирование базового словаря было решено выполнять на основе данных, находящихся на сервере открытого проекта WikiPedia – ВикиСловарь. Для каждого слова в ВикиСловаре существует страница, представленная в виде разделов следующим образом: 1. Морфологические и синтаксические свойства 2. Семантические свойства 3. Синонимы 4. Антонимы 5. Родственные слова 6. Устойчивые словосочетания 7. Этимология 8. Перевод Из данного списка полезными для построения семантического словаря могут оказаться данные, принадлежащие разделам: 1. Семантические свойства 2. Синонимы 3. Родственные слова 4. Устойчивые словосочетания 5. Этимология 6. Перевод Данные из Викисловаря можно получить путем обращения к соответствующим html-страницам. Для того чтобы получить доступ к любым WEB-страницам разработан соответствующий класс CWebData. У данного класса
Похожие работы
- Рефераты
- Рефераты