Анализ текстов на заимствование методом построения семантических моделей — страница 6

  • Просмотров 17550
  • Скачиваний 409
  • Размер файла 291
    Кб

случае, если содержание текста было изменено (без изменения смысловой нагрузки текста); 3.     Метод, базирующийся на анализе смысла текста. 1.1. Задача анализа заимствований на базе семантических технологий В данной работе задачу анализа текстов, представленных на естественном языке можно разбить на несколько этапов: 1.     Регистрация материалов, рассматриваемых в качество исходных. Поскольку предполагается,

что объем исходных данных, а также объем вычислительной нагрузки на сервер, обслуживающий репозиторий исходных данных, могут быть значительными, для оптимизации производительности системы требуется особое внимание уделить выбору СУБД. В качестве сервера баз данных в данном случае имеет смысл использовать MS SQL server, поскольку он позволит организовать распределенное хранилище, а также обладает достаточной производительностью

для выполнения поставленной задачи. Исходные документы хранить в БД не имеет смысла – достаточно хранить там только ссылку на документ, располагающийся на диске. Документ, представленный в текстовом виде, а также модели этого документа имеет смысл хранить в самой БД, так как предполагается, что эти данные будут непосредственно учувствовать в запросах при анализе текстов на заимствование. 2.     Каталогизация

материалов, рассматриваемых в качестве исходных. Время анализа документов на наличие заимствований можно значительно сократить, если проводить сравнение документов по близким предметным областям. Таким образом, процесс анализа документов можно значительно оптимизировать, если предварительно все исходные документы сгруппировать по соответствию некоторым предметным областям. В данной работе степень соответствия

предметным областям предполагается строить на основе словаря, содержащего соответствия между следующими объектами: a.     Семантическая лексема на исходном языке (в качестве такового предлагается русский); b.     Список синонимов данной семантической лексемы; c.      Перевод семантической лексемы на другие языки Под семантической лексемой в данном контексте понимается некоторая самостоятельная

единица естественного языка, в соответствие которой возможно поставить формальное определение. В качестве источника данных для формирования такого словаря в работе предполагается использовать часть открытого проекта Wikipedia – WikiСловарь. Все элементы WikiСловаря представляют собой html-страницы, которые включают в себя все объекты, перечисленные выше. 3.     Построение семантических моделей документов в формате, близком