Анализ текстов на заимствование методом построения семантических моделей — страница 4

  • Просмотров 22643
  • Скачиваний 428
  • Размер файла 291
    Кб

будут созданы семантические модели для уже существующих ЕЭМ в глобальных сетях, а все ЕЭМ, которые будут туда помещаться вновь, будут сопровождаться соответствующими семантическими эквивалентами. Для описания семантической модели на ЕЯ был определен специальный формат – RDF (Resource description format), который базируется на формате XML и позволяет определять соответствия вида объект – атрибут – значение. Кроме этого, ЕЭМ также

предполагается присваивать информацию, определяющую уровень достоверности публикуемых материалов. Это осуществляется путем добавления цифровой подписи. Для определения онтологической информации (терминологии предметной области) используется язык OWL (Web ontology language). Формат RDF позволяет представлять данные в виде иерархической структуры (как правило, в виде графа) в формате, который может быть разобран автоматически, с

использованием, например, инструментов XML Parser. Каждый элемент документа, представленного в виде RDF, представляет собой набор фактов. Если рассматривать эти факты с точки зрения текстов на ЕЯ, то они являются предложениями, определяющими соответствие между подлежащим (объект), сказуемым (атрибут) и дополнением (значение). Для определения объектов принято использовать формат URI (универсальный идентификатор ресурсов). В качестве

синтаксиса объектов может использоваться формат, похожий на обычный WWW URL (адрес вида http://something), хотя никакого отношения к реальным URL-адресам такой объект может и не иметь. Возможно, также использовать другие варианты представления объектов в RDF. Выбор того или иного формата обычно определяется конкретной предметной областью, для элементов которой выполняется генерация семантической модели. Для организации хранения

информации, представленной в виде RDF совсем не обязательно использовать файлы .RDF. Если окажется, что такую информацию более рационально представить в виде реляционной модели, то имеет смысл хранить ее в некоторой реляционной базе данных. В таком случае может оказаться целесообразным разработать инструментарий, выполняющий преобразование из файла .RDF в структуру БД и наоборот. Это позволит использовать уже существующие

утилиты, работающие с форматом .RDF. Задача анализа текста на наличие заимствований также может решаться с использованием механизма построения семантических моделей. В настоящий момент такая задача, в основном, решается путем анализа ключевых слов. Такой метод может оказаться эффективным для поиска полных заимствований, но если в тексте выполнялись модификации (например, была выполнена замена некоторых существительных на