Анализ текстов на заимствование методом построения семантических моделей — страница 3

  • Просмотров 17546
  • Скачиваний 409
  • Размер файла 291
    Кб

часто оказывается проблематичным проводить автоматизированный анализ такой информации; ·        Отсутствует единая база данных, содержащая соответствия единиц электронных материалов (ЕЭМ) определенным предметным областям; ·        Практически невозможно определить достоверность информации, предоставленной в публичный доступ, поскольку для ЕЭМ, как правило, не определяется индекс

достоверности; ·        Многие материалы, опубликованные в глобальных сетях, дублируют друг друга, или их различия очень незначительны. В таких случаях определение оригинала, который послужил основой для данной ЕЭМ – весьма трудоемкая (а иногда и вовсе не решаемая) задача; ·        Объем публичной информации в глобальных компьютерных сетях – огромный, что существенно усложняет

автоматизированный перебор и анализ ЕЭМ с одной стороны, и делает весьма трудоемким процесс поиска необходимой информации потенциальными пользователями информационных систем с другой стороны. Данная проблема решается многими способами, один из которых – анализ текстов представленных на ЕЯ на основе построения семантической модели. Под семантикой, с точки зрения информационных технологий, можно понимать принципы

организаций языковых конструкций на ЕЯ. Под семантической моделью текста, представленного на ЕЯ, можно понимать эквивалент данного текста, представленный таким образом, чтобы анализ смысловой нагрузки текста мог быть выполнен с использованием автоматизированных систем. Естественно, данная модель должна быть оформлена в соответствии с формально определенным форматом. Развитие технологий построения семантических моделей

во многом связано с развитием идеи, которая получила название “Семантическая сеть” (Semantic web). В соответствии с концепцией семантической сети для каждой опубликованной ЕЭМ должна быть построена соответствующая ей семантическая модель. Если потребуется выполнять поиск или анализ текстов на ЕЯ, то анализироваться будет не сам текст, а его семантическая модель. Это позволит решить несколько задач: ·       

Запросы на поиск информации в глобальной сети можно будет формировать не по ключевым словам, а на ЕЯ; ·        Материалы, представленные в глобальных сетях, станет возможным сортировать “по смыслу” и принадлежности предметным областям; ·        Информационные системы смогут отбирать и использовать необходимую им информацию автоматически, без участия человека. Предполагается, что сначала