Анализ текстов на заимствование методом построения семантических моделей — страница 2

  • Просмотров 17570
  • Скачиваний 409
  • Размер файла 291
    Кб

СЕМАНТИЧЕСКАЯ МОДЕЛЬ, ТЕОРИЯ ГРАФОВ, ЦИТИРОВАНИЕ. СОДЕРЖАНИЕ TOC \o "1-3" \h \z \u РАЗДЕЛ 1. PAGEREF _Toc170623442 \h 10 Методы решения задачи анализа текстов на заимствование. Постановка задачи.. PAGEREF _Toc170623443 \h 10 1.1. Задача анализа заимствований на базе семантических технологий.. PAGEREF _Toc170623444 \h 11 1.2. Выводы.. PAGEREF _Toc170623445 \h 13 РАЗДЕЛ 2. PAGEREF _Toc170623446 \h 14 Подходы к решению задачи анализа заимствований.. PAGEREF _Toc170623447 \h 14 2.1. Анализ на базе оценки

релевантностей.. PAGEREF _Toc170623448 \h 14 2.2. Анализ на базе оценки смысловой нагрузки текста.. PAGEREF _Toc170623449 \h 20 2.2.1. Формирование семантического словаря. PAGEREF _Toc170623450 \h 20 2.2.2. Формирование семантических моделей. PAGEREF _Toc170623451 \h 28 2.2.3. Представление данных. PAGEREF _Toc170623452 \h 40 2.2.3.1. Объектная модель реализации инструмента для разбора форматов данных. PAGEREF _Toc170623453 \h 43 2.2.3.2. Преобразование из формата MS Word. PAGEREF _Toc170623457 \h 45 2.2.4. Алгоритм лексического и

грамматического разбора предложений. PAGEREF _Toc170623458 \h 46 2.2.5 Выводы.. PAGEREF _Toc170623459 \h 54 РАЗДЕЛ 3. PAGEREF _Toc170623460 \h 55 Алгоритмы, используемые для установления факта заимствований при семантическом анализе PAGEREF _Toc170623461 \h 55 3.1. Анализ изоморфности графов. PAGEREF _Toc170623462 \h 55 3.2. Анализ оптимальности алгоритма.. PAGEREF _Toc170623463 \h 73 3.3. Выводы.. PAGEREF _Toc170623464 \h 77 РАЗДЕЛ 4. PAGEREF _Toc170623465 \h 78 Реализация приложения.. PAGEREF _Toc170623466 \h 78 4.1. Обоснование выбора средств

разработки.. PAGEREF _Toc170623467 \h 78 4.2. Программный комплекс. PAGEREF _Toc170623468 \h 81 4.2.1. Хранение данных. PAGEREF _Toc170623469 \h 82 4.3 Система анализа текстов на заимствование. PAGEREF _Toc170623470 \h 85 4.4 Тестирование системы.. PAGEREF _Toc170623471 \h 88 4.4.1. Тестирование модулей системы (модульное тестирование) PAGEREF _Toc170623472 \h 88 4.4.2. Тестирование корректности работы логики системы.. PAGEREF _Toc170623473 \h 89 4.4.3. Нагрузочное тестирование. PAGEREF _Toc170623474 \h 89 РАЗДЕЛ 5. PAGEREF _Toc170623475 \h 91 Возможности

развития проекта.. PAGEREF _Toc170623476 \h 91 5.1. Формальное определение объектов семантической алгебры.. PAGEREF _Toc170623477 \h 91 5.2. Алгоритм лексического и грамматического разбора текстов. PAGEREF _Toc170623478 \h 94 5.3. Алгоритмы установления факта изоморфности графов. PAGEREF _Toc170623479 \h 95 5.4. Оптимизация хранилищ данных.. PAGEREF _Toc170623480 \h 96 5.5. Параллелизация вычислительных процессов. PAGEREF _Toc170623481 \h 96 5.6. Выводы.. PAGEREF _Toc170623482 \h 98 ВЫВОДЫ... PAGEREF _Toc170623483 \h 99 РЕКОМЕНДАЦИИ..

PAGEREF _Toc170623484 \h 101 ПЕРЕЧЕНЬ ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ.. PAGEREF _Toc170623485 \h 102 ПРИЛОЖЕНИЯ.. PAGEREF _Toc170623486 \h 106 ВВЕДЕНИЕ Одной из проблем современных информационных систем является проблема систематизации и каталогизации материалов, представленных на естественном языке (ЕЯ). Необходимость этого обусловлена рядом причин: ·        Не существует единых принципов оформления электронных материалов, излагаемых на ЕЯ, поэтому