Анализ текстов на заимствование методом построения семантических моделей — страница 12

  • Просмотров 21429
  • Скачиваний 419
  • Размер файла 291
    Кб

доступа к серверу Викисловаря Как правило, ошибка может быть связана либо с сильной загруженностью канала доступа (ошибка превышения допустимого таймаута) либо с чрезмерной загрузкой сервера Викисловаря. И в том и в другом случае следует повторить попытку после некоторого временного интервала. Экспериментальным путем было установлено, что 10-секундного интервала для этих целей в большинстве случаев оказывается достаточно. 3

Ошибка 403 Forbidden Данная ошибка может возникать в 2х случаях: ·        Если выполняется попытка обращения к несуществующей странице; ·        Если количество запросов с одного IP-адреса превысило допустимый предел. Требуется повторить запрос через некоторый небольшой интервал времени (использовался интервал в 2 сек). Если после значительного количества попыток получить доступ к странице так и не

удалось – исключить ее из списка рассматриваемых. 2.     Разбор полученных на первом этапе html-файлов и формирование первичного словаря. Семантические связи на данном этапе не устанавливаются и не фиксируются. 3.     Проход по всему словарю, получение и фиксирование базовой семантической информации. Выполняется анализ всех WEB-страниц Викисловаря, относящихся к сформированному на предыдущем этапе словарю. При

организации обращений к WEB-страницам следует предусмотреть обработку исключительных ситуаций аналогично тому, как это делается в пункте 1, согласно таблице 2.2. Вся дополнительная информация, имеющая отношение к семантическим единицам должны быть внесена в словарь “на лету”. Данные этапы должны выполняться последовательно, однако в рамках каждого этапа возможно использовать параллелизацию вычислений: 1.     Большую

часть времени на данном этапе занимают операции обращения к WEB-серверу. Поэтому распределение, в случае необходимости, следует вести по каналам доступа к Интернету. 2.     Данный этап не представляет особой вычислительной сложности и, в большинстве случаев, не требует параллелизации. 3.     Данный этап вычислительно наиболее сложный и применение технологий распределенных вычислений позволит значительно

сократить время формирования словаря. На данном этапе наибольший объем времени тратится на следующие операции: a.     Получение данных с WEB-страницы. Параллелизация тут, как и на первом этапе, возможна по каналам доступа в Интернет; b.     Разбор страниц по каждому слову. Все html-страницы могут обрабатываться параллельно, однако имеет смысл сначала разбирать страницы, содержащие наибольшее количество информации