Анализ текстов на заимствование методом построения семантических моделей — страница 12
доступа к серверу Викисловаря Как правило, ошибка может быть связана либо с сильной загруженностью канала доступа (ошибка превышения допустимого таймаута) либо с чрезмерной загрузкой сервера Викисловаря. И в том и в другом случае следует повторить попытку после некоторого временного интервала. Экспериментальным путем было установлено, что 10-секундного интервала для этих целей в большинстве случаев оказывается достаточно. 3 Ошибка 403 Forbidden Данная ошибка может возникать в 2х случаях: · Если выполняется попытка обращения к несуществующей странице; · Если количество запросов с одного IP-адреса превысило допустимый предел. Требуется повторить запрос через некоторый небольшой интервал времени (использовался интервал в 2 сек). Если после значительного количества попыток получить доступ к странице так и не удалось – исключить ее из списка рассматриваемых. 2. Разбор полученных на первом этапе html-файлов и формирование первичного словаря. Семантические связи на данном этапе не устанавливаются и не фиксируются. 3. Проход по всему словарю, получение и фиксирование базовой семантической информации. Выполняется анализ всех WEB-страниц Викисловаря, относящихся к сформированному на предыдущем этапе словарю. При организации обращений к WEB-страницам следует предусмотреть обработку исключительных ситуаций аналогично тому, как это делается в пункте 1, согласно таблице 2.2. Вся дополнительная информация, имеющая отношение к семантическим единицам должны быть внесена в словарь “на лету”. Данные этапы должны выполняться последовательно, однако в рамках каждого этапа возможно использовать параллелизацию вычислений: 1. Большую часть времени на данном этапе занимают операции обращения к WEB-серверу. Поэтому распределение, в случае необходимости, следует вести по каналам доступа к Интернету. 2. Данный этап не представляет особой вычислительной сложности и, в большинстве случаев, не требует параллелизации. 3. Данный этап вычислительно наиболее сложный и применение технологий распределенных вычислений позволит значительно сократить время формирования словаря. На данном этапе наибольший объем времени тратится на следующие операции: a. Получение данных с WEB-страницы. Параллелизация тут, как и на первом этапе, возможна по каналам доступа в Интернет; b. Разбор страниц по каждому слову. Все html-страницы могут обрабатываться параллельно, однако имеет смысл сначала разбирать страницы, содержащие наибольшее количество информации
Похожие работы
- Доклады
- Рефераты
- Рефераты
- Рефераты
- Контрольные