Поиск информации в www — страница 4
Ксли мы хотим найти информацию, посвященную взаимоотношениям А. Вольта с Н. Бонапартом, можно задать поиск документов, в которых одновременно встречаются слова Вольта и Бонапарт, например так: +Вольта +Бонапарт или так: Вольта AND Бонапарт Основное отличие поисковых указателей от поисковых каталогов состоит is полной автоматизации всех этапов работы. Здесь отсутствует «человеческий фактор», и потому количество Web-страниц, к которым ведет поисковый указатель, намного больше. Летом 1999 г. крупнейшие поисковые указатели преодолели 200-миллионный рубеж и, как сообщают, следующий рубеж (300-миллионный) будет взят в 2000 г. Сбор информации поисковыми роботами Поисковые указатели работают в три этапа. Создание поисковой системы начинается с разработки специальной агентской программы, которая способна путешествовать по Web-узлам Интернета, просматривать Web-страницы и копировать их содержание на центральный сервер поисковой системы. Такие агентские программы называют «червяками», «пауками», «поисковыми роботами» (сокращенно «ботами»), «поисковыми машинами», «краулерами» и т. п. Многообразие названий связано с тем, что каждая поисковая система создает свою собственную, неповторимую программу и дает ей свое имя, которое впоследствии становится нарицательным. Большинство современных поисковых систем начинались с того, что в 1993-94 годах в университетских лабораториях были разработаны экспериментальные программы для мониторинга Сети. Если при чтении Web-страницы поисковый робот находит на ней ссылки на другие страницы того же Web-узла, он переходит по этим ссылкам, читает их содержание и так далее. Как червяк, он проникает в самые отдаленные закоулки WWW. Индексация ресурсов Второй этап работы поисковой системы — индексация. Собрать на центральном сервере образы сотен миллионов Web-страниц — это одно дело, а суметь выбрать те из них, которые нужны клиенту, сформировавшему запрос, — совсем другое. Отвечать надо очень быстро, а для этого данные надо хранить не как попало, а в виде специальных структур. Процесс преобразования данных из той формы, в которой они хранятся на Web-страницах, в другие формы, удобные для быстрого просмотра, называется индексацией. В результате индексации и образуется база данных, которую называют поисковым указателем (индексом). У каждой поисковой системы свои приемы и методы индексации. В частности, перед индексацией большинство систем очищают документ от зарезервированных слов (stop-words), к которым относятся артикли, предлоги, союзы, местоимения и другие слова, имеющие менее 4 символов. Однако не только
Похожие работы
- Доклады
- Рефераты
- Рефераты
- Рефераты
- Контрольные