Поиск информации в www — страница 4

  • Просмотров 6031
  • Скачиваний 233
  • Размер файла 11
    Кб

Ксли мы хотим найти информацию, посвященную взаимоотношениям А. Вольта с Н. Бонапартом, можно задать поиск документов, в которых одновременно встречаются слова Вольта и Бонапарт, например так: +Вольта +Бонапарт или так: Вольта AND Бонапарт Основное отличие поисковых указателей от поисковых каталогов состоит is полной автоматизации всех этапов работы. Здесь отсутствует «челове­ческий фактор», и потому количество Web-страниц, к

которым ведет поис­ковый указатель, намного больше. Летом 1999 г. крупнейшие поисковые указатели преодолели 200-миллионный рубеж и, как сообщают, следую­щий рубеж (300-миллионный) будет взят в 2000 г. Сбор информации поисковыми роботами Поисковые указатели работают в три этапа. Создание поисковой системы начинается с разработки специальной агентской программы, которая спо­собна путешествовать по Web-узлам Интернета, просматривать

Web-стра­ницы и копировать их содержание на центральный сервер поисковой системы. Такие агентские программы называют «червяками», «пауками», «поис­ковыми роботами» (сокращенно «ботами»), «поисковыми машинами», «краулерами» и т. п. Многообразие названий связано с тем, что каждая поисковая система создает свою собственную, неповторимую программу и дает ей свое имя, которое впоследствии становится нарицательным. Большинство

современных поисковых систем начинались с того, что в 1993-94 годах в университетских лабораториях были разработаны экспе­риментальные программы для мониторинга Сети. Если при чтении Web-страницы поисковый робот находит на ней ссылки на другие страницы того же Web-узла, он переходит по этим ссылкам, читает их содержание и так далее. Как червяк, он проникает в самые отда­ленные закоулки WWW. Индексация ресурсов Второй этап работы

поисковой системы — индексация. Собрать на цен­тральном сервере образы сотен миллионов Web-страниц — это одно дело, а суметь выбрать те из них, которые нужны клиенту, сформировавшему запрос, — совсем другое. Отвечать надо очень быстро, а для этого данные надо хранить не как попало, а в виде специальных структур. Процесс пре­образования данных из той формы, в которой они хранятся на Web-стра­ницах, в другие формы, удобные для

быстрого просмотра, называется индексацией. В результате индексации и образуется база данных, кото­рую называют поисковым указателем (индексом). У каждой поисковой системы свои приемы и методы индексации. В част­ности, перед индексацией большинство систем очищают документ от заре­зервированных слов (stop-words), к которым относятся артикли, предлоги, союзы, местоимения и другие слова, имеющие менее 4 символов. Однако не только