WWW технологии — страница 5

  • Просмотров 5433
  • Скачиваний 389
  • Размер файла 20
    Кб

собрание ссылок на зарубежные источники плюс тематический обзор российских и русскоязычных ресурсов WWW. К проблеме поиска информации в Internet можно подойти и с другой стороны. Существуют программы, в которые загрузили несколько тысяч общеизвестных программ, в которые загрузили несколько тысяч общеизвестных URL адресов. Будучи запущена на компьютере с доступом к WWW, эта программа начинает автоматически скачивать из сети

документы по этим URL, причем из каждого нового документа она извлекает все содержащиеся в нем ссылки и добавляет их в свою базу адресов. Поскольку все WWW документы связаны между собой, рано или поздно такая программа обойдет весь Internet. Разумеется, программа не может ни понять, ни как – либо классифицировать то, что она видит в сети. Программы такого типа называются роботами. Они ограничиваются сбором статической информации и

построением слов – указателей (индексов) по текстам документов. Собираемая роботом база данных – индекс – хранит в себе сведения о том, в каких WWW документах содержатся те или иные слова. Именно такой автоматически собираемый индекс и лежит в основном поисковых систем второго типа, которые часто так и называют – Автоматические индексы. Автоматический индекс состоит из трех частей: программы – роботы, собираемой этим роботом

базы данных и интерфейса для поиска в этой базе, с которым работает пользователь. Все эти компоненты вполне могут функционировать без вмешательства человека. Поскольку какая – либо классификация или оценивание материалов в системах такого рода отсутствует, к ним следует прибегать только тогда, когда вы точно знаете ключевые слова, относящиеся к тому, что вам нужно, например фамилию человека или несколько достаточно редких

терминов из соответствующей области. Если же задать по сколько – нибудь распространенным словам, то вам не хватит жизни, чтобы обойти все полученное в результате прииска URL адреса. Например, индекс системы Alta Vista содержит 11 млрд. слов, извлеченных из 30 млн. WWW страниц. Автоматических индексов WWW страниц существует немало: WebCrawler, Lycos, Excite, Inktomi, Open Text и др. Некоторые из них (например, Lycos) представляют собой более или менее удачливый

синтез предметного каталога и автоматического индекса. Одним из мощных поисковых средств в World Wide Web является система Hot Bot, содержащая сведения о полных текстах 110 млн. страниц. Адрес: http://www. Hotbot.com. Hotbot принадлежит к новейшим системам, поэтому его углубленный поиск дает поразительно широкие возможности для детализации запроса. Это достигается за счет использования многоступенчатого меню, предполагающего различные варианты