Что такое интернет? — страница 10

  • Просмотров 7778
  • Скачиваний 621
  • Размер файла 27
    Кб

каталогом WWW является каталог Virtual Library: http://www.w3.org/hypertext/DataSources/bySubject/Overview.html Эта система достаточно полно охватывает научную прослойку WWW - серверы университетов, лабораторий и учебных заведений. Russia-On-Line Subject Guide. Для пользователей в нашей стране определенный интерес может представлять тематический каталог Russia-On-Line Subject Guide, расположенный по адресу http://www.online.ru/rmain. Этот каталог содержит довольно пестрое собрание ссылок на

зарубежные источники плюс тематический обзор российских и русскоязычных ресурсов WWW. 2.2.Автоматические индексы. К проблеме поиска информации в Internet можно подойти и с другой стороны. Существуют программы в которые загрузили несколько тысяч общеизвестных URL-адресов. Будучи запущена на компьютере с доступом к WWW, эта программа начинает автоматически скачивать из сети документы по этим URL, причем из каждого нового документа она

извлекает все содержащиеся в нем ссылки и добавляет их в свою базу адресов. Поскольку в конечном счете все WWW документы связаны между собой, рано или поздно такая программа обойдет весь Internet. Разумеется, программа не может ни понять ни как либо классифицировать то, что она видит в сети. Программы такого типа называются роботами. Они ограничиваются сбором статистической информации и построением словоуказателей (индексов) по

текстам документов. Собираемая роботом база данных — индекс — хранит в себе, попросту говоря, сведения о том в каких WWW-документах содержаться те или иные слова. Именно такой автоматически собираемый индекс и лежит в основе поисковых систем второго рода, которые часто так и называют — автоматические индексы. Автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для

поиска в этой базе, с которым работает пользователь. Все эти компоненты вполне могут функционировать без вмешательства человека. Поскольку какая-либо классификация или оценивание материалов в системах такого рода отсутствуют, к ним следует прибегать только тогда, когда вы точно знаете ключевые слова, относящиеся к тому, что вам нужно, — скажем, фамилию человека или несколько достаточно редких терминов из соответствующей

области. если же задать поиск по сколько-нибудь распространенным словам, то вам не хватит жизни, чтобы обойти все полученные в результате поиска URL-адреса, — к примеру, индекс системы Alta Vista содержит 11 миллиардов слов, извлеченных из 30 миллионов WWW-страниц. Автоматических индексов WWW-страниц существует немало: WebCrawler, Lycos, Excite, Inktomi, Open Text и другие. Некоторые из них (например, Lycos) представляют собой более или менее удачный синтез