Поиск информации в www — страница 5

  • Просмотров 6062
  • Скачиваний 233
  • Размер файла 11
    Кб

короткие слова могут быть зарезервированными. Очень распрос­траненные слова, такие как Computer и Internet тоже резервируются. Искать что-то по ним бесполезно, так как они встречаются повсеместно. Специализированные поисковые службы могут использовать и другие слова в качестве зарезервированных. Например, если служба занимается поиском книг (books), то слово book для нее может считаться зарезервиро­ванным. На этапе подготовки к

индексации может происходить нормализация слов (stemming) за счет отбрасывания суффиксов и окончаний. После такой «зачистки» фраза типа «Мы с братом любим ловить рыбу» превращается в ' нечто похожее на «брат люб лов рыб». Исходный документ может быть най­ден при поиске по ключевым словам «брат», «любовь», «ловить», «рыба», но никогда по словам «мы» или «с». Некоторые системы производят нормализацию всегда. Ряд систем, бази­рующихся

на службе Inktomi (см. ниже) могут действовать как тем образом, так и другим. Служба Alta Vista не производит нормализацию никогда, и это ее уникальная особенность, которая, как будет показано ниже, активно используется для контекстного поиска. На основе «зачищенного» документа готовится индекс. Индекс — это осо­бая база данных, созданная специальным образом, чтобы ускорить поиск. Существует множество методов индексации. Разумеется,

они не разглаша­ются. Как и поисковый робот, алгоритм индексации составляет коммер­ческую тайну поисковой службы, поэтому в качестве примера мы приведем лишь простейший тип индекса — так называемый обратный файл. Суть обратного файла состоит в том, что составляется словарь из всех слов, встреченных во всех документах, собранных поисковым роботом, а затем для каждого слова записывается группа чисел, указывающих на то, в каких

документах оно встречается, насколько часто, а также кое-какая служебная информация. Исполнение запроса клиента Третий этап — ответ на запрос клиента. Лучшие поисковые системы в ответ на запрос просматривают свои индексы за десятые доли секунды и немед­ленно возвращают списки ссылок, ведущих к затребованным ресурсам. Работа происходит следующим образом. Система анализирует ключевые слова, которые клиент использовал в

зап­росе. С ними производятся те же операции освобождения от зарезервиро­ванных слов и нормализации, после чего выполняется поиск совпадений с содержимым поисковых индексов. Эти операции в большинстве поис­ковых систем происходят примерно одинаково, но самая последняя опе­рация, когда по найденным совпадениям формируется итоговый список ссылок, всегда различается. У каждой поисковой системы своя политика формирования