Реферат: Поиск информации в www

КУРСКИЙ ГОСУДАРСТВЕННЫЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ

КАФЕДРАИНФОРМАТИКИ И ТСО

КУРСОВАЯ РАБОТА

“ ПОИСКИНФОРМАЦИИ В WWW”

выполнил: ст-нт ФМФ-56

Разиньков А.Н.

Руководитель: Ежова Т.В.

КУРСК-2002

Содержание:

1. Поиск информации в www…………………………………………………………1

 

1.1.Основы поисковых служб…………………………………………………………………1

             Поисковые каталоги. Поисковые указатели (индексы). Сбор информациипоисковыми  роботами. Индексацияресурсов. Исполнение запроса клиента. Сравнение поисковых каталогов иуказателей. От чего зависит качество поиска. Гибридные системы. Метапоисковыесистемы. Порталы. Рейтинговые службы.

   1.2.Основные поисковые системы…………………………………………………8

           AltaVista. Ask Jeeves. Direct Hit. Excite. FAST Search. GO/Infoseek.GoTo.

           Google. HotBot. Inktomi. LookSmart. Lycos. MSN Search. Netscape Search.

           Northern Light. Open Directory. RealNames. WebCrawler. Yahoo.

    

    1.3.Отечественные поисковые системы……………………………………………11

            Aport. Атрус(@Rus).Rambler. Яndex.

     

1.4.<span Times New Roman""> 

Приемыпростого поиска информации в www………………………………...13

Ловушка для начинающих. Сложениенаоборот. Арифметика вычитания.

Применим джокера. Контекстныйпоиск. Роль прописных букв. Поиск по

заголовкам. Поиск Web-узлов. Поиск URL-адресов. Поиск ссылок

1.5.<span Times New Roman"">      

Средстварасширенного поиска…………………………………………………18

Команда OR. Команда  AND. Команда NEAR.Вложение команд.

 

1.6.<span Times New Roman"">      

Выборпоисковой службы……………………. ………………………………………20

Как проверить незнакомуюпоисковую службу. Реферативный поиск.

Углубленный поиск. Специальныйпоиск. Выводы и рекомендации.

2.1<span Times New Roman"">           

Технология и результат поиска……………………..…………………………22

Цели поиска: модель обучаемого.модель обучения. нейромодель обучаемого.

                       нейромодель обучения.нейросетевая модель обучаемого.

                       нейросетевая модельобучения.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Поискинформации в

<span Times New Roman",«serif»; mso-ansi-language:EN-US">WWW<span Times New Roman",«serif»">

формацию илиуслугу в WWW, их надо,прежде всего, разыскать, а поиск информации — непростая задача. По состоянию наначало 2000 г. ресурсы Webоцениваютсяболее чем в 850 миллионов Web-страниц.

Разумеется,рост Web-пространства в геометрической прогрессии не будет продолжаться вечно.Когда-то наступит момент насыщения. Можно пред­положить, что темпы развития WWWзамедлятся на рубеже 3-4 млрд. Web-страниц. Одной изпричин замедления, в частности, станет ограниченность поля IPадресов.Впрочем, к тому времени, наверное,уже заработает Интер-нет-2, и все будет по-другому.

Для поискаинформации в Сети используются специальные поисковые службы. Обычно поисковаяслужба — это компания, имеющая свой сер­вер, на котором работает некаяпоисковая система. Услуги абсолютного большинства поисковых служб бесплатны,но, тем не менее, по темпам роста сегодня это самый эффективный бизнес в мире.Всего за несколько лет такие службы как Yahoo!, AltaVista, Inktomiи некоторые другие разви­лись от лабораторных проектов сбюджетом в десяток-другой тысяч дол­ларов до компаний, стоимость которыхсоставляет 10-15 миллиардов долларов. Такого темпа приращения капитала мир ещене знал, особенно для бесплатных (для конечного пользователя) услуг.

При этоминтересно отметить, что ниша бизнеса далеко не освоена, и ниже мы увидим, какбуквально в считанные месяцы из хорошей идеи «с нуля» рождаются новые гиганты.

<span Times New Roman",«serif»">Основы поисковых служб

<span Times New Roman",«serif»">

Сегодняпользователь WorldWideWebоказывается в той же ситуации, что iiчитатель крупной библиотеки. Чем больше фонды библиотеки, темтруднее найти именно ту книгу, которая сейчас нужна. Для упрощения поиска вбиблиотеке существуют каталоги: систематический, алфавитный, предметный идругие. Существуют и специализированные каталоги, напри­мер каталоги новых поступлений.

В Сети поиск обеспечиваютспециальные поисковые службы. Умение пользоваться ими, собственно говоря, исоставляет умение пользоваться Интернетом. Все поисковые системы WWWоснованы на гиперссылках. Обращаясь к поисковойслужбе, мы формулируем запрос, в котором фор­мально описываем то, что хотимнайти. Проведя нужные операции, служба формирует Web-документ, состоящий изгиперссылок, ведущих к ресур­сам WWW, соответствующимнашему запросу. Какой из этих гиперссылок м ы воспользуемся — дело наше.

Несмотря на то, что результатвсегда един (клиент получает список реко­мендованных гиперссылок), принципдействия у разных поисковых служб может быть различным. Ниже мы рассмотрим, какклассифицируются поисковые службы по типам предоставляемых услуг, а также поспособам формирования своих ресурсов. Последнее очень важно для эффективнойработы не только пользователей, но и Web-мастеров. Пользователи должныучитывать способ формирования баз данных, чтобы знать, на что они могутрассчитывать при поиске информации, а Web-мастера должны это знать, чтобыдобиться наилучшего представления своих ресурсов в основных поис­ковых службахмира.

<span Times New Roman",«serif»">Поисковые каталоги

<span Times New Roman",«serif»">

Поисковые каталоги похожи напредметные каталоги общественных биб­лиотек. На начальной странице поисковогокаталога мы выбираем тему, которая нас интересует, затем в рамках темы выбираемкатегорию, потом подкатегорию, и так далее, пока не получим конкретный списокWeb-ресур­сов, рекомендованных для просмотра. Крупнейшим поисковым каталогоммира сегодня считается поисковая система Yahoo! (www.yahoo.com) Онапредоставляет примерно 1 млн. ссылок к ресурсам WWW, то есть охва­тывает чуть более тысячной доли всегоWeb-пространства.

Основнымнедостатком и, в то же время, достоинством поисковых катало­гов является«человеческий фактор». Данные, которые заносятся в ката­лог, проходят «ручнуюобработку». Сегодня на Yahoo! работаютдо 150 редакторов, ежедневнопросматривающих Web-пространство в поисках наиболее ценных ресурсов по темам,вызывающим общественный инте­рес. Кроме собственных редакторов службаиспользует и информацию, по­ставляемую Web-мастерами. Так, например,теоретически любой владелец Web-страницы может самостоятельно заполнитьположенную анкету и направить ее в адрес службы. Правда, гарантии, что страницабудет вклю­чена в каталог Yahoo!, это недает, поскольку служба не замусоривает свои каталоги ссылками настраницы-однодневки. Клиентов службы всегда раздражают ссылки, указывающие надавно несуществующие ресурсы. Чтобы не иметь особой головной боли по проверкеактуальности храня­щихся ссылок, служба Yahoo! предпочитает скрупулезно подходить к фор­мированию своихкаталогов. Тщательность в подборе информации обеспечивает высокую репутацию Yahoo!, несмотря на то, что совокупный объем ее ресурсовкрайне мал.

Другой подход к формированиюкаталога демонстрирует поисковая служба OpenDirectory(dmoz.org). Вкачестве источника для своих ресурсов она при­влекает пользователей WWW, которые на добровольной основе могут обо­зреватьпонравившиеся им Web-страницы, каталогизировать их и размещать ссылки на них нацентральном сервере службы. Поскольку число добро­вольных помощников может бытьочень большим, у этой службы есть все шансы перекрыть успех Yahoo!.. Но принцип добровольности не гарантируеткачественности работы, поэтому каталоги, равные Yahooпо качеству, по-видимому, появятся еще не скоро. Однако естьи другие подходы, основанные, например, на 5МАНГ-технологии, и мы их тожерассмотрим.

<span Times New Roman",«serif»">Поисковые указатели (индексы)

<span Times New Roman",«serif»">

11ринцип действия поискового указателя похож на принципдействия пред­метного каталога библиотеки. Пользователь формирует запрос спомощью ключевых слов, выражающих объект его поиска, а поисковая система выдаетему список ссылок на Web-страницы, содержащие данные ключевые слова. Ксли мыхотим найти информацию, посвященную взаимоотношениям А. Вольта с Н. Бонапартом,можно задать поиск документов, в которых одновременно встречаются слова Вольтаи Бонапарт, например так:

+Вольта+Бонапарт или так:

Вольта ANDБонапарт

Основное отличие поисковыхуказателей от поисковых каталогов состоит isполной автоматизации всех этапов работы. Здесь отсутствует«челове­ческий фактор», и потому количество Web-страниц, к которым ведет поис­ковыйуказатель, намного больше. Летом 1999 г. крупнейшие поисковые указателипреодолели 200-миллионный рубеж и, как сообщают, следую­щий рубеж(300-миллионный) будет взят в 2000 г.

<span Times New Roman",«serif»">Сбор информации поисковымироботами

<span Times New Roman",«serif»">

Поисковыеуказатели работают в три этапа. Создание поисковой системы начинается сразработки специальной агентской программы, которая спо­собна путешествовать поWeb-узлам Интернета, просматривать Web-стра­ницы и копировать их содержание нацентральный сервер поисковой системы. Такие агентские программы называют«червяками», «пауками», «поис­ковыми роботами» (сокращенно «ботами»),«поисковыми машинами», «краулерами» и т. п. Многообразие названий связано стем, что каждая поисковая система создает свою собственную, неповторимуюпрограмму и дает ей свое имя, которое впоследствии становится нарицательным.Большинство современных поисковых систем начинались с того, что в 1993-94 годахв университетских лабораториях были разработаны экспе­риментальные программыдля мониторинга Сети.

Если причтении Web-страницы поисковый робот находит на ней ссылки на другие страницытого же Web-узла, он переходит по этим ссылкам, читает их содержание и такдалее. Как червяк, он проникает в самые отда­ленные закоулки WWW.

<span Times New Roman",«serif»">Индексация ресурсов

<span Times New Roman",«serif»">

Второй этапработы поисковой системы — индексация. Собрать на цен­тральном сервере образысотен миллионов Web-страниц — это одно дело, а суметь выбрать те из них,которые нужны клиенту, сформировавшему запрос, — совсем другое. Отвечать надоочень быстро, а для этого данные надо хранить не как попало, а в видеспециальных структур. Процесс пре­образования данных из той формы, в которойони хранятся на Web-стра­ницах, в другие формы, удобные для быстрого просмотра,называется индексацией. В результатеиндексации и образуется база данных, кото­рую называют поисковым указателем (индексом).

У каждой поисковой системы своиприемы и методы индексации. В част­ности, перед индексацией большинство системочищают документ от заре­зервированныхслов (stop-words),к которым относятся артикли, предлоги, союзы,местоимения и другие слова, имеющие менее 4 символов. Однако не только короткиеслова могут быть зарезервированными. Очень распрос­траненные слова, такие как Computerи Internetтоже резервируются. Искать что-то по ним бесполезно, так какони встречаются повсеместно.

Специализированные поисковые службымогут использовать и другие слова в качестве зарезервированных. Например, еслислужба занимается поиском книг (books), то словоbookдля нее может считатьсязарезервиро­ванным.

На этапе подготовки к индексацииможет происходить нормализация слов (stemming)за счет отбрасывания суффиксов и окончаний. Послетакой «зачистки» фраза типа «Мы с братом любим ловить рыбу» превращается в 'нечто похожее на «брат люб лов рыб». Исходный документ может быть най­ден припоиске по ключевым словам «брат», «любовь», «ловить», «рыба», но никогда пословам «мы» или «с».

Некоторые системы производятнормализацию всегда. Ряд систем, бази­рующихся на службе Inktomi(см. ниже) могут действовать кактем образом, так и другим. Служба AltaVistaне производит нормализациюникогда, и это ее уникальная особенность, которая, как будет показано ниже,активно используется для контекстногопоиска.

На основе «зачищенного» документаготовится индекс. Индекс — это осо­бая база данных, созданная специальнымобразом, чтобы ускорить поиск. Существует множество методов индексации.Разумеется, они не разглаша­ются. Как и поисковый робот, алгоритм индексациисоставляет коммер­ческую тайну поисковой службы, поэтому в качестве примера мыприведем лишь простейший тип индекса — так называемый обратный файл.

Сутьобратногофайла состоит в том, что составляется словарь из всех слов, встреченных во всехдокументах, собранных поисковым роботом, а затем для каждого слова записываетсягруппа чисел, указывающих на то, в каких документах оно встречается, насколькочасто, а также кое-какая служебная информация.

<span Times New Roman",«serif»">Исполнение запроса клиента

<span Times New Roman",«serif»">

Третий этап — ответ на запросклиента. Лучшие поисковые системы в ответ на запрос просматривают свои индексыза десятые доли секунды и немед­ленно возвращают списки ссылок, ведущих кзатребованным ресурсам. Работа происходит следующим образом.

Системаанализирует ключевые слова, которые клиент использовал в зап­росе. С нимипроизводятся те же операции освобождения от зарезервиро­ванных слов инормализации, после чего выполняется поиск совпадений с содержимым поисковыхиндексов. Эти операции в большинстве поис­ковых систем происходят примерноодинаково, но самая последняя опе­рация, когда по найденным совпадениямформируется итоговый список ссылок, всегда различается. У каждой поисковойсистемы своя политика формированиярезультирующего списка.

Если найдено очень много ссылок наресурсы, удовлетворяющие запросу, то встает проблема их упорядочения. Здесьважно, какие ссылки дать в начале списка, а какие — в конце, то есть, надовводить какой-то рейтинг. Разные поисковые системы имеют разные рейтинговыесистемы. При исчис­лении рейтинга учитывается множество параметров. Занекоторые начис­ляются положительные баллы, а за некоторые — наоборот штрафные.Положительный рейтинг начисляется, в частности, при следующих обсто­ятельствах:

•если разыскиваемые слова встречаются на Web-странице неоднократно (но неслишком часто, и не подряд);

• если они расположеныблизко к началу страницы;

• если эти словаприсутствуют в заголовке страницы;

•если Web-страница имеет иллюстрацию, альтернативный текст кото­рой тожесодержит слова, введенные пользователем.

Лучшие поисковые системы недавноввели новый подход к рейтингованию. Они учитывают количество ссылок впроиндексированном простран­стве Web, ведущих кданному ресурсу. Это естественно, ведь чем больше публикаций ссылаются наданную страницу, тем она популярнее и тем выше вероятность того, что она будетполезной автору запроса. В традици­онном библиотечном деле такой подходизвестен. Например, в США давно издается многотомный ежегодный «Индексцитирования» (CitationalIndex),в котором каталогизируются ссылки разных авторов на первоис­точники.Это непростой технически, но очень полезный для клиентов метод индексацииресурсов.

К современным относятся икоммерческие хитрости. Относительно недавно некоторые поисковые системы (в томчисле и такая известная, как Alta Vista) началиповышать рейтинг тем, кто готов за это платить. Такой под­ход выглядит не оченькрасиво, но с точки зрения владельцев поисковых систем оправдан извечнымтезисом «заботы о потребителе». Они заявляют, что для потребителя ценностьинформации на странице солидной фирмы, готовой нести расход на свою рекламу вСети, все-таки выше, чем ценность доморощенной страницы никому не известногостудента. Возможно, что они и правы. Во всяком случае тот, кто заплатил деньгиза рейтингование своей страницы, наверное будет больше уделять внимания еекачеству, чем тот, кто сделал ее впопыхах и пристроил на первом попавшемся бес­платномсервере.

<span Times New Roman",«serif»">Сравнениепоисковых каталогов и указателей

У каждогоиз двух основных типов поисковых служб есть достоинства и недостатки. Поисковыекаталоги формируются вручную с помощью живых людей. Поэтому, как правило, еслимы находим в них нужный нам ресурс, то этот ресурс — один из лучших в Сети. Онне обязательно самый луч­ший и, может быть, лишь входит в первую двадцатку, ноон явно не слу­чаен и может рассматриваться как рекомендованный. Ответственные редакторы поискового каталога,имеющие солидное образование в боль­шинстве областей науки, техники и культуры,не будут включать в свой каталог очевидную ерунду. Поисковые каталоги удобнее итем, что там не бывает десятков ссылок на один и тот же ресурс, размещенный вразных местах или проиндексированный в разное время. В общем, если надо быс­тронайти лучший источник по какой-то теме, надо начинать поиск с поис­ковогокаталога.

Недостатком поисковых каталоговявляется их слабое знание о подлин­ных ресурсах WWW, которое с каждым днем падает в относительном изме­рении.Как мы уже говорили, крупнейший поисковый каталог Yahoo! за шесть лет своей работы довел количество обработанныхресурсов до мил­лиона, в то время как каждый год появляются сотни миллионовновых Web-страниц.

Поисковыеуказатели черпают свою исходную информацию от поисковых роботов, день и ночьползающих по просторам WWW. Процесссбора инфор­мации полностью автоматизирован, поэтому объем проиндексированногопространства намного больше, чем у поисковых каталогов. Сегодня этот показательпревышает 25% общего пространства Сети. С другой стороны, отсутствиечеловеческого фактора сказывается на качестве того, что можно найти черезпоисковые указатели. Для робота совершенно все равно, напи­сана ли статья пофизике академиком или школьником. При рейтингова-пии робот может даже поставитьстраницу школьника выше.

Поэтому поисковые каталоги лучшеиспользовать для ознакомительного поиска, когда тема известна, а предпочтенийнет, например при подго­товке школьного реферата на тему «Теорияотносительности». Каталог быстро выведет вас на Web-узел, на котором вы либонайдете то, что хотели, либо получите ссылки на другие полезные ресурсы. Апоисковые указатели стоит использовать для более глубоких или экзотическихрозысков. Напри­мер, человеку, которому о теории относительности и так уже всеизвестно, вряд ли поможет поисковый каталог, имеющий ссылки на общеизвестныеWeb-ресурсы. А поисковый указатель, проиндексировавший 300 милли­оновWeb-страниц, может ему предложить какой-то уникальный отчет о семинаре,проведенном в университете штата Айдахо или в Новосибирске.

<span Times New Roman",«serif»">От чего зависит качество поиска

<span Times New Roman",«serif»">

Как нетруднодогадаться, достоинства поисковых каталогов являются недостатками поисковыхуказателей и наоборот. Основных параметров, с помощью которых оцениваюткачество поисковых систем, всего два: коэф­фициентпопадания и коэффициент охвати.

Коэффициент попаданияпоказывает, какой процент ссылок, выданных поисковой системой, действительноотносится к той теме, которая интере­сует клиента. Для поисковых каталогов этоткоэффициент очень высок. Поскольку их составляют люди, появление «мусорной»ссылки — редкость. Обычно она возникает только когда за время, прошедшее послерегистра­ции, Web-страница перестает существовать. Для каталогов этот коэффи­циентсоставляет порядка 70-80%, и уж во всяком случае не должен быть менее 50 %.

Дляпоисковых указателей этот коэффициент печально низок. Если не предприниматьспециальных мер, он составляет единицы процентов. При­чина лежит, во-первых, втом, что автоматические средства не могут точно выявлять тематическуюпринадлежность Web-страниц на основе формаль­ных признаков, а во-вторых, в том,что большинство клиентов не умеют пользоваться всеми возможностями поисковыхсистем и формируют зада­ние на поиск далеко не оптимально.

Коэффициент охватапоказывает, насколько базаданных поисковой сис­темы отражает истинное количество информации, имеющейся поданной теме в мире. Здесь впереди поисковые указатели. Самые совершенные из hiixимеют коэффициент охвата порядка 25%. Поисковые каталоги,наобо­рот, не охватывают и одного процента всех наличных ресурсов.

С точкизрения пользователя качество поискаозначает стремление полу­чить как можно больше ссылок по интересующей его теме,но так, чтобы в результирующем списке было как можно меньше ссылок, не имеющихпрямого отношения к объекту поиска. Пользователь желает, чтобы каждый изкоэффициентов был близок к 100%. Его субъективная оценка качества поисковойсистемы напоминает произведение коэффициента попадания на коэффициент охвата.Сегодня же и для поисковых каталогов, и для поиско­вых указателей этопроизведение составляет десятые доли процента.

Гибридные системы

В стремлении повысить качество работы поисковыхслужб есть попытки совместить оба подхода. При этом возможны два варианта:поисковые каталоги привлекают возможности поисковых указателей,переадресуя  им запрос. Например, допоследнего времени поисковый каталог Yahoo переадресовывал особо сложные запросы поисковому указателю AltaVista.:

Сегодня Yahoo!привлекает средства другого партнера — Inktomi.         '

С другой стороны, поисковыеуказатели научились выполнять автоматическую каталогизацию своих ресурсов ипредоставлять к ним доступ так как это принято в поисковых каталогах. Примертакого подхода являет самый мощный сегодня поисковый указатель FastSearch

<span Times New Roman",«serif»">Метапоисковыесистемы

К метапиисковым системам относится множество поисковых служб вто­рогоэшелона. Они принимают от пользователя запрос и размещают его сразу нанескольких поисковых серверах. Потом они собирают поступив­шую от нихинформацию, обобщают ее, структурируют, рафинируют (очи­щают) и передаютклиенту. Увеличенное время исполнения запроса компенсируется улучшеннымкачеством результатов поиска.

Первое время крупные поисковыесистемы спокойно смотрели на суще-, ствование «под собой» метапоисковыхсистем. Однако в последнее время в связи с бурным развитием идеи порталов все чаще и чаще встречаютсязапреть! на метапоиск. А если говорить точнее, крупные поисковые сис­темыначали заниматься им сами, привлекая ресурсы коллег на взаимо­выгодной основе.

Порталы

Входя в WorldWideWebс помощьюброузера, мы попадаем на какую-то страницу, которая задана в настройкахброузера в качестве начальной. Пользовательможет легко перенастроить свой броузер на работу с другой начальной страницы.Какую именно страницу он будет использовать — его личное дело. Опыт показывает,что очень удобно иметь в качестве началь­ной страницы такую, на которой ужепредставлено несколько ссылок на основные поисковые системы. Удобно здесь жеиметь доступ к электрон­ной почте. Неплохо, если на этой странице всегдаотображаются послед­ние новости из мира политики, искусства, спорта, бизнеса ит. п. Такие « готовые» начальные страницы называются порталами. В мире существу­ет множество порталов — настройте свойброузер на тот, который наилуч­шим образом соответствует вашим личныминтересам. Хорошие порталы предоставляют пользователю возможность персональнойнастройки «под себя». Надо только включить флажки против тех поставщиков информа­ции,которые вам интересны, и выключить у тех, которые для вас неакту­альны.

Борясь за клиентов, многиепоисковые системы превращаются в порталы. Это означает, что они не толькоготовы поставлять результаты поиска, но II способны выполнять другие услуги.Часто название порталов начинается сослова My(Мой/Моя/Мое). Например, если напоисковых системах Yahoo!, AltaVistaили DejaNewsвампредлагают подписаться на службу MyYahoo, MyAltaVistaили MyDejaNews, то, значит, речь идет о том, чтобы стать посто­яннымклиентом удобного портала.

Другойпричиной того, что поисковые системы постепенно превращаются в порталы, сталтот факт, что им стало трудно одновременно и «копиро­вать» пространство WWW, и индексировать гигантские базы данных, и«Услуживать запросы клиентов. Поисковые системы начинают распреде­лятьобязанности. Задачи по контролю за Web-пространством постепенно передаются напартнерских основаниях «третьим» фирмам, а сами поис­ковые системысосредоточиваются на обслуживании клиентов и привле­чении рекламодателей, тоесть превращаются в порталы.

<span Times New Roman»,«serif»">Рейтинговые службы

<span Times New Roman",«serif»">

В последниетри года появился новый тип служб, позволяющих быстро разыскивать информацию вСети, — это так называемые реитинговыеслужбы. Они занимают промежуточное положение между поисковыми службами ипорталами и могут использоваться как в том, так и в другом качестве.

Сутьрейтинговой службы состоит в том, что на ее сервере создаются тема­тическиеСП1-1СКИ ссылок на наиболее популярные Web-ресурсы. Хоть эти списки инебольшие, представительность их велика, поскольку именно эти ссылкипредпочитают большинство клиентов Сети.

Когда мывыбираем одну из ссылок, представленных на сервере службы, срабатывает счетчик,и рейтинг этого ресурса увеличивается. Каждый следующий посетитель видит,сколько «нащелкали» его предшественники, и понимает, какой ресурс ему стоитпосмотреть. Поиск с помощью рейтинговых служб можно рассматривать как поиск «порекомендациям». Разумеется, он не может претендовать на объективность, но когдаречь идет о темах, имеющих общественный интерес, таких как новости, поли­тика,спорт, кино, музыка, компьютерные игры и т. п., этим «рекоменда­циям» можнодоверять. Самая популярная отечественная рейтинговая служба — Rambler(www.rambler.ru). Наиболее популярная зарубежная рей­тинговая служба —WebsideStory(www.hitbox.com)

<span Times New Roman",«serif»">Основныепоисковые системы

<span Times New Roman",«serif»; mso-ansi-language:EN-US">AltaVista (

http://www.altavista.com/<span Times New Roman",«serif»; mso-ansi-language:EN-US">)     

Поколичеству индексированных Web-страниц Alta-Vista— одна изкрупнейших (но не самая крупная, как это иногда считается) поисковых системмира. Огромный объем охвата Web-пространстваи мощ­ный набор поисковых команд делают эту систему излюбленным средствомпоиска для большинства пользователей. Система была запущена в эксплуа­тацию вдекабре 1995 г. и долгое время считалась молодой, но бурно развива­ющейся. Дляначинающих система имеет упрощенную службу, которая называется AskAltaVista. В своейработе эта служба привлекает другую поис­ковую службу — AskJeeves(см. ниже). Несмотря на то, что сегодня AltaVistaуже не является самым удобным средством поиска и владеет несамым большим индексом, ее популярность по-прежнему выше, чем у служб, кото­рыепревзошли ее по многим показателям, что связано с устоявшимися привычкамимиллионов пользователей.

<span Times New Roman",«serif»; mso-ansi-language:EN-US">Ask Jeeves (http://www.askjeeves.com/)

Эта системапредставляет образец человеческого (неавтоматизированного) подхода к индексациии хранению информации о Web-документах. Ее цель не в том, чтобы выдатьв ответ на запрос как можнобольше возможных ссылок,  в том, чтобыони были наиболее точны. В идеале система должна вас направить именно к тойWeb-странице, которая вам как раз и нужна. Сис­тема была введена в эксплуатациюв июне 1997 г. Результаты поиска в этой системе используются и при размещениизапроса в AltaVista.

<span Times New Roman",«serif»; mso-ansi-language:EN-US">Direct Hit (http://www.directhit.com/)

Систему DirectHitможно назвать системой «рафинирования» результатов поиска,выдаваемых другими поисковымисистемами. Она контролирует, какими  результатами поисков клиенты пользуютсянаиболее часто и, тем самым, создает некий рейтинг популярности Web-стра­ниц.Этот рейтинг она предоставляет другим поисковым системам, и они учитывают егопри выдаче результатов. Технология DirectHitнапрямую используетсяпоисковой системой HotBot. Она такжеучитывается систе­мами Lycos, LookSmartи MSNSearch.

<span Times New Roman",«serif»; mso-ansi-language:EN-US">Excite (http://www.exc1te.com/)

Excite— одна из самых популярных поисковых систем WorldWideWeb. Она имеетуказатель среднего размера и кроме поиска Web-страниц предоставляет  услуги по поиску других материалов, напримерсведений о компаниях или результатов спортивных соревнований. Система быласоздана в конце 1995 г., прошла этап бурного развития и в 1996 г. погло­тиладвух ближайших конкурентов: систему Magellanи WebCrawler, хотя те по-прежнему сохраняютсвои торговые марки и предоставляют поис­ковые услуги как самостоятельныеслужбы.

<span Times New Roman",«serif»; mso-ansi-language:EN-US">FAST Search (http://www.alltheweb.com/)

Эта система,принадлежащая норвежской компании, ранее называлась AllTheWeb. Несмотряна то, что она была запущена совсем недавно (в мае 1999 г.), перед ней ставитсязадача обогнать конкурентов в полноте коллекций ссылой;

наWeb-страницы. Кажется, ей это удается. Летом 1999 г. FASTSearchпервое перешагнула 200-миллионный рубежпроиндексированных Web-докумеатов. Кроме системы FASTSearchта жекомпания контролирует подразделение системы Lycos, занимающееся поиском музыкальных файлов в формате МРЗ.                                                          л!

<span Times New Roman",«serif»; mso-ansi-language:EN-US;mso-bidi-font-weight:bold">Go/Infoseek(http://www.go.com/)

Go/lhfoseek— этосочетание известной в прошлом поисковой системы Infoseek(былаоснована в 1995 г.) и современного портала Go(создан в 1999 г. и принадлежит небезызвестной WaltDisneyCo). Кромепоисковых возможностей Infoseekпорталпре-| доставляет зарегистрированным пользователям возможность персональнойнастройки среды, бесплатную электронную почту и другие полезные cepвисы. Пользователи этой системы отмечают высокоекачество ссылок, возвращаемых системой, что объясняется специальным «фирменным»алгоритмом! поиска. Кроме автоматизированного указателя система имеет такжеобширный каталог Web-узлов, составляемый вручную.

<span Times New Roman",«serif»; mso-ansi-language:EN-US;mso-bidi-font-weight:bold">GoTo (http://www.goto.com/)

Поисковаяслужба GoTo не имеет отношения к порталу Go, и известна тем, что формирует результаты поиска накоммерческой основе. Компании, владеющие Web-узлами, за определенную платумогут договориться, чтобы ссылки на них появлялись на более высоких местах всписках итоговых результатов. Насколько известно, более никто, кроме AltaVista, не занимается такими махинациями. Впрочем, служба GoTo несчитает это махинацией, а полагает, что платежеспособность Web-издателянапрямую  связана с качествомпоставляемой им информации, и потому для пользователя такой подход полезен. Приформировании списка служба берет оплаченные ссылки из собственной базы данных,а неоплаченные черпает от поисковой системы Inktomi(см. ниже).

Служба была запущена в 1997 г. В ееоснову был положен Web-краулер WorldWideWebWorm, приобретенный у разработчика — университета штата Колорадо.С его помощью собиралась первичная база указателя. В 1998 г. служба перешла нанынешнюю «коммерческую» модель обслуживания и начала использовать систему Inktomiв качестве генератора «некоммерчес­ких»ссылок.

<span Times New Roman",«serif»; mso-ansi-language:EN-US;mso-bidi-font-weight:bold">Google(http://www.google.com/)

Служба Googleизвестна тем, что при генерации списка  ссылок в первую очередь выдает ссылки на те Web-страницы, к которым из других документов ведет  наибольшееколичество ссылок. Это дает очень интересный эффект. На большинстве поисковыхсистем совершенно бесполез­но искать информацию по таким тривиальным словам какCars(Автомобили), Internet, WWW, Games(Игры).Поиск по этим словам вернет столько ссылок, что среди них невозможно найтисамые полезные. Служба Googleпри про­ведениипоиска по тривиальным словам дает отличные результаты, посколь­куруководствуется мнением других пользователей, ранее осуществлявших подобныйпоиск.

<span Times New Roman",«serif»; mso-ansi-language:EN-US;mso-bidi-font-weight:bold">HotBot(http://hotbot.lycos.com/)

Попопулярности среди сетевой общественности HotBot приближается к AltaVista. Как и AltaVista, эта служба имеет огромный поисковый указатель и многополезных функций. При генерации первой "^^S^^^^^ страницы ссылок HotBot используетрезультаты, поступающие от системы DirectHit(см. выше). При генерациипоследующих страниц используется система Inktomi(см. ниже), услугами которой пользуются и другие поис­ковыеслужбы. Кроме поиска по ключевым словам служба предоставляет также возможностьпоиска по тематическому каталогу. Данные для ката­лога черпаются из проекта OpenDirectory(см. ниже).

СлужбаHotBot была создан

еще рефераты
Еще работы по программированию, базе данных