<< Стартовая страница

2.1. ГЛОБАЛЬНЫЕ СПРАВОЧНИКИ РЕСУРСОВ И ПОИСКОВЫЕ СИСТЕМЫ


Электронные справочники глобального масштаба

Созданием и актуализацией справочников глобального масштаба в большинстве случаев занимаются информационные компании, прежде всего американские. Практически все справочники декларируют всемирный охват материала, однако, практика показывает, что основной упор делается все-таки на североамериканские сайты. Естественно, что обращение к глобальным справочникам ресурсов требует минимального владения английским языком.

Yahoo! (http://www.yahoo.com)

Yahoo! является одним из самых первых, надежных и авторитетных справочников Всемирной паутины. У каталога два основных достоинства: - внушительный объем (на сегодня отражено порядка 2 миллионов сайтов в более чем 25 тысячах категорий) и научность и логичность используемой схемы классификации. За счет этого в справочнике объективно отражаются все отрасли знания без каких либо приоритетов. В Yahoo! учитываются не только web-сайты, но и конференции UseNet. Эти достоинства на протяжении всей второй половины 1990 годов позволяли Yahoo! оставаться незаменимым инструментом для первоначального ознакомления с информационным наполнением в Интернет по любой области деятельности.

Интерфейс справочника Yahoo!
Интерфейс справочника Yahoo. Сегодня его нелегко разглядеть среди множества других сервисов, предоставляемых компанией.

Основной ряд Yahoo! включает 14 категорий, в числе которых: БИЗНЕС И ЭКОНОМИКА, КОМПЬЮТЕРЫ И ИНТЕРНЕТ, НОВОСТИ И СМИ, РАЗВЛЕЧЕНИЯ, ИСКУССТВО И ГУМАНИТАРНЫЕ НАУКИ, ОБРАЗОВАНИЕ, ПОЛИТИКА, ЗДРАВООХРАНЕНИЕ, ЕСТЕСТВЕННЫЕ НАУКИ, ОБЩЕСТВЕННЫЕ НАУКИ и т.д. Использование Yahoo!, как и любых других справочников, наиболее эффективно для ознакомления с наполнением Интернет по различным областям деятельности, при размытости критериев поиска - когда неизвестно по каким ключевым словам осуществлять поиск. Разыскание осуществляется путем последовательного просмотра категорий: шаг за шагом, разворачивая пункты меню, построенные в иерархическом порядке, можно знакомиться с полным перечнем ресурсов, постепенно сужая и конкретизируя тему. Так, от самого общего раздела СПРАВОЧНЫЕ РЕСУРСЫ (REFERENCES) можно дойти до web-сервера конкретной библиотеки, миновав по пути разделы БИБЛИОТЕКИ, БИБЛИОТЕКИ ОПРЕДЕЛЕННОЙ СТРАНЫ, БИБЛИОТЕКИ ОПРЕДЕЛЕННОГО ТИПА. На каждой ступени иерархии после названий разделов в скобках указывается число отраженных в них ресурсов. При большом количестве объектов в одном разделе пользователям предлагается выбрать первую букву названия сайта (например, названия университета или фамилии популярного исполнителя).

Справочник имеет перекрестную структуру, позволяющую находить данные, используя различную логику поиска. Например, Московский государственный университет может быть найден как по цепочке ОБРАЗОВАНИЕ/ ВЫСШЕЕ ОБРАЗОВАНИЕ/ УНИВЕРСИТЕТЫ/ УНИВЕРСИТЕТЫ РОССИИ, так и через РЕГИОНЫ/ СТРАНЫ/ РОССИЯ/ ОБРАЗОВАНИЕ/ УНИВЕРСИТЕТЫ.

При необходимости выявить данные о конкретных объектах целесообразно прибегнуть к непосредственному поиску. В поисковую строку должны быть введены ключевые слова, максимально полно обозначающие искомый объект. Следует учитывать большой объем Yahoo! и, следовательно, опасность возникновения большого информационного шума при выдаче результатов. Поэтому, прежде чем прибегать к поиску по ключевым словам, рекомендуется предварительно пройти несколько соответствующих иерархических ступеней. Например, для поиска сайтов, посвященных хоккеисту Павлу Буре (Bure), рекомендуется предварительно войти в раздел СПОРТ/ ХОККЕЙ и ограничить условия поиска, передвинув соответствующую фишку на пункт just this category (только в этой категории). В этом случае автоматически отсеются ссылки на многочисленные сайты, в которых встречается термин Bure, но которые не имеют никакого отношения к российскому хоккеисту.

В случае результативного поиска, в перечне результатов вначале будут указаны категории (рубрики классификации), в которых встречаются искомые слова, а затем названия отдельных серверов.

Yahoo! - огромный транснациональный проект. В основном справочнике учитываются, главным образом, англоязычные ресурсы, представленные по всему миру. Для разысканий по отдельным странам выделены Local Yahoos! - региональные справочники, обладающие иерархической структурой, аналогичной главному справочнику, но отражающие ресурсы в основном отдельных стран, большинство которых представлено на национальных языках.

Учитывая гигантскую популярность и, следовательно, посещаемость Yahoo!, в последние несколько лет его владельцы уделяют все большее внимание побочным сервисам, среди которых электронные магазины, аукционы, службы новостей, агентства путешествий и т.п. Собственно справочник занимает все более и более скромное место в интерфейсе титульной страницы сервера. Кроме того, с марта 2004 года за включение сайта в справочник взимается не только разовая, но и ежегодная абонентская плата - 300 долларов. Это не только затрудняет включение в Yahoo! новых сайтов мелкого бизнеса, но и приводит к исключению из каталога сайтов, не уплативших ежегодный взнос. Естественным следствием этого является то, что содержание справочника постепенно все менее соответствует реальному наполнению Интернет. Эксплуатация известной торговой марки без поддержания высокого качественного уровня основного продукта уже обернулась снижением авторитета Yahoo! как ведущего справочника, и если в ближайшее время в этой области не будут предприняты кардинальные шаги, его популярность будет снижаться, несмотря на громкое имя.

Open Directory Project (http://dmoz.org)

Справочник ресурсов Интернет, являющийся на сегодня одним из наиболее полных в мире - порядка 4,5 миллионов сайтов в более чем 590 тысячах категорий. Главной особенностью проекта является его некоммерческая направленность: он практически полностью формируется силами добровольцев из числа пользователей Сети, считающих себя экспертами в различных областях знания. В этом одновременно сила и слабость проекта, поскольку степень и качество наполнения разных категорий справочника полностью определяются наличием, квалификацией и степенью ответственности редактора конкретной рубрики.

Основной интерфейс Open Directory.
Основной интерфейс Open Directory. Маленький зеленый крокодильчик составляет все более серьезную конкуренцию Yahoo!

Иерархическая структура Open Directory достаточно научна и логична. В каждой рубрике, помимо англоязычной части, как правило, представлены варианты справочника на нескольких десятках национальных языков, в числе которых и русский. Все они подготовлены региональными редакторами из числа жителей соответствующих стран. При желании можно перейти на русскоязычный вариант справочника с первой страницы, выбрав из основного деления WORLD подрубрику RUSSIAN. В ней, однако, на сегодня зарегистрировано немногим более 26 тысяч сайтов, что ни в коей мере не отражает реального наполнения российского сегмента Сети. Подобным же образом обстоит ситуация и с другими иноязычными вариантами.

В настоящее время Open Directory является динамично развивающимся проектом, который перехватывает значительную долю популярности у коммерциализировавшегося Yahoo!. Увеличение среднего объема справочника более чем на 1000 сайтов в день сулит проекту неплохие перспективы, подтверждая мысль о том, что совокупный интеллектуальный потенциал сетевого сообщества может превосходить интеллект одной, пусть даже очень мощной компании.

Усовершенствованный вариант Open Directory с успехом используется в качестве справочника в поисковой системе Google.

About (http://www.about.com)

Справочник, поддерживаемый экспертами различных областей знания. Основная отличительная черта About - принципиальная ориентация на отражение не всех, а лишь наиболее ценных и заслуживающих доверия ресурсов. Основной ряд классификации включает 24 деления, которые выделены в соответствии с интересами среднестатистических пользователей Интернет. Среди них АВТОМОБИЛИ, ПОМОЩЬ В ВЫПОЛНЕНИИ ДОМАШНИХ ЗАДАНИЙ, ХОББИ И ИГРЫ, ДЕНЬГИ, ПУТЕШЕСТВИЯ, ПОДРОСТКИ и т.п. Внутри категорий подрубрики выделяются в виде перечней в правой стороне экрана. Очень квалифицированно составлены аннотации включенных сайтов.

Главным недостатком About является огромное количество рекламы, как встроенной в интерфейс, так и самопроизвольно открывающейся в новых окнах, а также практически стопроцентная ориентация на североамериканские ресурсы.


УПРАЖНЕНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ:

1. Путем последовательного просмотра категорий Yahoo! выявить официальные серверы Лувра, компании Toshiba, Йельского университета.
2. С помощью Yahoo! найти перечень сайтов, посвященных шуткам по поводу компании Microsoft.
3. Провести поиск англоязычных ресурсов по теме "библиотечный юмор" с использованием Yahoo! и Open Directory. Сравнить полученные результаты.



Глобальные поисковые системы

Поисковые системы (search engines) распространены в гораздо большем количестве, нежели электронные справочники, и число их, составляющее сегодня нескольких десятков, продолжает неуклонно увеличиваться. Профессиональная работа с ними требует специальных навыков, поскольку простой ввод искомого термина в поисковую строку, скорее всего, приведет к получению списка из сотен тысяч документов, содержащих данное понятие, что практически равносильно нулевому результату.

Google (www.google.com)

Поисковая система, запущенная в 1998 году и являющаяся ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам. Главное достоинство Google - объем его индексного файла, который составляет на сегодня более 4,2 миллиардов web-страниц и статей из групп новостей по интересам. В сутки программы-роботы системы индексируют порядка трех миллионов новых и обновленных страниц, при том, что актуализация базы производится каждые 28 дней.

Второе несомненное преимущество Google - его способность индексировать документы не только в виде HTML-файлов, но также документы в форматах PDF, RTF, PS, DOC, XLS, PPT, WP5 и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML-файл, что освобождает пользователя от необходимости иметь специальное программное обеспечение для доступа к файлу.

Следующим важнейшим достоинством является специально разработанный модуль ранжирования результатов - PageRank. Он основан на алгоритме, согласно которому вначале устанавливается структура ссылок во всей Сети, а затем каждая отдельная страница ранжируется в соответствии с числом и значимостью ссылок на нее с других страниц. При этом авторитетность внешних ссылок более важна, чем их количество. Подобный алгоритм позволяет существенно повысить релевантность ссылок, вследствие чего Google отличает высокая степень соответствия найденной информации интересам пользователя. Этот результат достигается, в частности, еще и за счет специальной подсистемы защиты пользователя от сайтов, которые продвигаются с помощью различных недобросовестных методов.

Google отличается высокой степенью комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу www.google.com.ru. Длительность процесса в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.

Интерфейс первой страницы Google

Интерфейс первой страницы Google - на сегодня в Сети у него нет достойных конкурентов.

Методика поиска с помощью Google предельно проста. В поисковую строку водится запрос на естественном языке - неважно на русском, английском или любом другом. Язык запросов не допускает усечения терминов знаком "*", поэтому все возможные варианты слов (library, libraries, librarians) пользователю следует вводить самостоятельно. Все термины запроса по умолчанию объединяются условием AND (И) - перед ними нет нужды ставить знак "+". Таким образом, в список результатов попадают лишь страницы, содержащие все введенные ключевые слова. Для поиска по точной фразе традиционно используются кавычки: так, запрос "Кто убил кошку у мадам Поласухер?" прямо приведет к ссылке на полный текст "Собачьего сердца" Михаила Булгакова. Поисковый механизм игнорирует стоп-слова (предлоги, союзы, артикли), однако, если какое-либо из таких слов существенно, перед ним необходимо поставить "+", давая понять системе, что в данном случае термин даже из одной буквы является значимым (например, Александр +I).

Google имеет в своем арсенале множество опций для максимальной конкретизации запроса. Все они доступны через меню Advanced Search "Расширенный поиск". Помимо уже описанных возможностей, добавляются фильтры, ограничивающие язык документа, его формат (к примеру, "только документы в PDF"), время опубликования ("последние три месяца"), место термина в самом документе ("в заголовке страницы") или расположение страницы в определенном домене или даже сайте.

Выдаваемые в результате поиска ссылки на документы, помимо традиционных сведений о заглавии документа, контексте искомых слов и данных о размере, содержат функцию Cached "Сохранено", позволяющую полностью восстановить весь документ, если по каким-либо причинам сайт, на котором он расположен, недоступен. Еще одна функция Similar pages "Похожие страницы" позволяет получить перечень страниц, содержание которых схоже с указанным источником. Эта функция, впрочем, пока выполнена без особого успеха.

Помимо поиска текстовых материалов, Google обладает лучшими на сегодня возможностями поиска иллюстраций с помощью режима "Поиск изображений" (Images, "Картинки"). В его базе данных учтено более 880 тысяч иллюстраций, разыскание которых ведется аналогично поиску текстовых документов с возможностью ограничения определенным размером, форматом или цветностью графических файлов - все через опцию "Расширенный поиск изображений".

При использовании Google следует, однако, помнить, что при работе с файлами большого объема он индексирует не весь источник, а лишь его первые 101 Кб. (для PDF-файлов лимит ограничен 120 Кб.), поэтому индексация документа пока не всегда гарантирует возможность его нахождения по любому фрагменту текста.

В качестве собственного справочника ресурсов Интернет Google использует усовершенствованный массив Open Directory Project, что порой позволяет сочетать достоинства обоих поисковых инструментов.

Дополнительным платным сервисом Google является поиск труднодоступной информации непосредственно человеком. Стоимость этого вида обслуживания - $2.50 за ответ.

AlltheWeb / Fast Search (http://www.alltheweb.com)

Поисковая система, существовавшая с 1997 года под данным именем, была разработана в Норвегии и изначально ориентирована преимущественно на европейские сайты. В начале 2000 годов Fast Search был приобретен Yahoo!, но до марта 2004 года продолжал существовать в качестве оригинального поискового сервиса, регулярно наращивая собственный индексный файл и повышая степень релевантности поиска. На протяжении всех 2000 годов Fast Search справедливо рассматривался в качестве главного конкурента Google. Однако с 25 марта 2004 года под брэндом Fast Search была размещена и запущена в действие поисковая система Yahoo!, разработанная на основе поискового механизма Inktomi, ранняя версия которого использовалась, в частности, в поисковой системе HotBot. В настоящее время Fast Search представляет собой фактическое "зеркало" поисковой системы Yahoo!, с той лишь разницей, что в его модуле выдачи результатов гораздо лучше решены проблемы вывода документов на разных языках, использующих кодировки, отличные от расширенной латиницы. В число 36 языков, с которыми система работает вполне корректно, попал и русский.


В"Fast Search" - интерфейс главной страницы.

Индексный файл Fast Search по уверениям владельцев в настоящее время содержит несколько миллиардов документов. Более точная цифра владельцами не указана, однако, сравнительное тестирование показывает ее значительное отставание от Google. Зная объем базы последнего, можно оценить емкость индекса Fast Search приблизительно в пределах 2,3 - 2,5 миллиардов документов. Помимо текстовых разысканий в WWW, нынешний вариант системы поддерживает поиск в группах новостей по интересам, поиск иллюстраций, видеофрагментов и аудиофайлов, в том числе и с русскоязычных серверов. Система способна собирать сведения и индексировать размещенные в Интернет файлы в форматах PDF, DOC, XLS, PPT.

Fast Search оперирует традиционным языком запросов, включающим знаки "+", "-" и кавычки для поиска цитат. Для формирования сложных запросов рекомендуется обращаться к Advanced Search ("Расширенному поиску"). Его система многоступенчатых меню позволяет легко применить фильтры, в числе которых ограничения по местоположению термина в документе, определенному домену или географическому местоположению, времени опубликования документа и формату файла. Среди сервисных функций Fast Search возможность установки персональных режимов для поиска и их сохранение в системе (на конкретном компьютере) для работы в дальнейшем.

Alta Vista (http://www.altavista.com)

Система, обозначающая в переводе "вид сверху", введена в эксплуатацию в 1995 году и в течение трех лет являлась признанным лидером сетевого поиска по объему индексного файла, эффективности ранжирования результатов и сервисным функциям. Именно в ней был впервые опробован ставший ныне традиционным язык запросов: знаки "+" и "-", усечение с помощью знака "*" и кавычки для поиска по точной фразе. В форме углубленного запроса были впервые эффективно использованы булевые операторы и оператор расстояния - NEAR.

В 2002 году AltaVista претерпела существенную модернизацию: был кардинально обновлен программный модуль, что позволило расширить объем базы данных, который составлял чуть более 1 миллиарда страниц. В это же время в AltaVista был добавлен интеллектуальный модуль Prisma, помогавший пользователям точнее сформулировать запрос. Однако приобретение данной поисковой системы корпорацией Yahoo! положило конец существованию оригинального поискового механизма AltaVista и ее индексного файла. В настоящее время, также как и в случае с Fast Search, при вводе запроса происходит транслирование результатов поиска из базы поискового модуля Yahoo!. Fast Search и AltaVista имеют одинаковые условия для формирования запроса и показывают практически идентичные результаты.

Помимо перечисленных глобальных поисковых систем, в некоторых случаях, скорее по инерции, продолжают использоваться устаревшие поисковые сервисы, среди которых наиболее заметны Lycos (www.lycos.сom), HotBot (www.hotbot.com), InfoSeek (www.infoseek.com) и Excite (www.excite.com). Малый объем их индексных файлов в настоящее время не позволяет полагаться на предоставляемые ими сведения. "Молодые" поисковые системы, запущенные в 2000 и 2001 годах, такие как WiseNut (www.wisenut.com) и Teoma (www.teoma.com), несмотря на внушительный объем проиндексированных документов, пока не представляют особого интереса. Ни одна из них, к примеру, не способна осуществлять поиск документов на русском языке.

Мета-поисковые системы

Отличия в стратегии и широте охвата материала различных систем часто приводят к тому, что разные поисковые средства дают разноречивые ответы на один и тот же запрос. Этим не замедлили воспользоваться разработчики поисковых орудий особого рода, основанных исключительно на использовании потенциала других поисковых систем. Все они получили название мета-поисковые машины. К наиболее известным их представителям относятся, в частности, MetaCrawler (www.metacrawler.com), KartOO (www.kartoo.com), Vivisimo (vivisimo.com), Ez2www.com (http://ez2www.com) и некоторые другие. Мета-поисковые системы не имеют собственных поисковых роботов и баз данных (индексных файлов). Их достоинство заключается в умении рассылать вводимые в них запросы по другим системам, а затем суммировать результаты. Таким образом, пользователь, вводя поисковое предписание, например, в Vivisimo, фактически одновременно обращается к десятку поисковых систем. Этим гарантируется "объективность" полученных результатов, однако, учитывая различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.

Так выглядит результат поиска в KartOO.
Так выглядит результат поиска в KartOO. Указаны наиболее информативные сервера и взаимосвязи между терминами.

Пользоваться мета-поисковыми системами рекомендуется для выполнения запросов, связанных с поиском очень простых, и, предположительно, крайне редко встречающихся в Сети предметах (лекарственных препаратах, химических элементах, редких сочетаниях имен собственных и т.п.). В этом случае результаты поиска сразу же дают представление о том, насколько широко данные ключевые слова (объекты) встречаются в Сети. Другой причиной обращения к мета-поиску является крайний недостаток времени. Однако, поскольку мета-поисковые средства очень часто не в состоянии корректно обработать запрос для различных поисковых систем и правильно совместить полученные из разных источников результаты, их использование не рекомендуется при выполнении сложных запросов. Поисковые предписания, включающие несколько словосочетаний с указанием расстояния между терминами и тому подобными условиями, заведомо не могут принести правильный ответ. Развернутый список мета-поисковых систем можно получить в Русской справочной библиотеке (http://www.openweb.ru/stepanov/library/gsengine.htm).


УПРАЖНЕНИЯ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ:

1. Используя Google, выявить основные источники по цифровым библиотекам (digital libraries), опубликованные в 2004 году.
2. С помощью FastSearch найти материалы по психологическим (psychological) аспектам взаимодействия человека и компьютера (human computer interaction), опубликованные в 2003 году.
3. Провести поиск статей и научных докладов, посвященных теме "базы знаний" (knowledge bases) и расположенных на австралийских web-серверах, с помощью двух глобальных поисковых машин. Сравнить полученные результаты.
4. Провести поиск фрагментов музыкальной темы из кинофильма "Крестный отец" (Godfather) с использованием всех возможных поисковых средств.




2.2. Российские справочники и поисковые системы >>

© 2002 - 2004 Вадим Степанов