Реферат: Сетевые средства поиска информации

Каталоги

Объеминформации Интернет переживает стремительный рост: по оценкам экспертов,количество Web-страниц увеличилось от нескольких десятков тысяч в 1996 г. донескольких сотен тысяч к концу 1998 г. В этих условиях ни одно отдельно взятоесредство поиска информации не сможет охватить всех ресурсов Сети. Поэтому дляэффективного решения задачи поиска пользователю необходимо свободно ориентироватьсяв сложном и многообразном мире поисковых инструментов. Правильный выборсредства поиска информации в каждом конкретном случае является существенным,если не определяющим, фактором успешного выполнения задачи.

Каталогипредставляют собой систематизированные группы адресов, объединенные, какправило, по тематике. К удобству их применения можно отнести то, что, еслипользователю известна тема искомого документа, он будет исследоватьсоответствующую ветвь каталога, не отвлекаясь на посторонние, не относящиеся кделу документы. Однако, объем каталога ограничен физическими возможностямиредакторской группы и ее субъективностью в выборе материала. В них отсутствуетинформация на узкие, специальные темы, да и саму тематику искомого документа невсегда можно сформулировать в пределах классификации каталога.

Название Описание Yahoo! Самый популярный каталог, содержащий обширную информацию о десятках тысяч Web-узлов. Первый уровень иерархии содержит 14 тематических категорий, которые разветвляются еще на 4 — 5 подуровней. Имеет собственную машину поиска, позволяющую: 1) искать по базе Yahoo!, по Usenet или по адресам электронной почты; 2) ограничить поиск материалами, размещенными за последний день, неделю, месяц, год или 3 года; 3) выдать статьи, содержащие хотя бы одно ключевое слово или все ключевые слова; 4) искать по однокоренным словам или только по указанным ключевым; 5) выдать результаты по 10, 25, 50 или 100 на одной странице. Excite Reviews Содержит обзоры 60 тыс. узлов Интернет, систематизированные в иерархический каталог. City.Net Каталог сведений о разных странах и городах. Galaxy Иерархический каталог с подробным описанием тематических категорий на первой странице. Осуществляет поиск по категории поиска, по одному или нескольким ключевым словам, краткий и подробный вывод результатов поиска, переход на страницы Gopher и Telnet. Yellow Pages Поиск информации о 16 млн. американских компаниях в различных областях деятельности, а также персональные данные и электронные адреса частных лиц.

Поисковые машины

Вразделе курса «Поиск информации в Интернет» мы рассмотрели принципработы поисковых машин: часть машины, называемая «пауком» (или «спайдером»),постоянно путешествует по узлам сети, собирая и обновляя информацию, кодируетее (индексация) и записывает в специализированную базу данных. При поступленииот пользователя запроса в виде набора ключевых слов машина исследует свою базуданных и выдает список документов, содержащих ключевые слова, как правило,ранжированный в зависимости от частоты вхождения ключевых слов и другиххарактеристик.

Кдостоинствам применения поисковых машин можно отнести огромный объеминформации, исследуемой ими, и ее периодическую актуализацию. Однако, при этомне учитываются документы, не содержащие ключевых слов, а, с другой стороны, всписке содержится много шумовой, не относящейся к делу информации, отсеиваниекоторой занимает немалое время.

Название Описание Lycos Охватывает 68 млн. страниц. Можно выбрать параметры поиска: одно, несколько ключевых слов или фраза; усечение терминов; ограничения на число совпадений; степень соответствия результатов поиска ключевым словам; форму вывода результатов ( краткую или подробную ); количество найденных терминов на каждой странице. Невысокие быстродействие и оперативность обновления информации. Alta Vista Охватывает более 30 млн. страниц на 225000 серверах, обеспечивает доступ к 3 млн. статей в 14000 телеконференциях Usenet. Имеет два режима: Simple query и Advanced query. В режиме Simple можно вводить шаблоны для поиска не менее, чем с тремя указанными символами в начале слова. Если слово содержит хотя бы одну заглавную букву, ведется поиск с учетом регистра. Ниже строки ввода выдаются советы по поиску. В режиме Advanced можно создавать сложные запросы, основанные на логических операторах AND, OR, NOT, NEAR и указывать критерии сортировки полученных результатов. Можно указывать диапазон дат опубликования. Предоставляет возможность поиска изображений. Удобный интерфейс. Высокое быстродействие, многовариантное поисковое предписание, возможность поиска на русском языке с учетом морфологии. Система не упорядочивает результаты поиска, поэтому ее целесообразно применять для специфического или исчерпывающего поиска. Infoseek Guide Охватывает 1,5 млн. страниц. Язык запросов позволяет использовать все возможные варианты логических выражений. Менее полные, чем на других серверах, результаты поиска, неудобный интерфейс. Infoseek Ultra 50 млн. страниц WWW, возможен поиск на русском языке, поиск изображений. WebCrawler Охватывает WWW, Usenet, Gopher, FTP, Telnet. Возможен поиск на русском языке. Простота в обращении, быстрота. Менее обширная база узлов, чем на других серверах. HotBot Охватывает 54 млн. страниц. Многовариантное поисковое предписание. Возможен поиск на русском языке.

Мета-средства поиска

Мета-средствапоиска позволяют усовершенствовать процесс путем запуска одновременнонескольких средств поиска. Этот способ значительно повышает качество поиска,объединяя достоинства и возможности всех используемых средств.

Однако,иногда поиск с применением мета-средств может оказаться очень медленным, таккак им приходиться координировать во времени поступления результатов обработкизапроса от нескольких серверов и проблемы, возникшие у одного из них, могутприостановить работу всей системы. Еще одним недостатком мета-средств являетсято, что они не позволяют использовать возможности языка запроса каждого изприменяемых поисковых средств и не дают возможности заглянуть в их справочныеруководства.

Название Описание MetaCrawler Подключает 9 поисковых систем одновременно. Проверяется возможность доступа к найденной информации, соответствие содержимого заданному критерию. Можно сортировать информацию по территориальной близости, по близости к определенному узлу, по отношению к компании и т.д. Возможен поиск на русском языке. Есть возможность персональной настройки интерфейса. SavvySearch

Запускает одну из 4 групп, состоящих из трех поисковых систем:

-  WebCrawler, Yahoo!, Lycos -  Galaxy, Excite, DejaNews -  FTPSearch95, Yellow Pages, Infoseek -  Magellan, NlightN, PointSearch

Поисковое предписание с использованием операторов AND и OR. Возможен поиск на многих языках, в том числе на русском.

All-in-One

Хорошо структурированная мета-машина, имеющая древовидную классификационную структуру, на верхнем уровне которой размещены группы:, весь Internet, личные интересы, ПО, странички частных лиц, новости и погода, литература и прочее. Уточняя содержание каждой группы, можно попасть на следующий уровень.

Использует около 200 поисковых средств.

Internet Sleuth

Охватывает 1500 баз данных. Можно запустить одновременно до 10 поисковых систем из 24, имеющихся в меню. Использует операторы AND, OR, NOT, усечение терминов. Для каждой поисковой машины можно задать свой критерий и свое ограничение времени поиска.

Возможен поиск на русском языке. Тематический поиск ведется по большому количеству периодических изданий и информационных служб многих стран. Для группы «НОВОСТИ» используется 39 источников.

Русскоязычные средства поиска

Каталоги

Название Описание ПАУК Широкий охват русскоязычного WWW. Глубина поиска: название, первые строки, электронный адрес документов. Поддерживает все русские кодировки, возможность усечения терминов. Большой объем, разветвленная иерархическая структура. Слабая оперативность обновления информации. Созвездие Интернет Охватывает около 400 серверов. Возможность усечения терминов. Содержит названия и краткие характеристики серверов. Привлекательная графика. Небольшая зона поиска, слабая иерархия. Желтые страницы Интернет Около 1200 Web-серверов. Большой объем информации, хорошо продуманная структура. Russia on the Net Первый каталог русских ресурсов. АУ! Молодой, быстроразвивающийся каталог. Сокровища Интернет Каталог Web-ресурсов на сервере Relcom.

Поисковые машины

Название 1. Зона поиска 2. Глубина поиска 3. Язык запроса 4. Вывод результата 5. Достоинства и недостатки Rambler 1. Около 4000 Web-узлов, недельный архив телеконференций Relcom. 2. Все слова в документе. 3. Операторы AND, OR, NOT. Возможность усечения терминов. Ограничения по дате. Простой запрос — 30 ссылок, углубленный — 1000. 4. Название документа, резюме, размер файла, адрес, дата последнего обновления, степень соответствия, кодировка. 5. Удобный интерфейс, высокое быстродействие, полная информация на выходе. Слабая оперативность обновления информации. Апорт! 1. 16 серверов. 2. Все слова в документе. 3. AND и OR. Поиск по фразе (в двойных кавычках). Возможность усечения терминов. Чувствительность к строчным и прописным буквам. 4. Название документа, резюме, размер файла, адрес, дата последнего обновления, степень соответствия запросу, кодировка. 5. Удобство для пользователя, высокое быстродействие. Русская Машина Поиска 1. Более 900 русскоязычных узлов. 2. Все слова в документе. 3. AND и OR. Поиск по отдельной фразе. Ограничения поиска определенными элементами Web-страниц (название, ключевые слова, автор и т.д.). пользователь может установить или отменить чувствительность к строчным и прописным буквам и указать количество возможных ошибок в искомом слове, если нет уверенности в его написании. 4. Название документа, резюме, адрес, степень соответствия запросу. 5. Многовариантность поискового предписания. Непривычная форма выдачи результата. Яndex-Web 1. 5000 серверов — вся русская часть Интернет, включая домены «RU», «SU», а также русскоязычные ресурсы в других доменах. 2. Все слова в документе. 3. AND, OR, NOT. Позволяет осуществлять поиск внутри абзаца, документа, в заголовках и других полях, а также с указанием расстояния между словами. Поиск по фразе. Учет морфологии русского языка. Чувствительность к строчным и прописным буквам. Возможность простого и сложного запроса. Поиск в найденном. 4. Заголовок, начало текста документа, размер файла, дата и адрес, степень соответствия запросу, кодировка. Возможность «подсвечивания» слов в тексте, соответствующих поисковому предписанию. 5. Индексация обеспечивает нормализацию слов и уникальность документа. Широкий охват, удобный интерфейс, высокое быстродействие, высокая оперативность обновления информации (раз в неделю).

Данное описание не претендует наисчерпывающий охват средств поиска. Более подробную информацию можно получить,изучая иные варианты списков поисковых средств, доступные в Интернет.

Список литературы

Дляподготовки данной работы были использованы материалы с сайта www.dist-cons.ru/

еще рефераты
Еще работы по информатике, программированию