Реферат: Технологии поиска документальной информации в INTERNET

МосковскийГосударственный Горный Университет

Курсовая работа

на тему: «Технологии поискадокументальной информации в INTERNET»

по дисциплине: «ПТК САПР»

Выполнил:

Проверил: 

МОСКВА2002 год.

СОДЕРЖАНИЕ(стр.):

1. ВВЕДЕНИЕ.

1.1. Чтотакое Internet(3).

1.2.Краткая история Internet(4).

2. БРАУЗЕРЫ: сравнительныехарактеристики NetscapeNavigatorи MicrosoftInternetExplorer(5).

3. ПОИСКОВЫЕ СИСТЕМЫ (7).

3.1.Механизмы поиска (9).

3.2.Сравнительный обзор поисковых систем. Структура запроса (11).

     

          3.3 Алгоритмы поиска (17).

                     3.3.1 АлгоритмКнута-Мориса-Пратта (17).

                     3.3.2 Алгоритм Бойера-Мура(19).

                     3.3.3 Алгоритм Рабина(21).

4. ЗАКЛЮЧЕНИЕ (23).

5. СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ(24).

1. ВВЕДЕНИЕ.

1.1. Что такое Internet.

Internet — глобальная компьютернаясеть, охватывающая весь мир. Сегодня Internetимеет около 30 миллионов абонентов в более чем 180 странах мира. Ежемесячноразмер сети увеличивается на 5-7%. Internetобразует как бы ядро, обеспечивающее связь различных информационных сетей,принадлежащих различным учреждениям во всем мире, одна с другой.

         Всплескинтереса к глобальной информационной сети Internetнаблюдается сейчас повсеместно. В сложившихся условиях потребность в информациио сети Internet становитсяособенно острой. В настоящее время по Internetраспространяется множество документов, касающихся как функционирования сети иработы в ней пользователей, так и связанных с различными сферами жизни: наукой,культурой, экономикой и т.д. При чём обновление информации в Internet, обширной разветвленной сети,которая включает в себя компьютерные узлы, разбросанные по всему миру,происходит, практически, в режиме реального времени.

         Вдействительности Internet непросто сеть, — она есть структура, объединяющая обычные сети. Internet — это «Сеть сетей».

         Чтобы описать сегодняшнюю Internet, полезно воспользоватьсястрогим определением. В своей книге «The Matrix: Computer Networks andConferencing Systems Worldwide» Джон Квотерман описывает Internet как «метасеть, состоящую измногих сетей, которые работают согласно протоколам семейства TCP/IP, объединенычерез шлюзы и используют единое адресное пространство и пространство имен».

Для организации межсетевых соединений необходимсоответствующий протокол.

Протокол — это набор договоренностей, которыйопределяет обмен данными между различными программами. Протоколы задают способыпередачи сообщений и обработки ошибок в сети, а также позволяют разрабатыватьстандарты, не привязанные к конкретной аппаратной платформе. Все параметры — отскорости передачи данных до методов адресации при транспортировке отдельныхсообщений — задаются протоколами, используемыми в данной конкретной сети.

ВInternetбазовымпротоколомслужитTCP/IP (Transmission Control Protocol/InternetProtocol). IPотвечает за адресацию сетевых узлов, а TCP обеспечивает доставку сообщений понужному адресу. Эти мощные протоколы были предложены в 1974 г. Робертом Кэном,одним из основных разработчиков ARPANET, и ученым-компьютерщиком ВинтономСерфом, вице-президентом CNRI. Следует иметь в виду, что TCP/IP не единственныйпротокол, пригодный для объединения различных сетей. Internet ныне превратилась в многопротокольную сеть, интегрирующуюдругие стандарты. Основные среди них — стандарты взаимодействия открытых систем(OSI).

Предложенные Международной организацией постандартизации (ISO) протоколы OSI получили широкое распространение в Европе.Системы, основанные на других протоколах, тоже подключаются к Internet через шлюзы. Например, BITNET- это сеть, которая использует для передачи данных свои собственные стандарты,однако, по крайней мере, частично, она доступна через шлюзы из Internet.

В Internetнет единого пункта подписки или регистрации; вместо этого вы контактируете споставщиком услуг, который предоставляет вам доступ к сети через местныйкомпьютер. Последствия такой децентрализации с точки зрения доступности сетевыхресурсов также весьма значительны. Среду передачи данных в Internet нельзя рассматривать толькокак паутину проводов или оптоволоконных линий. Оцифрованные данные пересылаютсячерез маршрутизаторы, которые соединяют сети и с помощью сложныхалгоритмов выбирают наилучшие маршруты для информационных потоков.

1.2. Краткая история Internet.

Вначале ничто не предвещало,что Internet станет общедоступнойкомпьютерной сетью. Как и многие другие великие идеи, «Сеть сетей» возникла изпроекта, предназначавшегося совершенно для других целей. Ее прародительницейстала сеть АRPANET, разработанная и развернутая в 1969г. компанией Bolt,Beranek, and Newman (BBN) по заказу Агентства передовых исследовательскихпроектов (ARPA) Министерства обороны США.

ARPANET объединяла учебныезаведения, военные организации и их подрядчиков. Она была создана с цельюпомочь исследователям в обмене информацией, а также (что явилось одной изглавных целей) для отработки методов поддержания связи в случае ядерногонападения.

Основатели ARPANETпервоначально позволяли ученым только войти в систему и запустить программу наудаленном компьютере. Скоро к этим возможностям прибавились передача файлов,электронная почта и списки рассылки, обеспечившие общение исследователей,интересовавшихся одной и той же областью науки и техники. Но по мере ростаARPANET развивались и другие сети, и вскоре стала очевидной потребность в новыхсредствах связи.

Сравнительно недавно появилась новая технология Internet названная World Wide Web (WWW), что обычнопереводится как «Всемирная паутина». Эта система была разработана, в основном,в Европейской лаборатории элементарных частиц в Швейцарии (CERN). Сетьпредназначалась первоначально для физиков, но затем получила широкое признание.

WWW построена по технологии,в основе которой лежит принцип создания гипертекстовых документов (Web-страниц).Гипертекстовый документ заключает в себе ссылки на другие подобные документы,которые, в свою очередь, содержат ссылки на следующие, и т.д. Таким образом,они оказываются связанными между собой.

Для работы в WWWиспользуется протокол HTTP (Hyper Text Transmission Protocol), а программы,позволяющие работать с соответствующими документами в Internet, называют просмотрщиками или браузерами.

2. БРАУЗЕРЫ: сравнительныехарактеристики NetscapeNavigatorи MicrosoftInternetExplorer.

Документы Internet предназначены для отображенияв электронном виде, причем автор документа не знает возможностей компьютера, накотором будут просматриваться документы. Поэтому был создан стандарт дляописания и создания документов, расположенных на Web-страницах. Этот языкназывается HTML(HyperTextMarkupLanguage– язык разметки гипертекста). Этот язык описываетлогическую структуру документа, управляет форматированием текста и размещениемвставных объектов.

Форматирование и отображениедокумента, описанного с помощью HTML, на конкретномкомпьютере  производится специальнойпрограммой – браузером. Проще говоря, браузер предназначен для просмотрасодержимого Web-страниц.

Основные функции браузеровследующие:

·<span Times New Roman"">      

установка связи с Web-сервером,на котором хранится документ, и загрузка всех его компонентов;

·<span Times New Roman"">      

форматирование и отображениеWeb-страниц в соответствии с возможностями компьютера, на котором браузерработает;

·<span Times New Roman"">      

предоставление средств дляотображения мультимедийных и других объектов входящих в состав Web-страниц,а так же механизма расширения, позволяющего настраивать программу на работу сновыми типами объектов;

·<span Times New Roman"">      

обеспечение автоматизациипоиска Web-страниц и упрощение доступа к страницам, посещавшимся раньше;

·<span Times New Roman"">      

предоставление доступа квстроенным или автономным средствам для работы с другими службами Internet.

В настоящее время на этомрынке доминируют два браузера: Navigatorфирмы Netscape и Internet Explorer фирмы Microsoft.

Они предоставляютпользователям весьма схожий интерфейс и набор основных возможностей и ведут наэтом рынке весьма жесткую конкурентную борьбу, постоянно обновляя предыдущиеверсии.

Ниже приводится описаниеосновных возможностей этих браузеров.

Браузер Internet Explorer обеспечивает работу сWWW, предоставляет идентичные средства работы с локальными папкамикомпьютера и файловыми архивами FTP, дает доступ к средствамсвязи с Internet. Для запускапрограммы можно использовать значок  Internet Explorer на Рабочем столе илиГлавного меню. Кроме того, программа запускается автоматически при попыткеоткрыть документ Internet илилокальный документ в формате HTML.

Если соединение с Internet отсутствует, то после запускапрограммы появиться диалоговое окно установки соединения. При невозможностиустановки соединения сохраняется возможность просмотра в автономном режимеранее загруженных Web-документов. При наличии соединения после запускапрограммы на экране появится основная страница, выбранная при настройкепрограммы.

Далее можно работать с Web-страницами,просматривая их содержимое, сохраняя  егона локальном диске и т.д. При этом можно открывать несколько окон, работая снесколькими Web-страницами.

Для более эффективной работыв Internet необходима настройка Internet Explorer. Параметрыоптимальной настройки зависят от:

·<span Times New Roman"">      

свойств видеосистемыкомпьютера;

·<span Times New Roman"">      

производительностидействующего соединения с Internet;

·<span Times New Roman"">      

содержания текущего Web-документа;

·<span Times New Roman"">      

личных предпочтенийпользователя.

Настроить Internet Explorer можно как из самойпрограммы, так и через Панель управления.

Если браузер неспособенотображать файлы определенного типа (*.exe, *.zip  и т.д.) инициируется процесс загрузки данногофайла на компьютер. Программа InternetExplorer 5.0 запускает мастер загрузки файлов, на первом этапе работыкоторого требуется указать открывать ли файл или сохранить его на локальномдиске. Чаще всего файл сохраняется. Это позволяет  использовать его в дальнейшей работе, невыходя в Internet. Этот процессназывается проще – скачать файл.

NetscapeNavigator–один из лучших Web-браузеров, главная программа пакета NetscapeCommunicator. С его помощью можно просматриватьсодержимое Web-страниц, копировать файлы, искать различного родаинформацию, работать с текстом и мультимедийными файлами Internet.

Оба браузера имеют своипреимущества. Например:

·<span Times New Roman"">      

InternetExplorerпоставляетсябесплатно в составе программного обеспечения фирмы Microsoft;

·<span Times New Roman"">      

InternetExplorerимеетболее широкие возможности при настройке на конкретные вкусы потребителя ибольшее количество выполняемых функций;

·<span Times New Roman"">      

NetscapeNavigator–имеет большую скорость при работе с Web-страницами.

Но в принципе, оба браузеравыполняют похожие задачи и полностью удовлетворяют запросы пользователей приработе с Internet.

Одной из основныхархитектурных особенностей Explorerявляется применение ActiveX — технологии, которая позволяет удобноконфигурировать, например, вид и возможности панели инструментов, что делаеткомпьютер доступным даже для детей.

Оба браузера поддерживаютвозможность создания HTML-документов, при чём Explorerпозволяет создавать темплайты, что так же упрощает создание web-страниц.

InternetExplorerподдерживает наиболее распространенные языки, облегчая пользовательскийинтерфейс, поддерживает все основные сетевые стандарты и предусматриваетинтерфейс без использования мыши и возможность изменять шрифт для удобствапросмотра.

         Что касается скоростипросмотра Web-страниц, то Microsoftутверждает, что Navigatorпроигрывает в скорости, по крайней мере, на 30 процентов.

Netscapeподчеркивает отличие Navigatora от других браузеров, а вособенности от Internet ExplОrer,количеством необходимой для него памяти, скоростью работы, значительнымиудобствами для создателей Web-документов, наличиемсистемы, позволяющей компьютеру пользоваться телефонными услугами Internet в режиме реального времени. Ктому же это позволяет избежать неудобств обычной телефонной связи.

         Когда Netscape неожиданно появилась на рынке,Microsoft пришлось немедленноотреагировать, чтобы не потерять часть своего бизнеса. Без такой яростнойконкуренции между двумя гигантами не было бы ни такого широкого использованияWeb, ни коммерческих Web-серверов, ни недорогих браузеров с графическимиинтерфейсами. Это соперничество породило недорогие продукты, которые, благодаряиспользованию протоколов Internet,способны к взаимодействию. Преодолеть несовместимость различных HTML проще, чемте трудности, которые могли бы возникнуть, считают оптимисты.

3. ПОИСКОВЫЕ СИСТЕМЫ.

Основная задача Internet– предоставление необходимой информации. Чтобынайти нужную информацию необходимо знать адрес Web-страницы, на которой этаинформация находится. Лучше всего искать в Сети необходимую информацию спомощью поисковых систем. Поисковая система представляет собойспециализированный Web-узел. Поисковые системы классифицируют по методампоиска.

Поисковые каталоги предназначеныдля поиска по темам. Обычно они построены по иерархическому принципу, т.е.каждый шаг поиска это выбор подраздела с более конкретной тематикой искомойинформации. На нижнем уровне поиска пользователь получает относительнонебольшой список ссылок на искомую информацию.

Поисковый индексобеспечивает поиск по заданным ключевым словам. Обычно ключевые слова вводятсяпри заполнении специальной формы поиска, после чего нажимается кнопка «Поиск». В результате поискаформируется набор гиперссылок на Web-страницы, содержащийуказанные термины. Обычно поисковые индексы выдают огромное количество искомыхстраниц.

В этом списке представленыссыл­ки на различные Web-страницы, причем ссылкирасполагаются по степени убы­вания встреченных на данных страницах слов, совпадающихс ключевыми словами. При просмотре списка необходимо  выбрать те страницы,ко­торые нужно просмотреть.Некоторыесистемы составляют список ссылок по степени свежести страниц, другие же — по степени вероятности того, что данныестраницы окажутся искомыми. Вычисление вероятности основывается на данных отом, как скоро на странице встречается иско­мое слово. Первыми в таком спискеидут ссылки на те страницы, у которых клю­чевые слова встречаются уже вназвании.

Поисковые каталогипредоставляют доступ к меньшему количеству страниц, чем поисковые индексы, ноони точнее указывают на основные ресурсы Сети. Поэтому при первичном поискеинформации целесообразно использовать поисковые каталоги. А квалифицированнымпользователям Internetболее полезны поисковые индексы. Они позволяютразыскать малоизвестные и узкоспециализированные ресурсы. Многие современныепоисковые системы сочетают в себе оба указанных метода.

Программа InternetExplorer5.0  имеетспециальные средства организации поиска без явного обращения к поисковымсистемам. Можно получить доступ к одной из известных поисковых систем, простощелкнув на кнопке «Поиск», слевапоявится окно поиска. Далее можно набрать ключевые слова для поиска и выбратьпоисковую систему. Результаты поиска будут отражены в правой части окнаобозревателя. Если выбрать нужную ссылку, то в правом окне появится содержимоевыбранной страницы. Чтобы скрыть окно поиска, необходимо щелкнуть на кнопке «Поиск» еще раз.

При работе с InternetЕхрLorerможно проводить поиск прямо в поле «Ад­рес». Для этого в адресную строку вводиться слово или фраза дляпоиска. Под адресной строкой откроется окно со словом «Поиск» и искомой фразой. InternetExplorerначнет поиск сиспользованием заранее определенной системы поиска; при этом кнопка «Поиск» на панели инструментовнажмется  сама.

Можно осуществить поискнажав кнопку «Пуск» и выбравопцию меню «Найти». Окно InternetExplorerоткроется само с уже нажатой кнопкой «Поиск».

Если удалось найти то, чтоискали, но все же не совсем то, то в этом случае пригодится механизм связанныхссылок. Для любой Web-страницы можно просмотреть список ссылок, имеющих кней отноше­ние, возможно, среди них окажется как раз то, что нужно. Чтобыпросмотреть связанные ссылки, нужно сделать следующее. Необходимо выбрать вменю «Сервис» команду «Показать связанные ссылки».

После этого на панелиинструментов нажать кнопку «Поиск»,и в левой ча­сти экрана полнится окно, содержащее список ссылок, связанных сданной страницей. Нужно щелкнуть на одной из ссылок, и  просмотреть в правом окне соответствующую Web-страницу.

Чтобы скрыть окно поиска,необходимо щелкнуть еще раз на кнопке «Поиск».

3.1. Механизмы поиска.

<span Times New Roman",«serif»">Поисковыеcистемы обычно состоят из трех компонентов:

·<span Times New Roman"">       

<span Times New Roman",«serif»">агент (паук или кроулер), которыйперемещается по Сети и собирает информацию;

·<span Times New Roman"">       

<span Arial Unicode MS"">база данных, котораясодержит всю информацию, собираемую пауками;

·<span Times New Roman"">       

<span Arial Unicode MS"">поисковый механизм, которыйлюди используют как интерфейс для взаимодействия с базой данных.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Cредства поиска и структурирования,иногда называемые поисковыми механизмами, используются для того, чтобы помочьлюдям найти информацию, в которой они нуждаются.

<span Times New Roman",«serif»">Cредствапоиска типа агентов, пауков, кроулеров и роботов используются для сбораинформации о документах, находящихся в Сети Интернет. Это специальныепрограммы, которые занимаются поиском страниц в Сети, извлекают гипертекстовыессылки на этих страницах и автоматически индексируют информацию, которую онинаходят для построения базы данных.

<span Times New Roman",«serif»">Каждыйпоисковый механизм имеет собственный набор правил, определяющих, как cобиратьдокументы. Некоторые следуют за каждой ссылкой на каждой найденной странице изатем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, итак далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковымфайлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа базданных WAIS; другие проинструктированны, что нужно просматривать прежде всегонаиболее популярные страницы.

<span Times New Roman",«serif»">Агенты

<span Times New Roman",«serif»">- самые «интеллектуальные» из поисковых средств. Они могут делать больше, чемпросто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчасони могут искать cайты специфической тематики и возвращать списки cайтов,отсортированных по их посещаемости. Агенты могут обрабатывать содержаниедокументов, находить и индексировать другие виды ресурсов, не только страницы.Они могут также быть запрограммированы для извлечения информации из ужесуществующих баз данных. Независимо от информации, которую агенты индексируют,они передают ее обратно базе данных поискового механизма.

<span Times New Roman",«serif»">Агентыизвлекают и индексируют различные виды информации. Некоторые, например,индексируют каждое отдельное слово во встречающемся документе, в то время какдругие индексируют только наиболее важных 100 слов в каждом, индексируют размердокумента и число слов в нем, название, заголовки и подзаголовки и так далее.Вид построенного индекса определяет, какой поиск может быть сделан поисковыммеханизмом и как полученная информация будет интерпретирована.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Агенты могут также перемещаться по

<span Times New Roman",«serif»; text-transform:uppercase;mso-ansi-language:EN-US">Internet<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»"> и находить информацию, после чегопомещать ее в базу данных поискового механизма. Администраторы поисковых системмогут определить, какие сайты или типы сайтов агенты должны посетить ипроиндексировать. Проиндексированная информация отсылается базе данныхпоискового механизма так же, как было описано выше.<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Общийпоиск информации в Сети осуществляют программы, известные как пауки.Пауки сообщают о содержании найденного документа, индексируют его и извлекаютитоговую информацию. Также они просматривают заголовки, некоторые ссылки ипосылают проиндексированную информацию базе данных поискового механизма.

<span Times New Roman",«serif»">Кроулеры

<span Times New Roman",«serif»">просматривают заголовки и возвращают только первую ссылку.

<span Times New Roman",«serif»">Роботы

<span Times New Roman",«serif»">могут быть запрограммированы так, чтобы переходить по различным cсылкамразличной глубины вложенности, выполнять индексацию и даже проверять ссылки вдокументе. Из-за их природы они могут застревать в циклах, поэтому, проходя поссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы,предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцыкоторых не желают, чтобы они были проиндексированы.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Люди могут помещать информацию прямо виндекс, заполняя особую форму для того раздела, в который они хотели быпоместить свою информацию. Эти данные передаются базе данных.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Когда кто-либо хочет найти информацию,доступную в

<span Times New Roman",«serif»;mso-bidi-font-family:«Arial Unicode MS»; mso-ansi-language:EN-US">INTERNET<span Times New Roman",«serif»;mso-bidi-font-family: «Arial Unicode MS»">, он посещает страницу поисковой системы и заполняет форму,детализирующую информацию, которая ему необходима. Здесь могут использоватьсяключевые слова, даты и другие критерии. Критерии в форме поиска должнысоответствовать критериям, используемым агентами при индексации информации,которую они нашли при перемещении по Сети.

<span Times New Roman",«serif»">Базаданных отыскивает предмет запроса, основанный на информации, указанной взаполненной форме

<span Times New Roman",«serif»;mso-fareast-font-family:«Times New Roman»; color:windowtext">[N1] <span Times New Roman",«serif»">,и выводит соответствующие документы, подготовленные базой данных.

<span Times New Roman",«serif»">Чтобыопределить порядок, в котором список документов будет показан, база данныхприменяет алгоритм ранжирования. В идеальном случае, документы, наиболеерелевантные пользовательскому запросу будут помещены первыми в списке.Различные поисковые системы используют различные алгоритмы ранжирования,однако, основные принципы определения релевантности следующие:

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">1.Количество слов запроса в текстовом содержимом документа.

<span Times New Roman",«serif»">2.Тэги, в которых эти слова располагаются.

<span Times New Roman",«serif»">3.Местоположение искомых слов в документе.

<span Times New Roman",«serif»">4.Удельный вес слов, относительно которых определяется релевантность, в общемколичестве слов документа.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">База данных выводит ранжированныйподобным образом список документов с HTML и возвращает его человеку, сделавшемузапрос.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Различные поисковые механизмы такжевыбирают различные способы показа полученного списка — некоторые показываюттолько ссылки; другие выводят cсылки c первыми несколькими предложениями,содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов,который вас интересует, этот документ запрашивается у того сервера, на которомон находится.

3.2. Сравнительный обзор поисковых систем. Структуразапроса.

В сети существуют различныеспособы поиска информации. Конечно же, если имеется справочник, в котором можнонайти местонахождение интересующего вас источника конкретной информации, то,без всякого сомнения, следует этим и воспользоваться. Однако, к сожалению,такие издания далеко не всегда доступны. Кроме того, сеть является постояннообновляющейся системой и поэтому находится в курсе всего нового с помощипериодики, а тем более с помощью литературы, не всегда представляетсявозможным. Для поисковых целей в Internetсуществуют специальные поисковые машины, располагающие значительными базамиданных и имеющие связь с себе подобными.

Существенно полезнымивозможностями у них является наличие системы поиска, которая строится попринципу: от общего — к конкретному. Задавая общее понятие (в виде ключевого слова,нескольких слов или фразы, — в зависимости от сервисных услуг конкретноймашины), а затем, с каждым новым поиском всё более и более конкретизируя его,можно получить интересующий результат. Поэтому далее будут рассмотренынесколько основных поисковых систем, использование которых весьма эффективно.

Исторически сложилось, чтопервой такой поисковой машиной являлась Alta Vista, поэтому с неё и начнёмрассмотрение.

<span Times New Roman",«serif»;mso-ansi-language: EN-US">AltaVista

<span Times New Roman",«serif»">.<span Times New Roman",«serif»">Наиболее интересная возможность AltaVista — эторасширенный поиск. AltaVista разрешает поиск по ключевым фразам, при этом онаимеет довольно большой фразеологический словарь. Кроме всего прочего, припоиске в AltaVista можно задать имя поля, где должно встретиться слово. Ксожалению, подробно процедура ранжирования в документации по системе неописана, но видно, что ранжирование применяется как при простом поиске, так ипри расширенном запросе. Реально эту систему можно отнести к системе срасширенным булевым поиском.

<span Times New Roman",«serif»">

Lycos. Как и большинство систем,Lycos дает возможность применять простой запрос и более изощренный методпоиска. В простом запросе в качестве поискового критерия вводится предложениена естественном языке, после чего Lycos производит нормализацию запроса, удаляяиз него так называемые stop-слова, и только после этого приступает к еговыполнению. Почти сразу выдается информация о количестве документов на каждоеслово, а позже и список ссылок на формально релевантные документы. В спискепротив каждого документа указывается его мера близости запросу, количество словиз запроса, попавших в документ, и оценочная мера близости, которая может бытьбольше или меньше формально вычисленной.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Пока нельзя вводить логическиеоператоры в строке вместе с терминами, но использовать логику через системуменю Lycos позволяет. Такая возможность применяется для построения расширеннойформы запроса, предназначенной для искушенных пользователей, уже научившихсяработать с этим механизмом.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">

<span Times New Roman",«serif»;mso-bidi-font-family:«Arial Unicode MS»">Yahoo.

<span Times New Roman",«serif»;mso-bidi-font-family:«Arial Unicode MS»">Даннаясистема появилась в Сети одной из первых, и сегодня Yahoo сотрудничает сомногими производителями средств информационного поиска, а на различных еесерверах используется различное программное обеспечение. Язык Yahoo достаточнопрост: все слова следует вводить через пробел, они соединяются связкой “<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»;mso-ansi-language:EN-US">and<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">” либо “<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»;mso-ansi-language:EN-US">or<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">”. <span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»;mso-ansi-language:EN-US">

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">При выдаче не указывается степеньсоответствия документа запросу, а только подчеркиваются слова из запроса,которые встретились в документе. При этом не производится нормализация лексикии не проводится анализ на «общие» слова. Хорошие результаты поиска получаютсятолько тогда, когда пользователь знает, что в базе данных Yahoo информация естьнаверняка. Ранжирование производится по числу терминов запроса в документе.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Yahoo относится к классу простыхтрадиционных систем с ограниченными возможностями поиска.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">

<span Times New Roman",«serif»;mso-bidi-font-family:«Arial Unicode MS»">OpenText.

<span Times New Roman",«serif»;mso-bidi-font-family:«Arial Unicode MS»">Информационнаясистема OpenText представляет собой самый коммерциализированный информационныйпродукт в Сети. Все описания больше похожи на рекламу, чем на информативноеруководство по работе. Система позволяет провести поиск с использованиемлогических коннекторов, однако размер запроса ограничен тремя терминами илифразами. В данном случае речь идет о расширенном поиске. При выдаче результатовсообщается степень соответствия документа запросу и размер документа.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Система позволяет также улучшитьрезультаты поиска в стиле традиционного булевого поиска. OpenText можно было быотнести к разряду традиционных информационно-поисковых систем, если бы немеханизм ранжирования.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">

<span Times New Roman",«serif»">Infoseek.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Система Infoseek обладает довольноразвитым информационно-поисковым языком, позволяющим не просто указывать, какиетермины должны встречаться в документах, но и своеобразно взвешивать их.Достигается это при помощи специальных знаков «+» — термин обязан быть вдокументе, и «-» — термин должен отсутствовать в документе.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Кроме этого, Infoseek позволяетпроводить то, что называется контекстным поиском. Это значит, что, используяспециальную форму запроса, можно потребовать последовательной совместной встречаемостислов. Также можно указать, что некоторые слова должны совместно встречаться нетолько в одном документе, а даже в отдельном параграфе или заголовке.

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">Имеется возможность указания ключевыхфраз, представляющих собой единое целое, вплоть до порядка слов. Ранжированиепри выдаче осуществляется по числу терминов запроса в документе, по числу фраззапроса за вычетом общих слов. Все эти факторы используются как вложенныепроцедуры. Подводя краткое резюме, можно сказать, что Infoseek относится ктрадиционным системам с элементом взвешивания терминов при поиске.

<span Times New Roman",«serif»;mso-bidi-font-family:«Arial Unicode MS»">

<span Times New Roman",«serif»;mso-bidi-font-family:«Arial Unicode MS»">WAIS

<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">. WAIS является одной из наиболееизощренных поисковых систем <span Times New Roman",«serif»;mso-bidi-font-family: «Arial Unicode MS»;mso-ansi-language:EN-US">INTERNET<span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»">. В ней не реализованы лишь поиск понечетким множествам и вероятностный поиск. В отличие от многих поисковых машин,система позволяет строить не только вложенные булевые запросы, считатьформальную релевантность по различным мерам близости, взвешивать терминызапроса и документа, но и осуществлять коррекцию запроса по релевантности.Система также позволяет использовать усечения терминов, разбиение документов наполя и ведение распределенных индексов. <span Times New Roman",«serif»; mso-bidi-font-family:«Arial Unicode MS»;mso-ansi-language:EN-US">

<span Times New Roman",«serif»;mso-ansi-language: EN-US">

<span Times New Roman",«serif»;mso-ansi-language: EN-US">Rambler

<span Times New Roman",«serif»">.<span Times New Roman",«serif»">Поисковая система содержит информацию о более чем 12миллионах документов, расположенных на серверах России и стран СНГ.

<span Times New Roman",«serif»; mso-ansi-language:EN-US">Rambler

<span Times New Roman",«serif»"> обрабатываетежесуточно не менее 500 тысяч поисковых запросов (в среднем — 5 запросов всекунду), сканируя 48 тысяч <span Times New Roman",«serif»;mso-ansi-language: EN-US">W<span Times New Roman",«serif»">eb-серверов и используя несколькоодновременно работающих программ-роботов. <span Times New Roman",«serif»; mso-ansi-language:EN-US">

<span Times New Roman",«serif»">Запросможет состоять из одного или нескольких слов, разделенных пробелами. Могут бытьиспользованы как русские, так и английские слова и словосочетания. По умолчаниюнаходятся только те документы, в которых встретились все введенные Вами слова.

<span Times New Roman",«serif»">Чтобынайти документы, содержащие хотя бы одно слово из запроса, используетсялогическая связка

or<span Times New Roman",«serif»">или выбирается на странице детального запроса: «Слова запроса: любое». Чтобыисключить документы, содержащие те или иные слова, надо указать на страницедетального запроса: «Исключить документы, содержащие следующие слова ...».

<span Times New Roman",«serif»">Всеравно, с какой буквы написаны слова запроса: с большой или с маленькой. И припостроении индекса, и при поиске по запросу все заглавные (большие) буквы«понижаются».

<span Arial Unicode MS"">Слова запроса могут быть соединены логическими связками

<span Arial Unicode MS"; mso-ansi-language:EN-US;font-weight:normal">and</strong
еще рефераты
Еще работы по компьютерным сетям