Реферат: Информационно-поисковые системы на примере "Рамблера"

МИНИСТЕРСТВООБРАЗОВАНИЯ и науки РОССИЙСКОЙ ФЕДЕРАЦИИ

Белгородский государственныйуниверситет

Старооскольский филиал

реферат

                              

Поисковыесистемы интернета

напримере системы «Rambler»

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Выполнил:Дёменко Алексей.

<span Times New Roman",«serif»">студент 150группы

<span Times New Roman",«serif»">специальности«Педагогика и методика начального обучения»

<span Times New Roman",«serif»">Проверила:Карнаухова М. В.

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»;text-transform:uppercase">

<span Times New Roman",«serif»">Старый Оскол  — 2004

Содержание

ВВЕДЕНИЕ……………………………………………………………….……………………3

Языкпоисковых запросов……………………………………………………....…3

Регистр……………………………………………………………………………………….3

Операторы………………………………………………………………………………….3

Кавычки……………………………………………………………………………………..4

Скобки………………………………………………………………………………………..4

Метасимволы…………………………………………………………………………….4

Применениеязыка запросов…………………………………………………..….4

<span Times New Roman",«serif»;text-transform:uppercase">Морфология……………………………………………………………………………….5

<span Times New Roman",«serif»;text-transform:uppercase">

<span Times New Roman",«serif»;text-transform:uppercase">Стоп-слова………………………………………………………………………………...5

<span Times New Roman",«serif»;text-transform:uppercase">

<span Times New Roman",«serif»;text-transform:uppercase">Ограничениерасстояния………………………………………………………….5

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»;text-transform:uppercase">Ненайденныеслова…………………………………………………………………..5

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»;text-transform:uppercase">Специальныеоператоры…………………………………………………………..5

<span Times New Roman",«serif»; text-transform:uppercase"><span Times New Roman",«serif»;text-transform:uppercase">Комфортныйпоиск…………………………………………………………………...5<span Times New Roman",«serif»;text-transform:uppercase">Как включитьпанель ссылок…………………………………………………..6<span Times New Roman",«serif»;text-transform:uppercase">Как сделать,чтобы Rambler находил мои документы?…………..6<span Times New Roman",«serif»;text-transform:uppercase">Как управлятьиндексированием сайта, <span Times New Roman",«serif»;text-transform: uppercase">Использование файлов robots.txt, <span Times New Roman",«serif»; text-transform:uppercase">Роботы и файл robots.txt………………………...7

<span Times New Roman",«serif»;text-transform:uppercase">Размещение файла robots.txt…………………………………………………8

<span Times New Roman",«serif»;text-transform:uppercase">

<span Times New Roman",«serif»;text-transform:uppercase">Формат файлаrobots.txt…………………………………………………………8

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»;text-transform:uppercase">Группы инструкций дляотдельных роботов: User-agent……..…8

<span Times New Roman",«serif»; text-transform:uppercase">

<span Times New Roman",«serif»;text-transform:uppercase">Пустые строки икомментарии………………………………………………..9

<span Times New Roman",«serif»; text-transform:uppercase">

Использование META-тегов «Robots»……………………………………….9<span Arial Unicode MS";color:black;text-transform:uppercase">

<span Times New Roman",«serif»;text-transform:uppercase">Определениепозиции сайта в результатах поиска по заданномузапросу……………………………………………………………….…9<span Times New Roman",«serif»;text-transform:uppercase">Принципы работыпоисковой машины Рамблер………………….…9

Заключение………………………………………………………………………….….16

Введение

<span Times New Roman",«serif»">Здесьописаны:

·<span Times New Roman"">                    

Языкпоисковых запросов: что и как можно написать в поисковой строке;

·<span Times New Roman"">                    

Применениеязыка запросов: как поисковая машина Рамблера обрабатывает запрос;

·<span Times New Roman"">                    

Расширенныйпоиск: как искать в Рамблере более эффективно, пользуясь страницей Расширенногопоиска;

·<span Times New Roman"">                    

Комфортныйпоиск: как установить специальную кнопку для поиска в Рамблере прямо на панельбраузера.

<span Times New Roman",«serif»">А такжерекомендации для владельцев сайтов:

·<span Times New Roman"">                    

Каксделать, чтобы Rambler находил мои документы;

·<span Times New Roman"">                    

Какуправлять индексированием сайта;

·<span Times New Roman"">                    

Ответына часто задаваемые вопросы.

<span Times New Roman",«serif»">Языкпоисковых запросов

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Поисковыйзапрос может состоять из одного или нескольких слов, в нем могут присутствоватьзнаки препинания. Составлять простые запросы можно и не вдаваясь в тонкостиязыка запросов. Так, если ввести в поисковую строку несколько слов без знаковпрепинания и логических операторов, будут найдены документы, содержащие все этислова (причем на ограниченном расстоянии друг от друга). Знание и правильноеприменение языка запросов поисковой машины поможет сделать поиск на Рамблеребыстрым и эффективным.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Регистр

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">В общемслучае, регистр написания поисковых слов и операторов значения не имеет, тоесть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь иногда, в целяхповышения качества поиска, регистр слов поискового запроса принимается вовнимание.

<span Times New Roman",«serif»">Например,если запрос состоит из двух, трех или четырех слов, каждое из которых написанос большой буквы, то предполагается поиск по имени собственному, и автоматическипроизводится изменение ограничения расстояния между словами запроса со значенияпо умолчанию на величину (n-1)*2, где n — количество слов запроса. Этопозволяет находить группу слов запроса, внутри которой есть не более одного«лишнего» слова или знака препинания, например«Баден-Баден», «А. Пушкин», «Федор МихайловичДостоевский».

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Операторы

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Запрос,состоящий из нескольких слов, может содержать операторы. Поиск операторов вдокументе не производится, они служат лишь инструкцией поисковой машине. Всеоператоры поисковой машины бинарные, то есть имеют левую и правую часть, каждаяиз которых также является запросом (по умолчанию состоящим из одного слова).Для изменения сферы действия операторов (группировки нескольких слов запроса варгумент оператора) применяются скобки и кавычки.

<span Times New Roman",«serif»">Двазапроса, соединенные оператором AND (логическое И) образуют сложный запрос,которому удовлетворяют только те документы, которые одновременно удовлетворяютобоим этим запросам. Иными словами, по запросу 'собака AND кошка'найдутся только те документы, которые содержат и слово 'собака', и слово'кошка'.

<span Times New Roman",«serif»">Сложномузапросу, состоящему из двух запросов, соединенных оператором OR (логическоеИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двухзапросов. По запросу 'собака OR кошка' найдутся документы, в которыхесть хотя бы одно из слов 'собака' или 'кошка' (либо оба этислова вместе).

<span Times New Roman",«serif»">ОператорNOT (логическое И-НЕ) образует запрос, которому отвечают документы,удовлетворяющие левой части запроса и не удовлетворяющие правой. Так,результатом поиска по запросу 'собака NOT кошка' будут все документы, вкоторых есть слово 'собака' и нет слова 'кошка'.

<span Times New Roman",«serif»">Еслиоператор явно не указан, используется оператор по умолчанию AND: находятсятолько документы, содержащие все слова запроса. Так, запрос 'информациятехнологии кредит' будет истолкован как 'информация AND технологии ANDкредит'. На странице Расширенного поиска оператор по умолчанию можнозаменить на OR (Искать слова запроса: хотя бы одно).

<span Times New Roman",«serif»">Каждыйиз операторов имеет сокращенное обозначение:

Оператор<span Arial Unicode MS";color:black">

Сокращенное обозначение<span Arial Unicode MS";color:black">

AND<span Arial Unicode MS";color:black;mso-ansi-language: EN-US">

&<span Arial Unicode MS";color:black;mso-ansi-language: EN-US">

OR<span Arial Unicode MS";color:black;mso-ansi-language: EN-US">

|<span Arial Unicode MS";color:black;mso-ansi-language: EN-US">

NOT<span Arial Unicode MS";color:black;mso-ansi-language: EN-US">

!<span Arial Unicode MS";color:black">

<span Times New Roman",«serif»">Запросиз нескольких слов, перемежающихся операторами, будет истолкован в соответствиис их приоритетом. Операторы AND и NOT традиционно имеют более высокийприоритет, поэтому запрос из нескольких слов при обработке сначала группируетсяпо операторам AND и NOT, и лишь потом по операторам OR. Изменить порядокгруппировки можно использованием скобок.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Кавычки

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Дляпоиска цитат можно использовать двойные кавычки. Слова запроса, заключенного вдвойные кавычки, ищутся в документах именно в том порядке и в тех формах, вкоторых они встретились в запросе.

<span Times New Roman",«serif»">Такимобразом, двойные кавычки можно использовать и просто для поиска слова взаданной форме (по умолчанию слова находятся во всех формах). Например, запросу'самолет «заправился» посадка' удовлетворяет документ,содержащий текст '… самолет совершил посадку и заправился ...', и неудовлетворяет документ, содержащий '… самолет совершил посадку, чтобызаправиться ...'.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Скобки

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Припостроении запросов иногда возникает необходимость объединения слов запроса вгруппы, которые будут аргументами некоторого оператора. Такие группызаключаются в скобки.

<span Times New Roman",«serif»">Частьзапроса, заключенная в скобки, сама является запросом, и на неераспространяются правила языка построения запросов. Использование скобокпозволяет строить вложенные запросы и передавать их операторам в качествеаргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

<span Times New Roman",«serif»">Еслизапрос без скобок 'машина самолет | аэродром' эквивалентен запросу 'машинаAND самолет OR аэродром' и, в соответствии с приоритетами операторов,означает «найти документы, содержащие либо слова 'машина' и 'самолет',либо слово аэродром, то запрос со скобками 'машина (самолет | аэродром)'равносилен запросу 'машина AND (самолет OR аэродром)', что означает»найти документы, содержащие слово 'машина' и одно из слов 'самолет'или 'аэродром'".

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Метасимволы

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Рамблерпока не поддерживает поиск строк с использованием метасимволов ('*', '?'),которые обычно используются в значении «любая подстрока» и«произвольный одиночный символ» соответственно. Тем не менее, этиоператоры зарезервированы для подобного использования в будущем.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Применениеязыка запросов

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Каждыйзапрос, адресованный поисковой машине Рамблера, обрабатывается в соответствии справилами языка запросов. Некоторые слова и символы трактуются как операторыязыка запросов и обрабатываются специальным образом. Фактически, языкомзапросов описывается некая формула, которая используется при поиске — каждый издокументов «сопоставляется» с ней, и результатом поиска являютсятолько те документы, которые ей удовлетворяют.
Например, запросу 'самолет' удовлетворяют все документы, в которых хотябы раз встретилось слово 'самолет' в любой форме. Запросу, состоящему изнескольких слов, удовлетворяют документы, содержащие каждое из этих слов влюбой форме (при некоторых условиях). Вопрос соответствия документа болеесложному запросу определяется логикой операторов и конструкций языка запросов.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Морфология

<span Times New Roman",«serif»">Покаждому слову запроса поиск ведется с учетом правил словоизменениясоответствующего языка. Рамблер понимает и различает слова русского ианглийского языков — по умолчанию, поиск ведется по всем формам слова.

<span Times New Roman",«serif»">Например,при поиске по слову 'человек' будут также найдены документы, содержащиеслова 'человеку', 'человеком', 'человека' и даже 'люди'.Чтобы провести поиск только по одной определенной форме слова, нужно взять егов двойные кавычки или воспользоваться поиском точной фразы в расширенномпоиске.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Стоп-слова

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Некоторыеслова и символы по умолчанию исключаются из запроса в связи с их малойинформативностью. Это так называемые стоп-слова — самые частотные словарусского и английского языков, например, предлоги, частицы и артикли.Присутствие этих слов может замедлить поиск и негативно повлиять на полнотурезультатов. Есть возможность обозначить необходимость этих слов в запросе,взяв запрос в двойные кавычки или воспользовавшись поиском точной фразы врасширенном поиске.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Ограничение расстояния

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Еслизапрос составлен из одного или нескольких слов без применения операторов иконструкций языка запросов, то будут найдены документы, в которых встречаютсявсе слова запроса. При этом для каждого запроса всегда существует такназываемое ограничение контекста — положительное число, по умолчанию равноерасстоянию в 40 слов. Документ, в котором встретились все слова запроса, будетвыдан только в том случае, если расстояние в словах между вхождениями словзапроса будет меньше этого числа. Например, по запросу 'красная армия'будут найдены те документы, в которых слова 'красная' и 'армия'хотя бы один раз встретятся менее чем в 40 словах друг от друга.

<span Times New Roman",«serif»">Значениеограничения контекста можно изменять конструкцией '(число, запрос)', гдечисло — любое положительное число, запрос — любой корректный с точки зренияпоисковой машины запрос, состоящий более чем из одного слова (очевидно,ограничение расстояния между словами в случае однословного запроса не имеетсмысла). Таким образом, по запросу '(2, красная армия)' найдутся толькоте документы, в которых между словами 'красная' и 'армия' хотя быраз не стоит ни одного слова (поскольку лишь в случае их непосредственногососедства разница в порядковых номерах слов меньше 2, т.е. равна 1)

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Ненайденные слова

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Еслизапрос состоит из нескольких слов, и при этом некоторые из них вообще неудалось найти в Интернете, то выдаются результаты поиска по частичному запросу,из которого отсутствующие в Интернете слова исключены. При этом на страницерезультатов поиска выдается соответствующая диагностика.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Специальные операторы

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Рамблерпозволяет искать страницы, на которых размещены счетчики Top100, TopShop,TopList, SpyLog, а также HotLog. Для того, чтобы найти в интернете всестраницы, на которых размещен счетчик с заданным идентифтикатором, используйтеоператор ${counter=ID}, где counter — название счетчика (top100,topshop, toplist, spylog или hotlog), а ID — номер счетчика (идентификаторресурса).

<span Times New Roman",«serif»">Пример

<span Times New Roman",«serif»">: длятого, чтобы найти в Интернете все страницы раздела Рамблер-Открытки(идентификатор Top100 — 193680), подайте Рамблеру запрос ${top100=193680}.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Комфортныйпоиск

Для облегчения поиска в Internet можноустановить на панель броузера (Netscape или Internet Explorer версии не ниже 4)специальную кнопку поиска в Rambler. Как это сделать?

Перетащить мышкой одну из ссылок на специальной страничке в поле панелиссылок.

После этого на панели появитсякнопка «Искать в Rambler». В броузере должно быть разрешеновыполнение JavaScript.  Если во времяпросмотра документа выделить текст, который надо задать в качестве поисковогозапроса, и нажать на эту кнопку, запрос будет передан Rambler.Результаты поиска будут выведены в другом окне. Длина запроса ограничена 96 символами

<span Times New Roman",«serif»">Как включить панель ссылок

Если панель ссылок отключена, то включить ееможно следующим образом:

Netscape

Вменю'View' отметьте'Show PersonalToolbar'

Internet Explorer

Вменю'View' (или 'Вид') определите 'ToolBars'('Панели инструментов'). Затем пометьте 'Links' ('Ссылки')

<span Times New Roman",«serif»">Каксделать, чтобы Rambler находил мои документы?

<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»">1.<span Times New Roman"">                 

<span Times New Roman",«serif»">Прежде всего надо заполнитьрегистрационную анкету в поисковой системе Rambler. Это будет гарантией того,что роботы Рамблера узнают о сайте и скорее начнут его индексацию. Анкетанаходится по адресу www.rambler.ru/doc/add_site_form.shtml.

2.<span Times New Roman"">                 

Автоматическироботы Rambler сканируют сайты, находящиеся в следующих доменах первого уровня:

РоссийскаяФедерация: .ru, .su
Украина: .ua
Белоруссия: .by
Казахстан: .kz
Киргизия: .kg
Узбекистан: .uz
Грузия: .ge

и игнорируют сайты из других доменов.

<span Times New Roman",«serif»">Еслиданный сайт находится вне названных доменов (например, в зонах .com, .org,.net), но существенная часть сайта содержит русскоязычные материалы или онможет представлять интерес для русскоязычной аудитории Рамблера, можно отослатьписьмо на адрес search.support@rambler-co.ru с просьбой включить сайт в числосканируемых, либо заполнить форму обратной связи. Сотрудники Рамблерарассмотрят эту просьбу и примут решение о целесообразности такого включения.

<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»">3.<span Times New Roman"">                 

<span Times New Roman",«serif»">Рекомендуется зарегистрировать сайт врейтинге Top100 и расставить счетчик на всех страницах сайта. Анкета,заполняемая при регистрации в этом рейтинге, индексируется ежедневно, аспециальный робот Рамблера дважды в день пополняет базу поисковой машины новымистраницами, на которых размещен счетчик. Таким образом, включение сайта вТор100 — это самый быстрый способ попасть в результаты поиска!

4.<span Times New Roman"">                 

Призаполнении полей анкеты «Название сайта» и «Описание» неследует вводить в них длинные перечни ключевых слов. Эти поля все равно пока неиспользуются для поиска. Название и описание должны быть предназначены дляпрочтения человеком, так как эти поля используются в наших внутренних базахданных и просматриваются редакторами.

5.<span Times New Roman"">                 

Рамблерумеет извлекать гиперссылки из объектов Macromedia Flash. Если сайт имеетзаставку или навигационные панели, выполненные c использованием этойтехнологии, Рамблер обработает их, найдет адреса всех страниц сайта ипроиндексирует весь сайт. Однако, сами тексты flash-объектов не индексируются.Это решение принято потому, что большая часть таких объектов содержит элементынавигации, заставки, меню и другие фрагменты, очень важные в качестве источникагиперссылок, но малоинформативные как текст. Для сайтов, которые целикомсостоят из flash-объектов, рекомендуется создать HTML-копию и зарегистрироватьее в поисковой машине.

6.<span Times New Roman"">                 

<meta name=«keywords»...> и все другие поля <meta...>,кроме <meta name=«robots»...>. Это связано с тем, чтоэта система старается индексировать документ таким, какой он есть (то естьтаким, каким его видит пользователь). Не секрет, что зачастую создателиинтернет-страниц злоупотребляют этими полями, пытаясь заставить поисковые машинынаходить документ по запросам, не имеющим к нему прямого отношения. Не следуеттакже использовать невидимый текст (в котором цвет шрифта совпадает с цветомфона). Комментарии в документе роботыРамблера тоже не сканируют, поэтому использовать их лучше по прямомуназначению. Помните, что каждый комментарий увеличивает размер документа, азначит, снижает вероятность того, что документ будет просмотрен пользователемдо конца.

7.<span Times New Roman"">                 

Обратитевнимание на заголовки и выделения в документе. Базовые понятия и ключевые дляданного сайта слова целесообразно включать в следующие HTML-теги (в порядкезначимости):


...
, ,

<span Times New Roman",«serif»">Чемчаще слово встречается в этих полях, тем более вероятно, что поисковая системаRambler выдаст ссылку на Ваш документ ближе к началу списка результатов поиска.Конечно, использование этих тегов должно органично сочетаться с дизайном Вашегосайта.

<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»">8.<span Times New Roman"">                 

<span Times New Roman",«serif»">С точки зрения поиска, использованиефреймов в документе не приветствуется. Это не означает, что роботы не умеютсканировать фреймы. Роботы Rambler прекрасно справляются с конструкциямифреймов, однако наличие лишнего этажа ссылок (от головного навигационногофрейма к «содержательным») замедляет индексацию.

<span Times New Roman",«serif»">Оптимальнымявляется включать в документы с фреймами HTML-тег стекстом документа и ссылками. Разумеется, это увеличит размер документа, нобудет являться актом доброй воли по отношению к пользователям текстовыхбраузеров (например, Lynx) и поисковым машинам.

<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»">9.<span Times New Roman"">                 

<span Times New Roman",«serif»">Максимальный размер документа дляроботов Рамблера составляет 200 килобайт. Документы большего размера усекаютсядо указанной величины. Впрочем, размещать в Сети документы такого размера безособой на то необходимости — все равно дурной тон; в любом случае надоограничивать объем документа разумными рамками.

<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»">10.<span Times New Roman"">             

<span Times New Roman",«serif»">Роботы Рамблера обрабатывают ссылки типа, однако наряду со ссылкойтакого вида хорошо бы поместить в текст документа конструкцию <span Times New Roman",«serif»; mso-ansi-language:EN-US"><span Times New Roman",«serif»; mso-ansi-language:EN-US">. <span Times New Roman",«serif»">Это ускорит индексацию документов,указанных в imagemap, и облегчит доступ к документам для обычныхбраузеров.

<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»">11.<span Times New Roman"">             

<span Times New Roman",«serif»">При написании документов надовнимательно следить за соблюдением русского/латинского регистров. Часто,например вместо русской буквы 'р' используют латинскую 'p', вместо русского 'с'- латинское 'c'. Некоторые подобные ошибки индексатор исправляет, но не все.Слова с подобными опечатками теряют информативность.

<span Times New Roman",«serif»">Старайтесьне использовать дефисы '-' в качестве символов переноса. При этом словаразбиваются и теряют информативность; кроме того, такие переносы имеют всешансы оказаться у пользователя в середине строки. Помните, что браузер самосуществляет представление документа согласно текущим установкам каждогоконкретного пользователя.

<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»">12.<span Times New Roman"">             

<span Times New Roman",«serif»">Часто изменяющиеся (динамические)документы рекомендуется исключить из списка индексируемых, т. к. актуальностьэтих документов быстро теряется. Осуществить это можно с помощью стандартногодля HTTP механизма — посредством файла robots.txt в головной директории Вашегосайта или HTML-тега <meta name=«robots» ...>.

<span Times New Roman",«serif»">Частидокумента, не требующие, по Вашему мнению, индексации, можно отделять вдокументе с помощью тегов … . Изчастей документа, размеченных этими тегами, также не будут выделены ссылки длядальнейшего обхода.

<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»">13.<span Times New Roman"">             

<span Times New Roman",«serif»">При задании перекрестных ссылок вдокументе будьте предельно внимательны, проверьте работоспособность каждойссылки, иначе роботы (и пользователи!) не смогут добраться до некоторыхдокументов.

<span Times New Roman",«serif»">Следуеттакже иметь в виду, что с точки зрения HTML записи типа:

<ahref=«directory» ...>и
<a href=«directory/» ...> («слэш» в конце href)

являются разными ссылками. Обычно при запросе по первой ссылке роботполучит редирект на вторую, а значит извлечет сам документ при обращении ксерверу только на следующем проходе. Тем самым замедлится индексация сайта.

<span Times New Roman",«serif»; mso-fareast-font-family:«Times New Roman»">14.<span Times New Roman"">             

<span Times New Roman",«serif»">Необходимо относится к планированию иразмещению сайта серьезно, чтобы впоследствии не пришлось забрасыватьадминистраторов поисковых систем письмами с просьбой переиндексировать сайт всвязи с его переносом или полным изменением структуры. Поисковые машины — вещьдостаточно инерционная, и переиндексация не будет мгновенной.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Какуправлять индексированием сайта

Использование файлов robots.txt<span Arial Unicode MS";color:black">

<span Times New Roman",«serif»">Роботыи файл robots.txt

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Рамблер,как и другие поисковые машины, для поиска и индексации интернет-ресурсовиспользует программу-робот. Робот скачивает документы, выставленные в Интернет,находит в них ссылки на другие документы, скачивает вновь найденные документы инаходят в них ссылки, и так далее, пока не обойдет весь интересующий егоучасток Сети. Называется этот робот StackRambler.

<span Times New Roman",«serif»">Когдаробот-индексатор поисковой машины приходит на web-сайт (к примеру, наhttp://www.rambler.ru/), он прежде всего проверяет, нет ли в корневом каталогесайта служебного файла robots.txt (в нашем примере — www.rambler.ru/robots.txt).

<span Times New Roman",«serif»">Еслиробот обнаруживает этот документ, все дальнейшие действия по индексированиюсайта осуществляются в соответствии с указаниями robots.txt. Можнозапретить доступ к определенным каталогам и/или файлам своего сайта любымроботам-индексаторам или же роботам конкретной поисковой системы.

<span Times New Roman",«serif»">Правда,инструкциям файла robots.txt (как и meta-тегов Robots, см. ниже)следуют только так называемые «вежливые» роботы — к числу которыхробот-индексатор Рамблера, разумеется, относится.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Размещениефайла robots.txt

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Роботищет robots.txt только в корневом каталоге сервера. Под именем сервераздесь понимаются доменное имя и, если он есть, порт. Размещать на сайтенесколько файлов robots.txt, размещать robots.txt в подкаталогах(в том числе подкаталогах пользователей типа www.hostsite.ru/~user1/)бессмысленно: «лишние» файлы просто не будут учтены роботом. Такимобразом, вся информация о запретах на индексирование подкаталогов сайта должнабыть собрана в едином файле robots.txt в «корне» сайта. Имя robots.txtдолжно быть набрано строчными (маленькими) буквами, поскольку именаинтернет-ресурсов (URI) чувствительны к регистру. Ниже приведены примерыправильных и неправильных размещений robots.txt.

<span Times New Roman",«serif»">

Правильные:
www.w3.org/robots.txt
w3.org/robots.txt
www.w3.org:80/robots.txt
(В данном случае все эти три ссылки ведут на один и тот же файл.)

Неправильные:
www.yoursite.ru/publick/robots.txt
www.yoursite.ru/~you/robots.txt
www.yoursite.ru/Robots.txt
www.yoursite.ru/ROBOTS.TXT

<span Times New Roman",«serif»">Форматфайла robots.txt

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Пример

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Следующийпростой файл robots.txt запрещает индексацию всех страниц сайта всемроботам, кроме робота Рамблера, которому, наоборот, разрешена индексация всехстраниц сайта.

<span Times New Roman",«serif»">#Инструкции для всех роботов


<span Times New Roman",«serif»">User-agent:   *
<span Times New Roman",«serif»">Disallow:/

<span Times New Roman",«serif»">#Инструкции для робота Рамблера
<span Times New Roman",«serif»">User-agent:StackRambler
<span Times New Roman",«serif»">Disallow:

<span Times New Roman",«serif»">Группыинструкций для отдельных роботов: User-agent

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Любойфайл robots.txt состоит из групп инструкций. Каждая из них начинается состроки User-agent, указывающей, к каким роботам относятся следующие за нейинструкции <span Times New Roman",«serif»">Disallow

.

<span Times New Roman",«serif»">Длякаждого робота пишется своя группа инструкций. Это означает, что робот можетбыть упомянут только в одной строке <span Times New Roman",«serif»">User-agent

, и в каждойстроке <span Times New Roman",«serif»">User-agentможет быть упомянут только один робот.

<span Times New Roman",«serif»">Исключениесоставляет строка <span Times New Roman",«serif»">User-agent:   *

.Она означает, что следующие за ней Disallow относятся ко всем роботам, крометех, для которых есть свои строки <span Times New Roman",«serif»">User-agent.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Инструкции:Disallow

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Вкаждой группе, вводимой строкой <span Times New Roman",«serif»">User-agent

, должна быть хотябы одна инструкция <span Times New Roman",«serif»">Disallow.Количество инструкций <span Times New Roman",«serif»">Disallow не ограничено.

<span Times New Roman",«serif»">Строка"<span Times New Roman",«serif»">Disallow:/dir

" запрещает посещение всех страниц сервера, полное имякоторых (от корня сервера) начинается с "<span Times New Roman",«serif»">/dir". Например<span Times New Roman",«serif»; mso-ansi-language:EN-US">: "<span Times New Roman",«serif»">/dir.html", "<span Times New Roman",«serif»">/dir/index.html","<span Times New Roman",«serif»">/directory.html".

<span Times New Roman",«serif»">Чтобызапрещать посещение именно каталога "<span Times New Roman",«serif»">/dir

",инструкция должна иметь вид: "<span Times New Roman",«serif»">Disallow: /dir/". Длятого, чтобы инструкция что-либо запрещала, указанный в ней путь долженначинаться с "<span Times New Roman",«serif»">/".Соответственно, инструкция "<span Times New Roman",«serif»">Disallow:" не запрещаетничего, то есть все разрешает.

<span Times New Roman",«serif»">Внимание:

<span Times New Roman",«serif»"> точнотак же и инструкции "<span Times New Roman",«serif»">Disallow:   *","<span Times New Roman",«serif»">Disallow:*.doc", "<span Times New Roman",«serif»">Disallow: /dir/*.doc"не запрещают ничего, поскольку файлов, имя которых начинается со звездочки илисодержит ее, не существует! Использование регулярных выражений в строках <span Times New Roman",«serif»">Disallow,равно как и в файле robots.txt вообще, не предусмотрено.

<span Times New Roman",«serif»">Ксожалению, инструкций <span Times New Roman",«serif»">Allow

в файлах robots.txt небывает. Поэтому даже если закрытых для индексирования документов очень много,все равно придется перечислять именно их, а не немногочисленные«открытые» документы. Надо продумать структуру сайта, чтобы закрытыедля индексирования документы были собраны по возможности в одном месте.

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Пустыестроки и комментарии

<span Times New Roman",«serif»">

<span Times New Roman",«serif»">Пустыестроки допускаются между группами инструкций, вводимыми User-agent.

<span Times New Roman",«serif»">Инструкция<span Times New Roman",«serif»">Disallow

учитывается, только если она подчинена какой-либо строке User-agent — то естьесли выше нее есть строка <span Times New Roman",«serif»">User-agent.

<span Times New Roman",«serif»">Любойтекст от знака решетки "<span Times New Roman",«serif»">#

" до конца строкисчитается комментарием и игнорируется.

<span Times New Roman",«serif»">

Использование META-тегов «Robots»<span Arial Unicode MS"; color:black">

<span Times New Roman",«serif»">Вотличие от файлов robots.txt, описывающих индексацию сайта в целом, тег <span Times New Roman",«serif»"><metaname=«Robots» content="...">

управляетиндексацией конкретной web-страницы. При этом роботам можно запретить не толькоиндексацию самого документа, но и проход по имеющимся в нем ссылкам.

<span Times New Roman",«serif»">Инструкциипо индексации записываются в поле <span Times New Roman",«serif»">content

. Возможны следующиеинструкции:

·<span Times New Roman"">                    

<span Times New Roman",«serif»">NOINDEX — запрещает индексирование документа;

·<span Times New Roman"">                    

<span Times New Roman",«serif»">NOFOLLOW — запрещает проход по ссылкам, имеющимся вдокументе;

·<span Times New Roman"">                    

<span Times New Roman",«serif»">INDEX — разрешает индексирование документа;

·<span Times New Roman"">                    

<span Times New Roman",«serif»">FOLLOW — разрешает проход по ссылкам.

·<span Times New Roman"">                    

<span Times New Roman",«serif»;mso-ansi-language:EN-US">ALL — равносильно<span Times New Roman",«serif»;mso-ansi-language:EN-US">INDEX,FOLLOW

·<span Times New Roman"">                    

<span Times New Roman",«serif»;mso-ansi-language:EN-US">NONE — равносильно<span Times New Roman",«serif»;mso-ansi-language:EN-US">NOINDEX,NOFOLLOW

<span Times New Roman",«serif»">Значение

<span Times New Roman",«serif»; mso-ansi-language:EN-US"> <span Times New Roman",«serif»">по<span Times New Roman",«serif»;mso-ansi-language:EN-US"> <span Times New Roman",«serif»">умолчанию<span Times New Roman",«serif»; mso-ansi-language:EN-US">: <span Times New Roman",«serif»"><meta name=«Robots»content=«INDEX, FOLLOW»>.

<span Times New Roman",«serif»">Вследующем примере робот может индексировать документ, но не должен выделять изнего ссылки для поиска дальнейших документов:

<span Times New Roman",«serif»; mso-ansi-language:EN-US"><span Times New Roman",«serif»;mso-ansi-language:EN-US">

<span Times New Roman",«serif»">Имятега, названия и значения полей нечувствительны к регистру.

<span Times New Roman",«serif»">В поле <span Times New Roman",«serif»">content

дублирование инструкций, наличие противоречивых инструкций и т.п. недопускается; в частности, значение поле <span Times New Roman",«serif»">content не можетиметь вид "<span Times New Roman","
еще рефераты
Еще работы по компьютерным сетям