Реферат: Форматы баз данных в автоматизированных библиографических системах

ВВЕДЕНИЕ.

Термин MARC представляетсобой акроним названия системы Machine- Readable Catalogue or Cataloguing (Машиночитаемый каталог или каталогизация). Однако этоназвание не совсем точно, поскольку MARCнеявляется ни каким-либо видом каталога, ни методом каталогизации. Фактически MARC — это краткий и удобный термин для обозначенияпроцесса маркировки любой части каталогизационной записи так, чтобы она моглабыть обработана с помощью компьютера.

В общих словах, коммуникативный формат MARCдолжен обеспечивать:

·<span Times New Roman"">    

возможностьего применения для всех видов библиотечных документов;

·<span Times New Roman"">    

достаточнуюгибкость для решения разнообразных задач в дополнение к каталогизации;

·<span Times New Roman"">    

удобствоприменения в различных автоматизированных системах.

Применение стандарта MARCв библиотеке, которая до этого работала с каталожнымикарточками, заметно увеличит скорость работы, то есть не будет необходимостистоять «бог знает сколько времени» у каталога, чтобы найти нужнуюкарточку. Стандарт MARCпозволяетнайти любую книгу, которая имеется в библиотеке, в считанные секунды. Например,если читатель забыл или не знает какого- либо нужного описания книги (автор,название и т. п), то MARCдаётвозможность найти эту книгу по ключевым словам. К достоинствам MARC-а следует отнести и то, что он требует минимум одинкомпьютер, то есть все те каталоги с карточками становятся ненужными.

Использование стандарта MARCпредотвращает дублирование работы и помогает библиотекамлучше распорядится библиотечными ресурсами. Выбор для работы формата MARCдаёт библиотекам возможность приобретать надёжныекаталогизационные данные, представленные в правильной форме.

Применение стандарта MARCпри управлении библиотечными операциями позволяетбиблиотекарям использовать имеющиеся автоматизированные библиотечные системы.Многие системы, доступные библиотекам разного уровня, спроектированы для работыс форматом MARC. Онитехнически обслуживаются и совершенствуются, так что библиотеки могутпользоваться преимуществами последних достижений в компьютерной технологии.Стандарт MARCпозволяеттакже библиотекам заменить одну систему на другую с уверенностью, что их данныебудут совместимы.

Несмотря на сотрудничество стран в этой области появилосьнесколько версий формата MARCтаких, какUKMARC, INTERMARC, USMARC,расхождения в которых были вызваны различиями в национальных правилах ипрактике каталогизации.

<span Times New Roman",«serif»;mso-fareast-font-family:«Times New Roman»; mso-ansi-language:RU;mso-fareast-language:KO;mso-bidi-language:AR-SA">

ГЛАВА 1.ОПИСАНИЕФОРМАТА USMARC.

Библиотека Конгресса является официальным депозитариемпубликаций Соединённых Штатов и первичным источником каталогизационных  TOC o «1-3» записей для международныхпубликаций и публикаций США. В 1960-е гг. Библиотека Конгресса разработалаформат MARCБиблиотеки Конгресса(формат LC MARC), систему,использующую в каталогизационной записи цифры, буквы и другие символы дляобозначения различных типов информации. В процессе развития формат LC MARCстал форматом USMARC (форматом MARCСША). Ведение библиографического формата USMARC, также как и официальной документации USMARC, осуществляется Библиотекой Конгресса.

<span Times New Roman",«serif»;mso-fareast-font-family:«Times New Roman»; mso-ansi-language:EN-US;mso-fareast-language:KO;mso-bidi-language:AR-SA">

1.1ТЕРМИНЫ USMARCИ ИХОПРЕДЕЛЕНИЯ.

Указателиданных(Signposts): Чтобысчитывать и интерпретировать библиографическую запись, компьютеру необходимапомощь. Таблица 1 иллюстрирует информацию, для обозначения которой требуются"signposts".

                                                                             Таблица 1

Запись с текстовыми "signposts":    Та же записьс метками MARC:

"SIGNPOSTS"

ДАННЫЕ

"SIGNPOSTS"

ДАННЫЕ

Заголовок основной библиографической записи:

Имя:

King, Stephen

100            1            $а

King, Stephen

Заглавие и сведения об ответственности:

  Основное заглавие:

  Сведения об ответственности :

Misery

Jim Arnosky

245            10          $а

                               $с

Misery

Jim Arnosky

Область издания:

  Сведения об издании:

<st1:metricconverter ProductID=«1 st» w:st=«on»>1 st</st1:metricconverter>ed.

250                         $а

<st1:metricconverter ProductID=«1 st» w:st=«on»>1 st</st1:metricconverter>ed.

и так далее...

Сравнение одной и той же записи с текстовыми "signposts" и с метками USMARCиллюстрирует компактность формата USMARC, то есть экономное расходование объёма компьютернойпамяти.

Таблица 1 иллюстрирует запись MARC, размеченную "signposts".Наименованиями этих "signposts"являются: ПОЛЕ, МЕТКА, ИНДИКАТОР,ПОДПОЛЕ, КОД ПОДПОЛЯ И ОПРЕДЕЛИТЕЛЬ СОДЕРЖАНИЯ. Рассмотрим эти термины вотдельности.

Поле : Каждая библиографическая записьлогически делится на поля. Имеется поле для автора, поле для информации озаглавии и т.д. Эти поля подразделяются на одно или несколько«подполей».

Как было отмечено ранее, текстовые наименования полей слишкомдлинные, чтобы их приводить в каждой записи USMARC. Вместо этого поля представляются 3-х цифровыми метками.

Метка : Каждое поле ассоциируется стрёхцифровым числом, которое называется меткой. Метка идентифицирует поле (типданных), которое следует после неё. Даже если на экране дисплея сразу послеметки выведены ещё и индикаторы (таким образом, может появиться число из 4 или5 цифр), метка всегда представляет собой первые три цифры.

См. ниже пример записи поля. Число 100 является меткой,определяющей поле заголовка основной библиографической записи на имя лица(автора).

100 1# $a King, Stephen

В записи USMARC10% метокиспользуются достаточно, другие 90% встречаются только в редких случаях.

Индикаторы : За каждойметкой поля следуют две позиции символов (за исключением полей 001- 009). Однаили обе эти позиции символов могут использоваться для индикаторов. В некоторыхполях применяется только первая или вторая позиция; в других полях используютсяобе позиции; а в таких полях, как 020 или 300, позиции не используются совсем.Если позиция индикатора не используется, индикатор характеризуется как«неопределённый», позиция остаётся незаполненной. В данной работе, впримерах, незаполненные или неопределённые позиции индикатора обозначаютсясимволом "# ".

Значением каждого индикатора является цифра от 0 до 9. (Хотяправилами допускаются буквы, они используются редко). Даже, если два индикаторавместе могут казаться 2-х значным числом, в действительности они являются двумяотдельными цифрами. В приведённом ниже примере первые 3 цифры являются меткой(245 определяет поле заглавия), 2 следующие цифры (1 и 4) являются значениямииндикаторов. «1»- первый индикатор; «4»- второй индикатор.

24514 $a The waste lands / $c adapted from Stephen King.

Значение 1 первого индикатора в поле заглавия указывает, что в данном каталоге должна бытьотдельная библиографическая запись на заглавие. В карточном каталоге этоозначает, что для единицы описания должна распечатываться карточка с добавочнойбиблиографической записью на заглавие, а в справке о добавочных записях должнобыть указано «Заглавие».

С помощью второго индикатора на экране дисплея указываетсяколичество символов в начале поля (включая пробелы (spaces)), которые не должны учитываться компьютером в процессесортировки и расстановки. Для заглавия The waste lands второй индикатор устанавливается на цифре«4», чтобы первые четыре символа ("T", "h","e", пробел) не учитывались присортировке и заглавие сортировалось в файле на слово "waste".

Подполе :Большинство полей содержит несколько отдельных взаимосвязанных данных. Каждыйтип данных в поле называется подполем,и каждому подполю предшествует кодподполя. Поля от 001 до 009 не имеют подполей.

Например, поле физического описания для книг (определённоеметкой 300) включает подполе для объёма (количество страниц), подполе длядругих физических характеристик (информация об иллюстрациях), а также подполедля размеров (сантиметры):

300 ## $a 675 p.; $b ill.; $c <st1:metricconverter ProductID=«24 см» w:st=«on»>24 см</st1:metricconverter>.

Код подполя: Кодподполя представляет собой одну букву нижнего регистра (в отдельных случаяхцифру), которой предшествует разделитель подполя. Каждый код подполя указывает,какой тип данных следует после него.

Разделитель: Различные программы математического обеспечения для представленияразделителя на экране или в распечатке используют различные символы. Примерамимогут служить двойной кинжал (<span Courier New";mso-ascii-font-family:«Times New Roman»; mso-hansi-font-family:«Times New Roman»;mso-bidi-font-family:«Times New Roman»; mso-char-type:symbol;mso-symbol-font-family:«Courier New»"><span Courier New"">╪

), знак«эт» (@), знакдоллара ($), линияподчёркивания (_) и другие. В данной работе в качестве части кода подполя,являющейся разделителем, используется знак доллара ($).

В приведённом выше примере кодами подполей являются: $a дляобозначения объёма, $bдля других физических характеристик и $cдляразмера.

1.2.КОММУНИКАТИВНЫЙФОРМАТ USMARC.

Записи USMARCназывают«теговыми» записями (записи с метками). Прежде чем стать теговойзаписью, запись USMARC(в такназываемом коммуникативном формате USMARC) выглядитсовсем по другому, — как одно длинное слитное предложение. Коммуникативныйформат USMARCсостоит из маркера исправочника. В коммуникативном формате метки перед полями не проставляются.Однако, непосредственно за маркером следует блок данных, называемыхсправочником. Этот справочник показывает, какие метки имеются в записи и гдеони располагаются. Справочник формируется (компьютером) из библиографическойзаписи.

Маркер : Маркерпредставляет собой первые 24 (от 0 до 23) символа записи. Каждая позиция имеетустановленное значение. Рассмотрим более подробно значения позиций маркера :

00- 04  ДЛИНАЛОГИЧЕСКОЙ ЗАПИСИ;

05        СТАТУСЗАПИСИ:

           a = повышениеуровня кодирования;

           c=исправленная или пересмотренная;

          d=исключённая;

          n= новая;

          p=повышение уровня кодирования;

06        ТИП ЗАПИСИ:

          a= языковой материал;

          b=контроль за архивными и рукописными

               материалами;

          c= печатное музыкальное издание;

          d=рукописный музыкальный материал;

          e= печатное картографическое издание;

          f = рукописный картографический материал;

          g= проекционный материал;

          i = немузыкальная звукозапись;

          j= музыкальная звукозапись;

          k= двухмерная непроекционная графика;

          m= компьютерный файл;

          o= комплексная работа;

          r= трёхмерный объект;

07       БИБЛИОГРАФИЧЕСКИЙ УРОВЕНЬ:

          a= составная часть монографического издания;

          b= составная часть сериального издания;

          c= подборка;

          d= часть подборки;

          m= монография как единица описания;

          s= сериальное издание;

08- 09  НЕОПРЕДЕЛЁННЫЕПОЗИЦИИ

10        СЧЁТИНДИКАТОРОВ (всегда «2»)

11        СЧЁТ КОДАПОДПОЛЯ (всегда «2»)

12- 16  БАЗОВЫЙ АДРЕСДАННЫХ (вычисляется

           компьютеромдля каждой записи)

17        УРОВЕНЬКОДИРОВАНИЯ:

          #= полный уровень;

          1 = полныйуровень, анализ материала не проводится;

          2 = менееполный уровень, анализ материала не

               проводится;

          5 = частичный(предварительный) уровень;

          7 =минимальный уровень;

          8 =допубликационный уровень (CIP);

          u= неизвестно;

          z= не применяется;

18        ФОРМАОПИСАТЕЛЬНОЙ КАТАЛОГИЗАЦИИ:

          #= не соответствует ISBN;

          а = AACR2;

          i = ISBN;

          u = неизвестно;

19        ТРЕБОВАНИЯ КСВЯЗАННОЙ ЗАПИСИ:

          #= взаимосвязанная запись НЕ требуется (для полной

                обработки составляемой записи);

          r = взаимосвязанная запись требуется (для полной

               обработки составляемой записи);

20        ДЛИНАКОМПОНЕНТА «ДЛИНА ПОЛЯ ДАННЫХ»

            (всегда«4»)

21        ДЛИНАКОМПОНЕНТА «ПОЗИЦИЯ НАЧАЛЬНОГО

           СИМВОЛА» (всегда «5»)

22        ДЛИНАКОМПОНЕНТА «ЧАСТЬ, ОПРЕДЕЛЯЕМАЯ

            ПРИПРИМЕНЕНИИ» (всегда «0»)

23       НЕОПРЕДЕЛЁННАЯ ПОЗИЦИЯ СИМВОЛА ПЛАНА

            СПРАВОЧНИКА(всегда «0»)

Справочник : Как былосказано ранее, справочник показывает, какие метки имеются в записи и где онирасполагаются. Это достигается с помощью подсчёта символов в направлениипозиции, где начинается каждое поле. Для более наглядного представлениярассмотрим пример коммуникативной записи USMARC:

00422dam  22001337 450000500170000008000100001709000170002710

0001400044245007200058260002500130300001600155653009500171990

002200266^19970806174944.8^00$a519.2^00$a519$xЮ16$hП^ 0$aЮди

н М.Д.^ 0$aСходимость распределений исумм случайных величин$

bУчебн.метод.пособие^ 0$aМн.$bУниверситетское^00$a254 c.$bил.

^00$aТеория вероятности,Статистические исследования, Прикладн

ая математика, Случайные величины^00$b2$e2$v2$t77$z0$j2^<span Times New Roman"; mso-hansi-font-family:«Times New Roman»;mso-ansi-language:EN-US;mso-char-type: symbol;mso-symbol-font-family:Symbol">«

Проанализируем этот пример.

Первые 24 позиции являются маркером. Он заканчивается цифрами«4500». Непосредственно после маркера начинается справочник. Метки вэтом примере подчёркнуты… Каждая отдельная статья справочника вместе с меткойимеет длину 12 символов. Первой меткой является 005. Следующие 4 позиции послекаждой метки указывают длину поля. В этой записи данные в поле 005 (датакорректировки) имеют длину 17 символов. Следующие 5 позиций обозначаютначальную точку отсчёта (позицию начального символа) для этого поля в строкеданных, которая следует за справочником (после первого разделителя "^").

Поле 005 начинается с позиции 00000 (первая позиция являетсяпозицией 0). Следующей является метка поля 008, которое имеет длину 10 символови начинается с 17-й позиции (длина предшествующего поля 17, добавленная к егоначальной позиции 00000, равна 17). Следующая метка поля- 090. Оно имеет длину17 символов и начинается с 27-ой позиции (17+10=27)...

Последнее поле 990 имеет длину 22 символа и начинается с 266позиции.

Разделители полей (в примере они изображены знаком ^) отмечают конец справочника и конец каждого поля,которые следуют за справочником.

Разделитель записи (изображённый в этом примере знаком <span Times New Roman";mso-hansi-font-family:«Times New Roman»; mso-char-type:symbol;mso-symbol-font-family:Symbol">«

) заканчивает каждуюбиблиографическую запись.

Приведём, наконец, этот пример в виде размеченногоизображения:

Маркер......................................................................00422dam     22001337 4500

DTLT (дата ивремя последней транзакции)....005.......19970806174944.8

ИндексУДК.............................................................080........$a 519.2

Шрифты....................................................................090.......$a 519

..................................................................................................$x Ю 16

..................................................................................................$hП

Имяавтора...............................................................100........$a Юдин М. Д.

Заглавие....................................................................245........$a Сходимостьраспределений

       случайных величин

..................................................................................................$b Учебн.метод.пособие

Публикация.............................................................260........$a Мн.

.................................................................................................$b Университетское

Физическое описание...........................................300.......$a 254 с.

.................................................................................................$b ил.

Ключевые слова ....................................................653........$a Теориявероятности, Статистические

      исследования, Прикладная математика,

                                                                                                      Случайные величины

Данные о заказе....................................................990.........$b 2

.................................................................................................$e 2

.................................................................................................$v 2

.................................................................................................$t 77

.................................................................................................$z0

.................................................................................................$j2

<span Times New Roman",«serif»;mso-fareast-font-family:«Times New Roman»; mso-ansi-language:EN-US;mso-fareast-language:KO;mso-bidi-language:AR-SA">

ГЛАВА 2. ФОРМАТ UNIMARC.

2.1. ЦЕЛИ СОЗДАНИЯ ФОРМАТА UNIMARC.

С начала 70-х годов семейство MARCувеличилось более чем на 20 форматов. Различия в содержанииданных этих форматов вызывают необходимость редактирования записи до обменаими.

Для преодоления несовместимости форматов было принято решениеразработать международный формат MARC(UNIMARC), который позволил бы приниматьзаписи, составленные в любом формате MARCтак, чтобыони могли конвертироваться в UNIMARC, а из негов любой другой формат MARC. Для этогокаждой национальной службе достаточно будет составить только две программы(одну для конвертирования в UNIMARC, другую изформата UNIMARC) вместоспециальных программ конвертирования в каждый из форматов MARC, например, INTERMARCв UKMARC, USMARC в UKMARCи т.д. Таким образом, основной целью создания формата UNIMARCявляется содействие международномуобмену данными в машиночитаемой форме между национальными библиографическимислужбами, а также более простое и удобное составление описаниябиблиографических единиц, их поиск и контроль. Последнее достигается с помощьюразработанных методов записи библиографической информации, осуществляемой всоответствии с международными стандартами.

<span Times New Roman",«serif»;mso-fareast-font-family:«Times New Roman»; mso-ansi-language:RU;mso-fareast-language:KO;mso-bidi-language:AR-SA">

2.2. ОТЛИЧИЕ ФОРМАТА UNIMARC ОТ ФОРМАТА

       USMARC.

Прежде всего нужно отметить, что те определения, которыеприводились для формата USMARCподходят(или правильнее сказать применяются) в формате UNIMARC(то есть понятия поля, метки, индикатора, маркера,справочника и др. сохраняются). Таким образом, не имеет смысла описывать стольже подробно формат UNIMARC, как былописан формат USMARC. Поэтомустоит остановиться на тех фрагментах, которые отличают эти два формата.

Основным отличием форматов UNIMARCи USMARCявляютсяпрежде всего несоответствия полей, подполей, индикаторов и т.п. (то естьправильнее будет сказать несоответствия меток полей, подполей, индикаторов и т.п.). К отличиям можно отнести также и то, что количество полей в формате UNIMARCне совпадает с количеством полей вформате USMARC, причём в UNIMARCполей больше чем в USMARC. Это связано с тем, что сам формат UNIMARC, как было сказано ранее,создавался значительно позже, чем формат USMARCи, соответственно, при создании UNIMARCучитывалось всё, чтобы этот формат был лучшим и заменил всеостальные форматы.

Дальнейшие отличия между форматами UNIMARCи USMARCявляютсяболее мелкими (вытекающими из вышеперечисленных) и связаны опять таки с тем,что формат UNIMARC«младше» формата USMARC(например,количество подполей в полях, длины полей, различия в обозначениях индикаторов идругое).

Приведём, наконец, пример записи коммуникативного формата UNIMARCи сопоставим его примеру записикоммуникотивного формата USMARC:

00579nam  2200193  45000010011000000100018000111000041000291

01000800070200006900078210002400147215002300171225003000194

61000580022467500270028268600170030968600170032670000160034

3702002600359^ru96-37586^  $a5-88201-040-3^  $a19970708d1996   

u  a0rusb0103   ca^0 $arus^1 $aInternet Windows95$fПитер Кент$g

Перевод с англ. В. Л. Григорьева^  $aM.$cКомпьютер$d1996^  $

a367c.$cил.$d21 см^1 $aКомпьютерныймир 21 века^0 $aВычисл

ительные сети глобальные-операционные системы^  $a681.324/.0

66(100)$zrus^  $a50$drugasnti^  $a32.97$drubbk^ 1$aКент$bПитер

^1$aГригорьев$bВ. Л.^<span Times New Roman";mso-hansi-font-family: «Times New Roman»;mso-ansi-language:EN-US;mso-char-type:symbol;mso-symbol-font-family: Symbol">«

Начнём с того, что первые 24 позиции являются маркером.Аналогично с записью USMARC, послемаркера следует справочник. Метки в справочнике подчёркнуты каждая статьясправочника занимает 12 символов (4 позиции на длину поля и 5 позиций на точкуотсчёта).

Если внимательно посмотреть, то нетрудно заметить, что меткиполей в UNIMARCотличаютсяот меток в USMARC(например,поле автора в UNIMARC-200, а в USMARC-100). Также видно, что повторяется поле 686. Этоговорит о том, что поля в UNIMARCмогут повторяться.Больше того, в UNIMARCпоследовательность приведения полей в записи является свободной, то есть поляне обязательно должны идти в справочнике в порядке возростания (001, 010, 100,200 и т.д.), они могут располагатся свободно (605, 710, 702, 012 и т.д.).

Остальныеособенности записи формата UNIMARCприведеныв начале пункта 2.2.
     2.3. КОНВЕРТИРОВАНИЕ ДАННЫХ ПО СТРУКТУРЕ

            USMARC<span Times New Roman";mso-hansi-font-family:«Times New Roman»;mso-ansi-language: EN-US;mso-char-type:symbol;mso-symbol-font-family:Symbol">«

UNIMARC.

При создании конверторов USMARC<span Times New Roman"; mso-hansi-font-family:«Times New Roman»;mso-ansi-language:EN-US;mso-char-type: symbol;mso-symbol-font-family:Symbol">«

UNIMARCнеобходимо составить определённые алгоритмы программ.

Рассмотрим алгоритм программы-конвертора UNIMARC <span Times New Roman";mso-hansi-font-family:«Times New Roman»;mso-ansi-language: EN-US;mso-char-type:symbol;mso-symbol-font-family:Symbol">®

USMARC.

Программа-конвертор может состоять из 3 блоков.

В первом блоке программа-конвертор должна считывать те данныеиз файла, которые необходимо конвертировать.

Второй блок является основным и самым сложным. В нём,собственно, и происходит конвертирование данных. Это конвертирование такжеможно разделить на несколько состовных частей. Сначала необходимо перестроитьмаркер. После предстоит конвертирование справочника. Тут будет важным перевестивсе метки полей, подполей и индикаторов, которые не совпадают. Эту задачу можнорешить с помощью дополнительного файла, в котором указаны все метки полей,подполей и индикаторов одного из форматов. Также нужно учитывать и то, чтодлины полей формата, который конвертируется могут не совпадать с длинами полейнового формата (то есть надо пересчитать эти длины).

В третьем блоке новую запись необходимо записать в новыйфайл, который и будет отображать форму записи нового формата.

Алгоритм конвертора USMARC<span Times New Roman";mso-hansi-font-family: «Times New Roman»;mso-ansi-language:EN-US;mso-char-type:symbol;mso-symbol-font-family: Symbol">®

UNIMARC строится аналогичным образом<span Times New Roman",«serif»;mso-fareast-font-family:«Times New Roman»; mso-ansi-language:RU;mso-fareast-language:KO;mso-bidi-language:AR-SA">

ЗАКЛЮЧЕНИЕ.

Итак, мы провели небольшой обзор по форматамавтоматизированных библиографических систем USMARCи UNIMARC (так какименно эти два формата имеют наибольшее распространение и доверие в мире).

Основная цель данного исследования заключалась не в детальномрассмотрении форматов USMARC иUNIMARC, а в том, чтобы подчеркнуть фактперехода библиотек на эти автоматизированные системы.

Хотелось бы подчеркнуть также и то, что болеепредпочтительней является формат записи UNIMARC, чем USMARC(или ещёкакой-нибудь). Причины этого назывались ранее. Можно сказать что формат UNIMARCуже вытесняет формат USMARC, и впоследствии он (UNIMARC) станет форматом, используемым в большинстве стран мира.Однако наука не стоит на месте, и возможно, уже в скором времени появится болееудобный формат.

еще рефераты
Еще работы по программированию, базе данных