Метаданные

Владимир Андрианов, DATA+

Метаданные – одно из недавно ставших популярными «словечек», всё чаще употребляющихся в речи специалистов по геоинформатике. Магия слова делает свое дело, многие «уверовавшие» заворожены открывающимися (или кем-то обещанными) возможностями, слово возводится в культ, но далеко не все понимают, что это такое на самом деле. Задача этой статьи – объяснить, что такое метаданные, де-мистифицировать их, показать, что это всего лишь рабочий инструмент в рамках информационных систем.

Зачем нужны метаданные

Создание метаданных – не самоцель и не «вещь в себе». В действительности, метаданные нужны для поддержки поиска геоданных и создания каталогов геоинформационных ресурсов. Собственно, и сами метаданные, или «данные о данных», являются информационным ресурсом, содержащим информацию о другом ресурсе или других ресурсах. Кроме того, внутри организации метаданные играют роль средства документирования информационных ресурсов. Не секрет, что с уходом специалиста, «ведущего» какой-то информационный ресурс или систему, новому сотруднику бывает очень сложно разобраться во внутренней кухне разработки, если она плохо документирована.

Рассмотрим для примера WWW. Как найти во Всемирной паутине страницу с нужной информацией? Правильно, надо обратиться к поисковой системе типа Google или Яндекс. А как искать? Набрать в строке запроса характерные слова, которые должны встречаться на такой странице. Еще есть расширенный поиск, который позволяет ограничить поиск одним сайтом, диапазоном дат, языком или форматом документа. А теперь представьте, что вы ищете публикации человека по фамилии Заяц. Что вы найдете?

Проблема в том, что поисковые машины не могут отличать различные смыслы слов, не умеют рассматривать картинки, не могут отделить собственное содержание сайта от постоянно меняющейся рекламы. Если же мы рассмотрим использование Интернета для публикации карт или геоданных, то текстовые поисковики окажутся просто бессильны.

Вообще-то уже в стандарте HTML заложена возможность, которая могла бы облегчить поиск документов, это метатеги (метаданные страниц). Они указываются в заголовке каждой страницы и, например, конструкция <meta name=»author» content=»Заяц»> позволяет однозначно идентифицировать документы, автором которых является Заяц. Но на практике ими почти никто не пользуется, считая их не нужными – метатеги не отображаются и не используются в работе самого сайта. Нужны они только поисковым системам, которые, считав их, могут вести свой каталог документов. Но поскольку нет общепринятых стандартов на состав и содержание метатегов, а большинство авторов сайтов их вообще игнорируют, создать реально полезный каталог оказывается невозможно.

С геоданными ситуация сложнее чем с текстовыми документами. Они имеют сложную структуру, разные форматы, часто большой объем. Просто «выложить данные в Интернет» – бесполезно, их нечем искать, поисковые машины их «не понимают». Но есть возможность опубликовать их описание. Описывать тоже можно по-разному, даже географическое положение можно задать многими способами. Один автор укажет название территории (кстати, на каком языке?), другой – широту и долготу (центра, границ?), третий – километровые координаты (в какой проекции?), четвертый – лист разграфки («N-35», «n35», «14_35», дальше — больше) и т.д. Таким образом, мы приходим к необходимости стандартизации описаний и создания специализированных каталогов. Во многих странах специалисты давно это осознали, и сейчас во всех инициативах по создания национальных и глобальной инфраструктур пространственных данных это – одно из трех главных направлений.

Историческим предшественником каталогов пространственных данных являются виртуальные каталоги обычных библиотек. В каждой библиотеке есть свой каталог, описание книг и других публикаций делается по типовым формам (карточкам), так что компьютеризация этого дела не так уж сложна. Описание каждой публикации содержит фиксированный набор именованных атрибутов, которые легко сводятся в таблицу базы данных, и в ней уже можно вести поиск. Каждая запись таблицы соответствует каталожной карточке, каждый столбец — полю каталожной карточки. Другими словами, каждая запись – это набор метаданных книги или иной публикации.

Наиболее известным набором метаданных для виртуальных каталогов библиотек является так называемое Дублинское ядро (Dublin core, http://dublincore.org/), стандартизованное в ISO 15836. Этот набор включает следующие элементы: название, тема, описание, источник, язык, связи, охват (в пространстве и/или времени), создатель, издатель, соавтор, права, дата, тип, формат, идентификатор.

Геоданные характеризуются большим числом параметров, нежели текстовые публикации, поэтому для них разработаны специальные стандарты метаданных. Наиболее общепризнанным является ISO 19115. Достоинством этого стандарта является то, что он представлен сразу на Универсальном языке моделирования (UML), так как UML-диаграммы могут напрямую использоваться для генерации схемы базы данных в полном соответствии с этим стандартом. Это, конечно, затрудняет восприятие для тех, кто не знаком с UML, но сопутствующее краткое описание синтаксиса UML и сопровождающее словесное описание UML-диаграмм позволяют, при желании, разобраться в этом документе.

С большим количеством элементов метаданных, предусмотренных ISO 19115, связана определенная трудоемкость в их заполнении, но эта проблема снимается как наличием общедоступных средств для создания метаданных, так и специальным Мастером метаданных в ArcCatalog.

В октябре 2005 года был утвержден российский профиль стандарта ISO 19115, содержащий обязательные элементы и значения элементов, предусмотренные международным стандартом, и дополняющий их некоторыми «национальными» (см. http://www.ggc.ru). Такой подход предусмотрен другим стандартом, ISO 19106 «Профили».

Иногда встречается мнение, что метаданные нужно создавать только для тех ресурсов, доступ к которым обеспечивается через Интернет. На самом деле это не так. Стандартами предусмотрено указание способа получения данных, например, поставка на оптических носителях. Кроме того, стандартные наборы метаданных отлично описывают и традиционные картографические произведения на бумаге. Главная задача метаданных – описание геоинформационных и картографических ресурсов независимо от способа представления и доставки. Только стандартизованное описание позволяет наладить каталожную службу и сделать поиск этих ресурсов эффективным.

Метаданные в ArcGIS

Метаданные могут сохраняться, в общем-то, в любом формате. Главное – должно быть понятно, какие элементы присутствуют, и какие значения они имеют. Это может быть и простой текстовый файл, и веб-страница на HTML, и таблица в документе MS Word, и запись в таблице реляционной БД. Все эти способы применяются, но наиболее эффективно хранение метаданных в виде XML-документов. В ArcGIS 8 форматы хранения метаданных были различны, а в ArcGIS 9 уже используется единый формат документа на XML. Международный стандарт ISO 19139 на XML-запись метаданных еще не утвержден, и ESRI использует собственную разработку.

Вообще говоря, продуктам ArcGIS всё равно, какому стандарту содержания соответствуют метаданные. Средства поиска по каталогу метаданных в ArcCatalog и Metadata Explorer используют лишь пять элементов: название (title), публикатор (publisher), пространственный экстент (spatial extent), тема (theme), тип ресурса (content type of the resource). И только эти элементы могут проверяться при помещении метаданных в каталог средствами ArcIMS Metadata Service. Все остальные элементы сохраняются в документе на сервере и по запросу выдаются клиенту без изменений.

XML (eXtensible Markup Language) – расширяемый язык разметки, он говорит о том, как называть элементы метаданных и как записывать их значения. Сама по себе спецификация XML не содержит списков ключевых слов из прикладных областей, это только общие правила формирования XML-документов (рис. 1). Для каждой прикладной области разрабатывается некая надстройка над базовой спецификацией, которая называется XML-приложением (XML-application).


Рис. 1. Фрагмент файла метаданных на XML
с цветовым выделением разметки.
Говоря об XML, нужно еще отметить, что сам по себе XML-документ не содержит информации о том, как метаданные должны отображаться, его задача – только структурированное хранение метаданных. Функция отображения реализуется с помощью другого XML-приложения, языка XSL. В XSL-файле указано, каким шрифтом, цветом, в каком месте страницы отображать каждый элемент отображаемого XML-документа. Каждый XSL-файл – своеобразный фильтр, через который вы можете увидеть метаданные, причем к одному стандартному XML-документу с метаданными могут применяться разные XSL- фильтры. То есть любой набор метаданных может показываться разными способами (рис. 2). В ArcGIS 9 есть готовые XSL-фильтры для отображения метаданных, записанных в соответствии с разными стандартами (FGDC и ISO с различными вариациями). Интересно отметить стиль FGDC FAQ, в котором метаданные отображаются в виде ответов на часто задаваемые вопросы («а кто создал этот набор геоданных?», «а как получить этот набор геоданных?» и т.д.).

Рис. 2. Представление файла метаданных с помощью XSL-фильтра в ArcCatalog.

В ArcGIS метаданные создаются с помощью Мастера метаданных в ArcCatalog. Часть элементов может создаваться автоматически (например, географический экстент), контактная информация может выбираться из базы данных контактов. Все обязательные элементы отмечены, чтобы их не упустить. Созданное таким образом описание набора геоданных может быть опубликовано во внешнем каталоге метаданных на основе ArcIMS – вам достаточно перетащить метаданные на значок соединения с сервером каталога. После этого любой пользователь этого каталога сможет найти информацию о вашем ресурсе и обратиться к вам насчет его получения (или подключиться к нему, если вы его опубликовали в виде веб-службы).

Так что метаданные – вещь нужная и полезная со всех точек зрения, да и для их создания много времени не требуется.