Д. Неберт Каталоги пространственных данных: поисковые системы
GSDI CookBook Руководство по созданию Глобальной инфраструктуры пространственных данных (главы из книги)
Каталоги пространственных данных: поисковые системы
В этой главе представлены основные концепции, проекты и опыт реализации систем поиска пространственных данных. Ее содержание может служить хорошим ориентиром для тех, кто интересуется вопросами разработки и использования систем поиска географической информации в мультимедийной Web-среде
Редактор Д. Неберт, FGDC (США)
Перевод ГИС-Ассоциация
Научный консультант В.Ю. Андрианов (ДАТА+)
Введение
«Размер имеет значение!». Эта популярная фраза весьма актуальна для объема данных, который необходим для принятия важных для современного общества решений. Особенно важна при этом географическая привязка этих данных. Однако по мере того, как интерактивно доступная информация будет все больше включать в себя географические сведения, возможность адекватного описания данных, их организации и обеспечения доступа к ним станет все более и более трудной. А ведь именно возможность поиска и доступа к геоинформационным ресурсам для визуализации и анализа данных в планировании и поддержке принятия решений является необходимым условием на локальном, региональном, национальном и международном уровнях. Общие подходы к решению этой проблемы уже разработаны и будут описаны далее в этой главе со сравнительной оценкой организационных методов, понятий, принятых в разных сообществах, архитектуры различных систем и способов, которые реализованы в уже имеющихся программах, основанных на принятых стандартах.
В этой главе представлены основные концепции, проекты и опыт реализации систем поиска пространственных данных. Ее содержание может служить хорошим ориентиром для тех, кто интересуется вопросами разработки и использования систем поиска географической информации в мультимедийной Web-среде. Рассмотрены также проблемы организации и распределения ролей, важные для создания сервисов в инфраструктурах пространственных данных. Принципы, описанные далее, могут применяться для обслуживания обширных коллекций как нецифровых баз картографических данных с использованием цифровых каталогов, так и для управления большими комплексными архивами данных и метаданных. Будут также представлены и проанализированы соответствующие стандарты и программное обеспечение, используемое для этих целей.
Общие сведения
Хотя Интернет постепенно становится самым большим хранилищем глобально доступной информации, его использование сильно затрудняется недостаточно развитой системой идентификации объектов и отсутствием всеобъемлющего каталога. В результате, в ответ на запрос через поисковые машины можно получить десятки тысяч ссылок на документы, которые по содержанию более-менее отвечают условиям запроса. К счастью, географическая информация, как правило, имеет характеристики, связанные с координатами объекта или географическим названием, а иногда дату и время создания. Эти метаданные и являются ключом к решению проблемы поиска на международном уровне.
Библиотеки уже давно создали основу для накопления и управления базами знаний о человеческом обществе, географии и объектах реального мира. Александрийская библиотека и ее современные потомки использовали и используют различные формы классификации, специализации и организации информационных фондов. Основой всех этих форм, так или иначе, является система каталогов. Для управления геоинформационными фондами используются описания пространственных данных, т. е. метаданные, которые, как описано в главе 2 «Пространственные данные: формирование ресурсов для многократного использования» (см. журнал «Пространственные данные» № 2, 3 за 2005 г.), применяются как общий словарь для создания структурированных информационных полей для обеспечения надежного доступа к ним. Метаданные хранятся и обслуживаются с помощью доступных для пользователей каталогов пространственной информации.
Рис. 1. Схема взаимодействия между основными компонентами систем распределенных каталогов и элементами ИПД с точки зрения пользователя
Системы обработки запросов и доступа к пространственным данным в ГИС-сообществе именуются как «Catalogue services» (Open Geospatial Consortium, Inc. OGC, ранее известный как OpenGIS Consortium), «Spatial Data Directory» (Австралийская инфраструктура пространственных данных), «Clearinghouse» и «GeospatialOne-Stop Portal» (FGDC, США). Несмотря на различные названия, цель одна и та же: обеспечение доступа к геоинформационным ресурсам с помощью метаданных. В дальнейшем такие системы будут называться «службами каталогов». Интегрирование этих служб со средствами Web-картографии и интерактивного доступа к пространственным данным может привести к созданию новых возможностей для поиска и получения данных, их оценки и использования. Данная глава посвящена проблемам поиска пространственных данных и служб, анализу накопленного опыта в этой области, что может помочь в расширении возможностей национальных инфраструктур пространственных данных (ИПД).
Концепции распределенных каталогов
Шлюз каталога и его пользовательский интерфейс позволяют выполнять запросы к распределенным ресурсам пространственной информации через описания метаданных. Эта пространственная информация может иметь форму данных или служб, доступных для обработки пространственных данных, представленных своими метаданными. На рис. 1 показаны основные формы взаимодействия индивидуального или корпоративного пользователя с информационными ресурсами. Блоки на этом рисунке представляют отдельные компоненты системы распределенного каталога, а линии, которые их соединяют, иллюстрируют взаимодействие между ними, описанное сопровождающим текстом.
Пользователь, которому нужен доступ к пространственной информации, использует поисковый интерфейс и заполняет поля условий поиска, определяя тем самым запрос на данные, обладающие определенными свойствами. Запрос передается в шлюз каталога и направляется на один или более серверов каталога. Каждый сервер располагает набором записей метаданных. В них имеются инструкции о том, как можно получить доступ к соответствующей информации. Уже разработан ряд пользовательских интерфейсов для выполнения основанного на каталогах поиска данных в различных национальных и региональных ИПД.
Совместимость поисковых функций в разных международных каталогах может быть достигнута с помощью общего словаря описаний (т. е. стандартизированных метаданных), общего обменного протокола и единой системы регистрации для серверов коллекций метаданных.
Среда распределенных каталогов это гораздо больше, чем только каталог записей. Распределенный каталог предоставляет ссылки и/или доступ к информации, средства заказа данных, картосхемы для их просмотра и другие подробные сведения, имеющиеся в метаданных. При этом метаданные играют три основных роли: (1) указание географического местоположения данных, (2) описание содержания и структуры информации и (3) предоставление конечному пользователю детальной информации об условиях применения данных. Традиционные каталоги, используемые в современных библиотеках, обеспечивают только сведения о том, где находится нужная информация. В эру цифровых технологий границы между данными и их каталогом становятся менее определенными, что позволяет управлять расширенной информацией, то есть метаданными, которые могут использоваться для решения многих задач, как компьютерными программами, так и человеком.
Организационные аспекты
Кто же должен и может заниматься размещением и поиском пространственной информации? Определив роли и обязанности всех участников этих процессов, можно более четко установить функции, которые смогут обеспечить эффективное использование ресурсов GSDI.
Здесь используется следующая терминология:
Набор данных выделенная и определенным образом подготовленная пространственная информация, иногда именуемая как «коллекция объектов», «изображение» или «покрытие».
Метаданные формализованный набор средств пространственной информации, принятых в ГИС-сообществе, и обеспечивающих распознавание структуры данных, их описание и прочие сведения.
Запись метаданных метаданные, связанные с конкретным набором данных.
Каталог коллекция записей метаданных под общим управлением.
Служба каталога служба, обеспечивающая обработку запросов на поиск метаданных в каталоге и основанная на определенных критериях просмотра и поиска.
Каталожная запись отдельная запись метаданных, доступная через службу каталога или хранящаяся в каталоге.
Запись о службе метаданные вызываемой службы или операции (метаданные службы).
Распределение ролей
На рис. 2 представлены схема взаимодействия между участниками процесса, их функции и объекты взаимодействия. На этом рисунке использована система обозначений универсального языка моделирования (UML) для более наглядного представления процессов с точки зрения их функционального назначения.
Составитель метаданных роль этого участника состоит в генерировании стандартизированных элементов метаданных, наилучшим образом описывающих содержание самих данных. Его статус может различаться в зависимости от типа компании и проекта: им может быть специалист, непосредственно участвующий в создании описываемого набора данных, либо подрядчик или привлеченная фирма, которая занималась созданием данных или метаданных на базе определенных проектных требований, либо общее описание, созданное производственной компанией без упоминания конкретных исполнителей. Учитывая недостаточную распространенность метаданных в целом, для их создания весьма часто привлекаются сторонние специалисты и компании, которые занимаются интерпретацией данных и составлением метаданных на этой основе.
Поставщик каталожных данных его роль состоит в предоставлении одной или более стандартизированной записи метаданных в каталоге. Эти записи могут иметь установленный для каталога вид, основанный на принятых форматах, или иметь форму, разработанную на базе информации, хранящейся в самих данных или сопровождающей программе. Поставщик метаданных взаимодействует с функциями управления службы каталога, которые обеспечивают считывание метаданных, их обновление, удаление, просмотр, назначение уровней доступа.
Администратор каталога его задача заключается в подготовке метаданных для доступа к ним. Менеджером метаданных может быть как их составитель, так и компания, которая произвела эти данные, действующие на основании полномочий, предоставленных им администраторами сайта, либо фирма, которая когда-то приобрела метаданные в той или иной форме и обеспечивает открытый доступ к ним. Администратор наделен правом разрешения доступа к системе обслуживания каталога для осуществления таких операций, как ввод, обновление и удаление метаданных, определяет ограничения на доступ и может выполнять качественную оценку записей метаданных. Он может также управлять внешним (клиентским) доступом к каталогу, если на него имеются ограничения.
Пользователь каталога должен четко указать условия поиска нужной ему географически привязанной информации. При этом вовсе не обязательно, чтобы он был специалистом в области географии и ГИС, но в любом случае он должен иметь навыки работы в сети Интернет. Другой распространенный метод доступа к каталогу использование программы, позволяющей находить и работать с информацией, имеющейся в каталоге. При этом обмен происходит на программном уровне и предполагает наличие документированного интерфейса (например API) для передачи запросов и получения ответов из службы каталога.
Администратор шлюза его функция состоит в том, чтобы обеспечивать и поддерживать возможности поиска в распределенных ресурсах. Это подразумевает ведение реестра серверов, участвующих в национальных или региональных ИПД, или поставку данных в такой реестр.
В последующих разделах будут более подробно рассмотрены компоненты схемы, приведенной на рис. 2, организационные и операционные требования к управлению услугами распределенных каталогов, совместимых с Глобальной ИПД, подразделив их на три группы:
1. Разработка услуг каталогов.
2. Шлюзы каталогов и интерфейсы доступа.
3. Регистрация участников.
В каждом из разделов будет рассмотрен конкретный сценарий использования, чтобы продемонстрировать роли и операции, которые связаны с созданием поискового компонента ИПД.
Разработка сервера/службы каталога
Службы распределенных каталогов предполагают определенную степень распределения владения и участия. В Интернет возобладал полностью централизованный подход к управлению метаданными, когда они размещаются в указателе одного из серверов или нескольких его зеркал. Во все более и более динамичной среде организации данных успешное взаимодействие между подробными метаданными и таким указателем становится все более проблематичным. С этим уже приходится сталкиваться практически ежедневно при работе с поисковыми машинами сети, достаточно часто выдающими сообщение об ошибке «404: File not found», когда нужный документ был перемещен в другой ресурс или изменен. Кроме того, наблюдается тенденция хранения информации и ее метаданных как связанных и даже совместно управляемых в пределах конкретной базы данных. Копирование этих метаданных во внешний указатель может быть дорогостоящим и сопровождаться проблемами синхронизации данных, их метаданных и внешне-индексированных метаданных. Организации, которые уже занимаются пространственными данными и заинтересованы в их размещении, являются наиболее подходящими претендентами на участие в процессах публикации и ведения метаданных в каталогах. Подход, при котором информация и метаданные хранятся на сервере, представляется более перспективным и обеспечивающим большую детальность информации по сравнению с подходом, при котором метаданные публикуются во внешнем указателе, функционирующим независимо от места размещения данных.
Разработка службы каталога, способной оперировать пространственной информацией, должна базироваться на сборе и управлении определенным уровнем пространственных метаданных в рамках конкретного предприятия. Ниже рассмотрен возможный сценарий подготовки записей метаданных.
Поставщик метаданных получает описание нового набора пространственных данных, созданного специалистами по сбору данных. Метаданные генерируются в обменном формате, чтобы обеспечить их передачу без потери контекста и содержания.
Запись метаданных передается администратору каталога для анализа и загрузки в каталог.
Администратор каталога применяет установленные критерии качества метаданных. Если метаданные оказываются приемлемыми, то они будут интегрированы в каталог.
После этого администратор каталога выполняет обновление каталога для открытия доступа к новой информации.
Новый набор данных с этого момента считается представленным в сети, поскольку его метаданные обеспечивают возможность поиска и просмотра его содержания, временной и пространственной привязки, а также ряда других полезных для поиска характеристик.
В настоящее время уже имеется несколько моделей служб каталогов, которые могут использоваться как в рамках организации, так и на внешнем уровне. Вообще говоря, сервер каталога обычно создается на уровне организации с учетом характера информации или метаданных, типа предприятия и его полномочий, а также возможного уровня оперативной поддержки каталога этим предприятием.
Модель консорциума основана на отдельных каталогах метаданных, сформированных и расположенных в одном и том же месте и доступных различным организациям. Метаданные экспортируются их составителями и передаются для дальнейшей оценки, загрузки и обеспечения доступа к ним. Эта модель может работать достаточно хорошо, если имеется квалифицированный персонал и средства защиты компьютерных сетей и распределенного доступа. Такой подход, помимо прочего, стимулирует сотрудничество между участниками создания межкорпоративных баз данных и ресурсов метаданных. При этом, однако, следует иметь в виду сложность управления подобными проектами, проблемы работы с информацией из многочисленных источников и необходимость обеспечения одновременного обновления информации и метаданных. Данные могут и не находиться в службе каталога, а быть доступны через ссылки на их поставщиков.
В случае корпоративной модели предполагается, что все метаданные в рамках одной организация передаются в единую службу, где может выполняться оценка их качества, содержания, стиля оформления. Такая модель позволяет сфокусировать сетевые ресурсы и внимание специалистов на управлении единственной службой и компьютерным сервером данной организации. При этом требуется выработка определенной корпоративной политики для организации сбора и передачи метаданных на сервер. Данная модель хорошо подходит тем организациям, которые по соображениям компьютерной безопасности не могут или не желают предоставлять публичного доступа к своим ресурсам. Для реализации этой модели необходимо обеспечить управление метаданными, полученными из разных источников, и гарантировать синхронизацию метаданных с данными, которые они описывают. Данные могут быть включены в службу каталога или размещаться у их создателей.
Модель рабочих групп предполагает, что служба каталога устанавливается в пределах предприятия на каждом рабочем месте, где данные создаются, регистрируются, управляются и обновляются. Это соответствует общей тенденции, наблюдаемой в Интернет, когда фактически любой человек, подключенный к сети, может рассматриваться как публикатор информации. Модель рабочей группы также предполагает, что отдельные специалисты и группы непосредственно связанные с процессами создания и обновления наборов данных, были вовлечены в работы по созданию и обслуживанию каталога. Таким образом обеспечивается высокая степень синхронизации между самими данными и их метаданными, а в некоторых случаях хранилища данных и метаданных могут быть полностью интегрированы. Реализация этого подхода требует хорошей подготовки персонала для ведения каталогов на локальном уровне и координации работ в рамках предприятия.
Особенности распределенных каталогов и их способность опрашивать много серверов позволяют утверждать, что все перечисленные выше модели одинаково жизнеспособны. Если присмотреться к этим моделям поближе, то можно сказать, что они представляют собой спектр организационных решений, различающихся по своей сложности, способам управления и степени интеграции метаданных и данных, которые они описывают.
Альтернативные подходы
Реализация распределенного каталога в значительной степени зависит от способности клиента пользоваться предлагаемыми услугами. К сожалению, доступ к компьютерам и коммуникационным сетям, поддерживающим Web-приложения, все еще открыт далеко не для всех. Хотя в этом отношении и наблюдается прогресс, поскольку постоянно растет число точек доступа к сетям, распределенные каталоги не подходят для тех стран, где Интернет еще не стал привычным средством коммуникаций или имеет недостаточную пропускную способность. Имеется два решения для подобных ситуаций.
Организациям и клиентам, имеющим ограниченный доступ к компьютерам или сетям, метаданные могут предоставляться в виде печатных каталогов. Затраты на печать и распространение таких каталогов могут быть весьма существенны, но зато доступ к ним получит очень широкая аудитория через библиотеки и организации, заинтересованные в использовании пространственных данных для поддержки процессов принятия решений. Актуализация содержания и ведение таких каталогов могут быть весьма проблематичными. По этой причине распространение бумажных каталогов следует скорее рассматривать как дополнение к цифровым методам информационных служб.
Если в конкретном регионе Интернет-услуги доступны, но пропускная способность недостаточна, то каталоги верхнего уровня для поддержания метаданных из удаленных источников могут использовать их кэширование или «зеркала». К примеру, это применимо для поддержки регионального поиска данных на нескольких серверах, расположенных в разных местах, при низкой скорости обмена по сети. Если каждый каталог направит свои реквизиты в общий реестр, то специальная программа (Crawler) сможет найти и проиндексировать метаданные для регионального указателя. Эта методология была опробована в США для создания отдельной синхронизированной точки доступа к метаданным из небольшого числа мест. Обратите внимание на то, что при этом объединенная коллекция незримо присутствует на сервере с общим интерфейсом, но для такой архитектуры требуется потенциально меньшее число действующих серверов. В итоге можно предполагать наличие нескольких крупных архивов метаданных с общими интерфейсами поиска. Масштабируемость этого подхода может быть обеспечена поддержкой очень больших указателей метаданных и синхронизацией их с удаленными источниками. Маловероятно, что этот подход будет способен поддерживать единую глобальную коллекцию метаданных с использованием современных технологий. Хотя Web-поисковые машины способны выполнять уже глобальный поиск, но в них недостаточно географических возможностей.
В условиях, когда поставщики данных и их клиенты имеют доступ к компьютерам, но не имеют выхода в сети с надежной связью, создание CD-ROM или DVD с метаданными (а, может быть, и с самими данными) является еще одной альтернативой. Наибольший успех этот подход может принести при условии, что данные собираются и документируются с соблюдением стандартов, а каталог (программное обеспечение и информация) записывается на компьютерные носители, что сводит к минимуму расходы на предоставление услуг при наличии готового каталога.
Рис. 2. Схема взаимодействия, показывающая основной способ использования службы каталога и связанных с ней элементов ИПД
Перечисленные альтернативы должны рассматриваться как методы, которые могут применяться до тех пор, пока каталожные услуги, описанные в этой главе, не станут доступны через Интернет большей части клиентов. Использование таких услуг позволит международному сообществу, частным фирмам и государственным агентствам использовать информацию для задач регионального анализа.
Разработка шлюзов каталогов и интерфейсов доступа
В рамках любого профессионального или ГИС-сообщества всегда имеется потребность в создании подходящих возможностей для интуитивного поиска информации на нескольких серверах. Эту проблему можно подразделить на две связанных и взаимодействующих между собой части (см. рис. 2): интерфейс пользователя (интерфейс поиска/просмотра) и рапределитель запросов (портал каталога/шлюза). В Интернет-пространстве эти функции могут быть логически размещены в разных местах, хотя имеется тенденция к их интегрированию в серверных или клиентских решениях.
Рис. 3. Варианты конфигурации шлюза и интерфейсов пользователя для доступа к распределенному каталогу
На рис. 3 показаны возможные конфигурации шлюза каталога и пользовательских интерфейсов.
Клиент A получает доступ к пользовательскому интерфейсу, который загружается в виде формы или Java-апплета с Интернет-сервера, управляющего подключениями к другим серверам. Клиент B обращается к пользовательскому интерфейсу, расположенному вне шлюза, который поддерживает работу различных специализированных интерфейсов. Клиент C это клиентское «настольное» приложение, которое является совершенно самостоятельным, имеет пользовательский интерфейс и возможности выполнения распределенных запросов для прямого подключения к удаленными серверам. Но на этой схеме не показана связь с реестром серверов. Она обсуждается в следующем разделе. Все три типа взаимодействия уже применяются в различных ИПД. Поскольку все они зависят от распределенных серверов каталога, обеспечена и полная совместимость этих трех вариантов.
Для доступа к распределенным каталогам в поисковых интерфейсах используются два типовых сценария. Первый называется запросом (Query): пользователь определяет критерии поиска, простого или расширенного. Второй сценарий просмотр (Browse) предлагает пользователю категории информации, среди которых он выбирает направление поиска или группу направлений, часто в иерархической форме.
Для опытных пользователей сценарий запроса может дать более высокую прицельность поиска по распределенным каталогам. Часто этот процесс носит итеративный характер, то есть проверяется, какое влияние оказывает конкретная часть запроса на результат поиска. Второй сценарий больше подходит неопытным пользователям, которые не знают нужных ключевых слов и которым проще просматривать цепочку предлагаемых ссылок. Главной проблемой реализации сценария просмотра глобальной коллекции серверов является формирование и ведение универсального словаря для классификации понятий, образующих иерархическое пространство ключевых слов. Поскольку это требует междисциплинарной кооперации, создание единой системы классификации представляется невероятно сложной задачей, которая вряд ли будет когда-либо решена. Однако в ближайшие годы возможно появление интеллектуальных систем классификации, использующих нейронные сети, Байесовские вероятности и другие «контекстные» оценки для работы с внешними хранилищами информации. Такие системы могли бы существенно облегчить пользователям навигацию по разнородной пространственной информации.
Сценарий запроса может выглядеть так:
1. Пользователь с помощью своего программного обеспечения выясняет, что существует служба поиска в распределенном каталоге.
2. Он открывает интерфейс пользователя и собирает элементы запроса, необходимые для сужения круга поиска в доступной информации.
3. Запрос поступает на один или более серверов через шлюз. Процесс поиска может включать итерационные, повторные или уточняющие запросы, поступающие в процессе общения с пользователем.
4. Результаты с каждого сервера объединяются и представляются пользователю. Типы ответов могут содержать: список совпадений, состоящий из заголовков и ссылок; краткое описание ресурсов или полное представление метаданных. Визуализация множественного результата может выполняться в виде показа расположения наборов данных на карте, в виде тематических групп или с сортировкой по времени.
5. Пользователь выбирает подходящую запись метаданных по имени или по ссылке, вид (краткий, полный или иной) и формат представления информации (HTML, XML, текст и т. п.) для дальнейшего просмотра.
6. После анализа метаданных пользователь может проследовать по содержащимся в них ссылкам на страницу загрузки или заказа набора данных. Раздел способов доставки может предлагать и другие способы.
Сценарий просмотра может выглядеть так:
1. Пользователь с помощью своего программного обеспечения выясняет, что существует служба поиска в распределенном каталоге. Это можно сделать через поиск ресурсов сети, использование закладки, ссылки с другой страницы, устное сообщение и т. д.
2. Он открывает интерфейс пользователя и выбирает категории для сужения диапазона поиска доступной информации: тематику, организации, географическое положение и т. п. Обычно эти категории объединяются в иерархические группы.
3. В процессе просмотра на каждый сервер передаются распределенные запросы.
4. Результаты с серверов агрегируются и предоставляются пользователю. Общий стиль представления результатов формируется в результате взаимодействия интерфейса пользователя и поискового шлюза.
5. Пользователь выбирает подходящую запись метаданных по имени или по ссылке, вид (краткий, полный или иной) и формат представления информации (HTML, XML, текст и т. п.) для дальнейшего просмотра.
6. Проанализировав метаданные, пользователь может проследовать по содержащимся в них ссылкам на страницу загрузки или заказа набора данных. Раздел способов доставки может предлагать и другие способы.
Регистрация каталожных серверов
Природа распределенного каталога требует, чтобы пользователи были информированы о существовании и свойствах всех каталогов, входящих в их сообщество. Для Глобальной ИПД еще более важно существование актуального и всестороннего реестра, содержащего серверы каталогов. Концепция общего реестра каталожных серверов позволяет оператору каждого из них создавать и регистрировать метаданные с общей точкой доступа. Такой реестр является самостоятельным каталогом, доступным с помощью программных средств для поиска других подходящих каталогов на основе географического охвата, ключевых слов, классификаторов, стран размещения, организационной принадлежности и т. д. В ряде стран уже созданы списки совместимых каталожных серверов, но создание глобальной сети таких серверов в рамках Глобальной ИПД потребует разработки общего каталога серверов и такого управления, которое обеспечит актуальное содержание, распределенное владение и надежные ссылки на серверы.
К свойствам реестра серверов можно отнести следующие:
1. Одна запись на каждую коллекцию служб (метаданные сервера).
2. Возможность для поставщика метаданных обновлять записи в реестре и добавлять новые.
3. Возможность проверки доступности регистрируемых серверов соответственно объявленным правилам.
4. Возможность для пользователя интерактивно просматривать метаданные серверов.
5. Программный интерфейс доступа к поиску метаданных серверов.
6. Средства управления активными/неактивными записями и ведение статистики доступности серверов.
Некоторые национальные инициативы по созданию распределенных каталогов поддерживают управление метаданными серверов и содержат ссылки на серверы в основном своей страны. Инициатива Глобальной ИПД в настоящее время спонсирует создание и ведение глобального реестра каталожных серверов по всем странам с делегированием полномочий странам-участницам на управление и проверку корректности записей об их серверах (http://registry.gsdi.org/registry), но на данный момент этот реестр обеспечивает каталогизацию не всех типов служб. Проект UDDI (http://www.uddi.org) нацелен на создание публичного «универсального делового реестра» с хостингом от IBM, Microsoft и SAP, который могут использовать участники ИПД для рекламы своих служб. В настоящее время анализируются возможности использования UDDI в качестве реестра Глобальной ИПД.
Применимые стандарты
Распределенный каталог Глобальной ИПД был разработан с максимальным учетом существующих технологий и стандартов. Благодаря этому имеющееся программное обеспечение может использоваться или адаптироваться для работы с пространственной информацией без необходимости дополнительных инвестиций в новые технологии. Основные разработки в области стандартизации доступа к каталогам нашли отражение в ISO 23950 (Протокол поиска и извлечения данных), в Технических требований к службам каталогов OGC версии 1.0 и соответствующих стандартах или «рекомендациях» консорциума WWW (W3C).
Стандарт ISO 23950, также известный как ANSI Z39.50, описывает протокол поиска и извлечения данных. Изначально он был разработан для доступа к виртуальным каталогам библиотек. Основные особенности ISO 23950 таковы:
1. Поддержка зарегистрированных публичных атрибутов для выполнения опроса по нескольким серверам, где эти поля связываются с внутренними атрибутами.
2. Независимая от платформы реализация на основе протокола TCP/IP с использованием пакетов данных в кодировке ASN.1.
3. Возможность запрашивать как содержание данных (известное как «Наборы элементов» или группы «полей», такие как «Сокращенные» или «Полные»), так и формат представления («Предпочитаемый синтаксис», например, XML, HTML, текст).
4. Профиль GEO (пространственные метаданные) с руководством по реализации метаданных FGDC и ANZLIC, куда вскоре будут включены элементы метаданных ISO 19115.
Использование обобщенного протокола запросов ISO 23950 позволяет переносить метаданные из национальных форм представления в будущие формы, разрабатываемые международным сообществом при содействии Технического комитета ISO 211 и на основе проекта стандарта метаданных ISO 19115. Даже при модификации стандарта метаданных, Профиль GEO позволит указывать смысл полей для поиска таким образом, что их можно будет проецировать в различные схемы метаданных, где существуют совместимые элементы. С помощью Профиля GEO уже возможен консолидированный поиск метаданных в национальных каталогах Великобритании, США, Канады, Африки, Латинской Америки и Австралии, несмотря на то, что существуют различия в национальных моделях метаданных.
В 1999 г. OGС выпустил Технические требования к службам каталогов с описанием общей модели для поиска пространственных данных в каталогах, которая включает управление данными, их поиск и услуги доступа к ним в среде OLEDB, CORBA и ANSI Z39.50 (ISO 23950). Функции управления включают в себя возможность указывать интерфейсы для создания, ввода, обновления и удаления записей метаданных в каталоге. Функции поиска позволяют искать метаданные в каталоге и получать записи со встроенными ссылками для интерактивного доступа к данным. Функции обеспечения доступа поддерживают расширенный доступ к пространственным данным и средствам их заказа, основанные на ссылках, имеющихся в метаданных. Из всех этих функций только функции поиска считаются обязательными для служб каталогов. Для остальных функций даются рекомендации по обеспечению условий совместимости.
На совещании OGC (Саутгемптон, Великобритания) были продемонстрированы общий подход к службам каталогов, основанный на модели, описанной в ISO 23950 (первоначальные технические требования версии 1.0 предложены для CORBA, OLEDB и ISO 23950), и распределенный параллельный поиск по различным протоколам посредством расширения коммерчески доступного программного обеспечения для шлюзов.
В версии 2.0 Технических требований OGC к службе каталогов описан основанный на HTTP протокол для поддержки операций поиска. Проведенный экспертами OGC анализ показал популярность HTTP-подхода для организации служб каталогов, в котором все еще применяются основные принципы ISO 23950. Этот протокол, известный также под названиями Stateless Catalog и Web Registry Service, теперь будет именоваться как Catalogue Service Web (CS-W) и дополнит CORBA и ISO 23950 в версии 1.1.1.
Технический комитет ISO TC 211 занимается стандартизацией абстрактных концепций, касающихся пространственных данных, служб и геоматики в целом. Международный стандарт метаданных ISO 19115 предоставляет всесторонний словарь и структуру метаданных, которые должны использоваться для описания географических данных. Сопровождающие этот стандарт Технические требования ISO 19139 определяют правила кодирования этих метаданных. Разработка национальных и профессионально-ориентированных профилей ISO 19139 обеспечит обмен информацией с применением общей семантики и синтаксиса.
Консорциум W3C объединяет организации, заинтересованные в разработке общих технических требований, известных как «рекомендации», для широкого использования среды WWW. Одна из групп этих рекомендаций касается языка XML, который специально предназначен для кодирования структурированной информации. Разрабатываются также XML-Schema для определения структуры и типов данных в XML-документах и XML-Query механизм запроса XML-документов. Рекомендация XML 1.0 уже активно используется и находит все более широкое применение в области ГИС по мере того, как появляются все более развитые средства кодирования и передачи структурированной информации произвольного типа. XML-Schema недавно была одобрена консорциумом W3C и поддерживает более строгую проверку корректности XML-файлов.