Главная » Статьи » Мои статьи |
БАЗЫ ДАННЫХ ПО СВОЙСТВАМ НАНОРАЗМЕРНЫХ ОБЪЕКТОВ: ПРАКТИКА ИСПОЛЬЗОВАНИЯ СВОБОДНОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ
Предмет работы — информационные технологии, используемые в Объединённом институте высоких температур (ОИВТ РАН) для задач хранения, обработки и распространения данных по физико-химическим свойствам наноструктур и наноматериалов. Хотя подобных систем пока ещё нет в сфере научно-технической информации, сама по себе компьютеризация фонда справочных данных имеет давнюю историю. В ОИВТ РАН с 1973 года существует Теплофизический центр, специальный орган, занятый разработкой, наполнением и поддержкой БД по свойствам определённой группы веществ: неорганических и простейших органических соединений. Эксперты проводят обработку отечественных и зарубежных изданий, извлекая из них сведения, отвечающие выделенным тематическим границам, и вводят в БД формализованную информацию, включающую библиографию, численные данные, а в отдельных случаях полнотекстовые документы. В ходе этой работы были освоены технологии,опирающиеся преимущественно на свободно распространяемое программное обеспечение (ПО). Стратегия с ориентацией на free soft имела ряд серьёзных оснований, определяемых спецификой области и возникающих задач. Прежде всего, теряют актуальность многие из требований, предъявляемых к коммерческим продуктам в части производительности, скорости обработки запросов, многопользовательского режима и т.п. Место технологических требований, возникающих в бизнесе, управлении производством или инфраструктурой, занимают совершенно иные, характерные для научных данных объекты. Среди них: многообразие форматов (числа, графика, программные коды), плохо формализуемая структура, многомерность данных, согласование данных и закономерностей, наделение численных данных информацией по их неопределённости и ряд других. Особенности научных данных по свойствам и возникающие отсюда требования к выбору программных средств рассмотрены в работах [13]. Именно свободное ПО, созданное за пределами компьютерной индустрии, оказалось наиболее адекватным указанным требованиям. Важно при этом, что в ходе работ по созданию фонда данных разработчики получают возможность беспрепятственно (без специальных лицензий) устанавливать разработанные продукты на все компьютеры, вне зависимости от их местоположения. Возможна также их установка на компьютерах заказчиков (потребителей данных), которые получают возможность самостоятельно поддерживать и обновлять БД по интересующей их тематике. Переход от традиционной тематики к новым задачам по свойствам наноструктур и наноматериалов потребовал определённой методической работы, расширяющей функциональные возможности используемых программных средств. В отличие от многочисленных БД по свойствам традиционных веществ и материалов здесь приходится в самой структуре данных отобразить специфику объектов: промежуточное положение между молекулой и макроскопическим веществом; сложность идентификации по комплексу параметров, условиям приготовления, влиянию среды и проч.; (3) зависимость номенклатуры свойств от вида объекта; (4) изменчивость структуры данных, проявляемую в различиях объёма и типа, в появлении новых и/или утрате смысла прежних характеристик, в изменении правил идентификации и т.п. Ключвым требованием к таким БД является их способность поддерживать полуструктурированные данные (ПСД). Была создана информационная система, включающая два относительно автономных продукта: DATA_N и DOCS_N. Основным элементом информационной системы является фактографическая БД DATA_N, включающая отобранные и рекомендованные численные данные по свойствам наноструктур. Наряду с таблицами численных данных, БД пригодна для хранения других типов данных: текстовых, графических,исполняемых файлов и др. Вторая БД, DOCS_N, является документографической БД, содержащей описания первичных документов по свойствам наноструктур. Описание документа включает сведения о его локализации: на сервере пользователя или ОИВТ РАН, сети NTERNET, научных библиотеках страны. Если документ доступен в электронном виде, в описание включена гиперссылка с указанием адреса на сервере или в сети и именем файла. Ресурсное наполнение документографической БД включает совокупность логически связанных управляющих файлов, которые определяют структуру записей, состав полей БД, поисковых образов документов, форматов печати и т.п. БД DATA_N создана с использованием объектно-реляционной СУБД PostgeSQL [4], языка PHP для программирования оболочки БД и размещена на Webсервере Apache. Все три продукта (PostgreSQL, PHP, Apache) относятся к категории свободно распространяемого ПО с открытым кодом. Современная СУБД PostgreSQL ведет происхождение из проекта POSTGRES, который разрабатывался под руководством Майкла Cтоунбрейкера, профессора Калифорнийского университета в Беркли, и нашел широкое применение в научном сообществе: терабайтное хранилище астрономических данных (www.asеronet.ru), проект ALADDIN (A Labelled Atomic Data Interface,), поддержка федеральных порталов Минобразования РФ. Проект имел целью преодолеть ограниченность реляционной модели, обеспечивая создание и управление сложными объектами. Уникальные свойства PostgeSQL позволяют сочетать традиционные модели с задачей хранения данных с «размытой» структурой. Отличительная особенность PostgeSQL - богатство типов данных: символьных, числовых (произвольной точности), «больших объектов» (графика, файлы, программные коды и проч.), возможность создания новых типов данных, в частности, композитных типов (объединяющих элементарные типы для представления сложных объектов) и ряд других. Технология обобщённого поискового дерева (Generalized Search Trees for Data) позволяет эксперту по свойствам наноструктур, не владея сведениями по БД, создавать специализированные типы данных и обеспечить доступ к ним. В целом функциональные возможности PostgreSQL оказались адекватны специфике данных по свойствам наноструктур, включая наличие блоков данных с внутренней иерархической структурой, эклектичность типов (числа, таблицы, файлы и проч.), вариации логической структуры. С практической точки зрения построение систем на основе PostgreSQL облегчается за счёт: (1) доступности кодов, документации и сведений по развитию системы; (2) размещения средств управления БД на Web-cервере при минимальных требованиях к программному обеспечению пользователя (архитектура «клиент-сервер»); (3) развитых средств визуального проектирования БД, что для пользователя исключает необходимость в специальных знаниях по компьютерной технологии. PHP (Personal Home Page Tools - язык программирования, созданный для генерирования HTML-страниц на Web-сервере и работы с БД [4, 6]. Входит в стандартный набор для создания Web-сайтов (Linux, Apache, MySQL, PHP (Python или Perl)). Группа разработчиков PHP состоит из множества людей, добровольно работающих над ядром и расширениями PHP и смежными проектами, такими как документация языка. Apache - HTTP-сервер. Один из самых популярных HTTP-серверов в сети [5, 6], на рынке Web-серверов занимает примерно 60%. Основными достоинствами Apache считаются надёжность и гибкость конфигурации. Web-сервер Apache разработан и поддерживается открытым сообществом разработчиков под эгидой Apache Software Foundation и включён во многие коммерческие продукты, например, СУБД ORACLE. Является бесплатным, свободно распространяемым продуктом. Краткие характеристики Web-сервера Apache по пятибалльной шкале: надёжность (5), производительность (5), простота использования (3), техническая поддержка (4.5). Документографическая БД DOCS_N построена с использованием СУБД СDS/ISIS, системы, разработанной, поддерживаемой и свободно распространяемой ЮНЕСКО [7, 8]. В отличие от реляционных СУБД, ISIS в своей основе имеет текстовый формат, адекватно представляющий структурированные нечисловые данные в форме записей произвольной длины. Библиографическая информация и описания произвольных документов могут быть представлены наилучшим образом именно в такой форме, что соответствует рекомендациям стандарта ISO2709, предназначенного для обмена библиографической информацией на магнитных носителях. CDS/ISIS имеет механизм для назначения смысловых функций полей индивидуально для каждой БД. Он позволяет при необходимости вписать вновь создаваемую БД в существующую информационную структуру, назначив ей такие же поля. В то же время при разработке самостоятельной системы может быть выбран свой набор полей, оптимальный для решаемой задачи. В данной разработке был применён второй подход как пионерский для БД по свойствам наноструктур. [...] Система идеально приспособлена для создания различного рода каталогов и указателей. Возможно построение любого каталога и указателя как по всему массиву записей БД (или его части), так и по массиву записей, отобранных в результате тематического поиска. После ввода очередной порции записей система выходит в основное меню и актуализирует инверсный файл (генерируемый упорядоченный словарь ключевых слов), при помощи которого система имеет возможность создавать для каждой записи фактически неограниченное число терминов доступа. Поиск в БД осуществляется по элементам, определяемым пользователем в таблице выбора полей, которая содержит инвертируемые поля и метод индексирования, используемый для каждого поля. Содержание основных полей в БД идёт в инверсный файл. При поиске информации запрос представляет собой перечень терминов, связанных логическими операторами. В системе существуют следующие (основные) операторы: «ИЛИ» (объединение), «И» (пересечение), «НЕ» (отрицание), оператор усечения терминов справа. Возможна комбинация прямого (по словарю) и последовательного поиска, а также полнотекстовый поискпо тексту (в том числе и по полям, информация из которых не поступает в словарь). БД проста и удобна для исследователя. Реализованные в СУБД ISIS функции позволяют: вводить новые записи в имеющиеся БД; редактировать существующие записи; автоматически строить и поддерживать файлы быстрого доступа (словарь и инвертированный файл) с целью уменьшения времени поиска; осуществлять поиск записей в режиме полнотекстового поиска или с использованием развитого поискового языка; выдавать записи или их части в соответствии с требованиями пользователя; печатать каталоги и/или указатели с глубиной сортировки до четырёх уровней; подключать к системе прикладные программы, используя интегрированные средства программирования СУБД (встроенный Паскаль). При том, что ISIS формально предназначен для библиографических БД, он позволяет соединять каждую из записей (описаний документа) с файлами, включающими фактографическую информацию, которые размещаются либо на компьютере пользователя, либо в сети (локальной или ИНТЕРНЕТ). Малые габариты СУБД и весьма ограниченные требования к ресурсам компьютера позволяют распространять построенные на ней БД среди пользователей. Файлы, определяющие структуру БД, поставляются вместе с СУБД, а содержимое БД в виде файла описаний в формате ISO2709, предназначенном для обмена данными. При наличии в БД фактографической информации дополнительно поставляется cовокупность электронных документов в форматах *.pdf, *.html, *.mht или произвольных графических форматах. Таким образом, на базе свободного ПО удалось построить распределённую систему, элементы которой размещены на сервере приложений ОИВТ РАН и компьютерах пользователей. Web-сервер Apache обеспечивает доступ клиентов через сеть INTERNET к БД DATA_N. Все её компоненты, включая СУБД PostgreSQL и внешнюю оболочку для управления БД, размещены на сервере. Вторая БД (DOCS_N), содержащая описания документов, размещается на компьютерах пользователей. На файловом сервере размещают обновления БД в виде файла формата *.iso, специального формата для обмена структурированной текстовой информацией. Там же размещается репозитарий с электронными документами, адрес которых включен в описания документов в БД DOCS_N. Используемые источники: 1. Зицерман В.Ю., Кобзев Г.А., Фокин Л.Р. Возможности и перспективы информационных технологий в подготовке и распространении справочных данных: свойства веществ и материалов // Научно-техническая информация. - Серия 1. - 2004. - № 2. - С. 7. 2. Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А. Роль метаданных в создании и использовании информационных ресурсов о свойствах веществ и материалов // Научно-техническая информация. Серия 1. - 2008. - № 11. - С. 14. 3. Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А., Фокин Л.Р. Логическая структура физико-химических данных. Проблемы стандартизации и обмена численными данными // Журнал физической химии. - 2008. - Т. 82. - № 1. - С. 20.
| |
Просмотров: 1468 | Комментарии: 3
| Теги: |
Всего комментариев: 3 | ||||
| ||||