Пятница, 19.04.2024, 23:01
Приветствую Вас, Гость
Главная » Статьи » Мои статьи

БАЗЫ ДАННЫХ ПО СВОЙСТВАМ НАНОРАЗМЕРНЫХ ОБЪЕКТОВ: ПРАКТИКА ИСПОЛЬЗОВАНИЯ СВОБОДНОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ
Предмет работы — информационные технологии, используемые в Объединённом институте высоких температур (ОИВТ РАН) для задач хранения, обработки и распространения данных по физико-химическим свойствам 
наноструктур и наноматериалов. Хотя подобных систем пока ещё нет в сфере научно­-технической информации, сама по   себе компьютеризация фонда справочных данных имеет давнюю историю. 
В ОИВТ РАН с 1973 года сущес­твует Теплофизический центр, специальный орган, занятый разработкой, наполнением и поддержкой БД  по свойствам определённой группы веществ: неорганических и простейших органических соединений. Эксперты проводят обработку отечественных  и зарубежных изданий, извлекая из них сведения, отвечающие выделенным тематическим границам, и вводят в БД формализованную информацию, 
включающую библиографию, численные данные, а в отдельных случаях 
полнотекстовые документы. В ходе этой работы были освоены технологии,опирающиеся преимущественно на свободно распространяемое программное обеспечение (ПО). Стратегия с ориентацией на free soft имела ряд серьёзных оснований, определяемых спецификой области и возникающих задач. 
Прежде всего, теряют актуальность многие из требований, предъявляемых к коммерческим продуктам в части производительности, скорости обработки запросов, многопользо­вательского режима и т.п.   Место технологических требований, возникающих в бизнесе, управлении производством или инфраструктурой, занимают совершенно иные, 
характерные для научных данных объекты. Среди них: многообразие форматов (числа, графика, программные коды), плохо формализуемая структура, многомерность данных, согласование данных и закономерностей, наделение численных данных информацией по их неопределённости и ряд других. 
Особенности научных данных по свойствам и возникающие отсюда требования к выбору программных средств рассмотрены в работах [1­3]. Именно свободное ПО, созданное за пределами компьютерной индустрии,   оказалось наиболее адекватным указанным требованиям. Важно при этом, что в ходе работ по созданию фонда данных разработчики получают возможность беспрепятственно (без специальных лицензий) устанавли­вать разработанные продукты на все компьютеры, вне зависимости от их­ местоположения. Возможна также их установка на компьютерах заказчиков (потребителей данных), которые получа­ют возможность самостоятельно поддерживать и обновлять БД по интересующей их 
тематике. 
Переход от традиционной тематики к новым задачам по свойствам наноструктур и наноматериалов потребовал определённой методической   работы, расширяющей функциональные возможности используемых   программных средств. В отличие от многочисленных БД по свойствам традиционных веществ и материалов здесь приходится в самой   структуре данных отобразить специфику объектов: промежуточное положение между молекулой и макроскопическим веществом; сложность   идентификации по комплексу параметров, условиям приготовления, влиянию среды и проч.; (3) зависимость номенклатуры свойств от вида объекта; (4) изменчивость структуры данных, проявляемую в различиях  объёма и типа, в появлении новых и/или утрате смысла прежних характеристик, в изменении правил идентификации и т.п. Ключвым требованием к таким БД является их способность поддерживать полуструктурированные данные (ПСД). 
Была создана информационная система, включающая два относительно   автономных продукта: DATA_N  и  DOCS_N. Основным элементом информационной системы является фактографическая БД  DATA_N, включающая отобранные и рекомендованные численные данные по свойствам наноструктур. Наряду с таблицами численных данных, 
БД пригодна для хранения других типов данных: текстовых, графических,исполняемых файлов и др. 
Вторая БД, DOCS_N, является документографической БД, содержащей описания первичных документов по свойствам наноструктур. Описание документа включает сведения о его локализа­ции: на сервере пользователя   или ОИВТ РАН, сети NTERNET, научных библиотеках страны. Если   документ доступен в элек­тронном виде, в описание включена гиперссылка с указанием адреса на сервере или в сети и именем файла. Ресурсное наполнение документографической БД включает совокупность логически связанных управляющих файлов, которые определяют структуру записей, состав полей БД, поисковых образов документов, форма­тов печати и т.п. 
БД  DATA_N создана с использованием объектно­-реляционной СУБД PostgeSQL [4], языка  PHP для программирования обо­лочки БД и размещена на Web­сервере Apache. Все три продукта (PostgreSQL, PHP, Apache) относятся к категории свободно распространяемого 
ПО с открытым кодом.
Современная СУБД PostgreSQL ведет происхождение из проекта POSTGRES, который разрабатывался под руководством Майкла Cтоунбрейкера, профессора Калифорнийского университета в Беркли, и нашел широкое применение в научном сообществе: терабайтное хранилище астрономических данных (www.as­еronet.ru), проект ALADDIN (A Labelled Atomic Data Interface,), поддержка федеральных порталов Минобразования РФ. Проект имел целью преодолеть ограниченность   реляционной модели, обеспечивая создание и управление сложными объектами. Уникальные свойства  PostgeSQL позволяют сочетать традиционные модели с задачей хранения данных с «размытой» структурой. 
Отличительная особенность PostgeSQL - богатство типов данных: символь­ных, числовых (произвольной точности), «больших объектов» (гра­фика, файлы, программные коды и проч.), возможность создания новых типов данных, в частности, композитных типов (объединяющих элементарные типы для представления сложных объектов) и ряд других. Технология обобщённого поискового дерева (Generalized  Search  Trees for Data) позволяет эксперту по свойствам наноструктур, не владея сведениями по БД, создавать специализированные типы данных и обеспечить доступ к ним. В целом функциональные возможности PostgreSQL оказались адекватны специфике данных по свойствам наноструктур, включая наличие блоков данных с внутренней   иерархической структурой, эклектичность типов (числа, таблицы, файлы и проч.), вариации логи­ческой структуры. 
С практической точки зрения построение систем на основе PostgreSQL  облегчается за счёт: (1) доступности кодов, документации и сведений по развитию системы; (2) разме­щения средств управления БД на Web-­cервере при минимальных требованиях к программному обеспечению пользователя (архитек­тура «клиент­-сервер»); (3) развитых средств визуального проекти­рования БД, что для пользователя исключает необходимость в специальных знаниях по компьютерной технологии. 
PHP (Personal Home Page Tools - язык программирования, созданный для генерирования  HTML­-страниц на Web-­сервере   и работы с БД [4, 6]. 
Входит в стандартный набор для создания Web-сайтов (Linux, Apache, MySQL, PHP (Python или Perl)). 
Группа разработчиков PHP состоит из множества людей, добровольно ра­ботающих над ядром и расширениями PHP и смежными проектами, такими­ как документация языка. 
Apache - HTTP-­сервер. Один из самых популярных HTTP-­сер­веров в сети [5, 6], на рынке Web-­серверов занимает примерно 60%. 
Основными достоинствами Apache считаются надёжность и гибкость конфигурации. Web-­сервер Apache разработан и поддерживается­ открытым сообществом разработчиков под эгидой Apache Software Foundation и включён во многие коммерческие продукты, например, СУБД ORACLE. 
Является бесплатным, сво­бодно  распространяемым   продуктом. Краткие характеристики Web­-сервера Apache по пятибалльной шкале: надёжность (5), производительность (5), простота  использования (3), техническая поддержка (4.5).
Документографическая БД DOCS_N построена с использованием СУБД СDS/ISIS, системы, разработанной, поддерживаемой и­ свободно распространяемой ЮНЕСКО [7, 8]. В отличие от реляционных СУБД, ISIS в своей основе имеет текстовый формат, адекватно представляющий структурированные нечисловые данные в форме записей произвольной длины. Библиографическая информация и описания произвольных документов могут быть представлены наилучшим образом именно в такой форме, что со­ответствует рекомендациям стандарта ISO­2709, предназначенного­ для обмена библиографической информацией на магнитных носителях. CDS/ISIS имеет механизм для назначения смысловых функций полей индивидуально для каждой БД. Он позволяет при необходимости вписать вновь создаваемую БД в существующую информационную структуру, назначив ей такие же поля. 
В то же время при разработке самостоятельной системы может быть выбран свой набор полей, оптимальный для решаемой задачи.  
В данной разработке был применён второй подход как пионерский для БД по свойствам наноструктур. 
[...]
Система идеально приспособлена для создания различного рода каталогов и указателей. Воз­можно построение любого каталога и указателя как по всему массиву записей БД (или его части), так и по массиву записей, ото­бранных в результате тематического поиска. 
После ввода очередной порции записей система выходит в основное меню и актуализирует инверсный файл (генерируемый упорядоченный словарь ключевых слов), при помощи которого система имеет возможность создавать для каждой записи фактически неограниченное число терминов доступа.
Поиск в БД осуществляется по элементам, определяемым пользователем в таблице выбора полей, которая содержит инвертируемые­ поля и метод индексирования, используемый для каждого поля.­
Содержание основных полей в БД идёт в инверсный файл. При поиске информации запрос представляет собой перечень  терминов,  связанных логическими  операторами.  В системе существуют следующие (основные)  операторы: «ИЛИ» (объедине­ние), «И» (пересечение), «НЕ» (отрицание), оператор усечения терминов справа. Возможна комбинация прямого 
(по словарю) и последовательного поиска, а также полнотекстовый поискпо тексту (в том числе и по полям, информация из которых не поступает в словарь).
БД проста и удобна для исследователя. Реализованные в СУБД ISIS функции позволяют: вводить новые записи в имеющиеся БД;   редактировать существующие записи; автоматически строить и поддерживать файлы быстрого доступа (словарь и инвертированный файл) с целью уменьшения времени поиска; осу­ществлять поиск записей 
в режиме полнотекстового поиска или с использованием развитого поискового языка; выдавать  записи или их части в соответствии с требованиями пользователя; печа­тать каталоги и/или указатели с глубиной сортировки до четырёх уровней; подключать к системе прикладные программы, используя интегрированные средства программирования СУБД (встроенный Паскаль). 
При том, что ISIS формально предназначен для библиографических БД, он позволяет соединять каждую из записей (описаний документа) с файлами, включающими фактографическую информацию, которые размещаются либо на компьютере пользователя,  либо в  сети (локальной или ИНТЕРНЕТ). 
Малые габариты СУБД и весьма ограниченные требования к ресурсам компьютера позволяют распространять построенные на ней БД среди пользователей. Файлы, определяющие структуру БД, поставляются вместе с СУБД, а содержимое БД в виде файла описаний в формате ISO­2709, предназначенном для обмена данными. При наличии в БД фактографической информации дополнительно поставляется cовокупность электронных документов в  форматах *.pdf,  *.html, *.mht или произвольных графических форматах.
Таким  образом, на базе свободного ПО удалось построить распределённую систему, элементы которой размещены на серве­ре приложений ОИВТ РАН и компьютерах пользователей. Web-сервер­ Apache обеспечивает доступ клиентов через сеть INTERNET к БД DATA_N. 
Все её компоненты, включая СУБД PostgreSQL и внешнюю оболочку для управления БД, размещены на сервере. Вторая БД (DOCS_N), содержащая описания документов, размещается на компьютерах пользователей. 
На файловом сервере размещают обновления БД в виде файла формата *.iso, специального формата для обмена структурированной текстовой информацией. 
Там же размещается репозитарий с электронными документами, адрес которых включен в описания документов в БД DOCS_N. 

Используемые источники: 

1. Зицерман В.Ю., Кобзев Г.А., Фокин Л.Р. Возможности и перспективы   информационных технологий в подготовке и распространении справочных данных: свойства веществ и материалов // Научно-­техническая информация. - Серия 1. - 2004. - № 2. - С. 7.
2. Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А. Роль метаданных в создании и использовании информационных ресурсов о свойствах веществ и  материалов //  Научно­-техническая информация. Серия 1. - 2008. - № 11. - С. 14.
3. Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А., Фокин Л.Р. Логическая структура   физико-­химических   данных. Проблемы  стандартизации и обмена численными данными // Журнал физической химии. - 2008. - Т. 82. - № 1. - С. 20.
Категория: Мои статьи | Добавил: piglet66 (08.07.2012) | Автор: А.О. Еркимбаев, В.Ю. Зицерман E W
Просмотров: 1470 | Комментарии: 3 | Теги: postgresql, СУБД, ИПС, базы данных, СБД, документография, структура данных, CDS/ISIS, Теплофизический центр, Библиография | Рейтинг: 0.0/0
Всего комментариев: 3
3 piglet66  
0
Очень похожий в некоторых отношениях проект - информационная система "Инновационное образование"
http://www.gpntb.ru/win/inter-events/crimea95/report/rep138_r.html
http://www.gpntb.ru/win/inter-events/crimea97/doc/s8/s8doc6.html
Две адресно-справочные БД в Access 2.0 с минимальной доработкой (одна-две новые кнопки) и одна библиографическая в Библиотеке 4.0. И тоже без интеграции баз разных типов. Не было ни запланированной интеграции с "ДА-системой", ни другого... Хотя "публикации из БД" и правда были...

2 piglet66  
0
Похожий в некоторых отношениях проект - информационная система "Инновационное образование"
http://www.gpntb.ru/win/inter-events/crimea95/report/rep138_r.html
http://www.gpntb.ru/win/inter-events/crimea97/doc/s8/s8doc6.html
Две адресно-справочные БД в Access 2.0 с минимальной доработкой (одна-две новые кнопки) и одна библиографическая в АБИС "Библиотека 4.0". И тоже без интеграции баз разных типов. Не было ни запланированной интеграции с программой детерминационного анализа "ДА-система", ни другого...

1 piglet66  
0
Cтатья важна в нескольких отношениях. Только здесь нашел ответы на некоторые существенные вопросы, и, как часто бывает, еще больше вопросов возникло. Здесь впервые узнал, чем именно хороша СУБД PostgreSQL. До сих пор знал только, что она самая популярная и перспективная в своем классе, "SQL-based". О некоторых преимуществах CDS/ISIS тоже только здесь, но это нужно уточнять.
Компиляция из нескольких публикаций разных авторов, и источники здесь же указаны. Обычная практика в научном мире, иногда даже это необходимо.
Итак, описаны две БД разного типа, с разными функциями, структурой, содержанием и разными СУБД, причем разных типов. Обе СУБД имеют большие достоинства, но тоже разные. Обе свободные и бесплатные - вот и все сходство. И безо всякой интеграции, без обмена данными между БД.
Я сначала решил - описан пример PostGreSQL c ISIS, но это, видимо, невозможно... или она все-таки есть в ABCD?

Цитата № 1:
Уникальные свойства PostgreSQL позволяют 
сочетать традиционные модели с задачей хранения 
данных с «размытой» структурой. Отличительная особенность PostgreSQL - богатство типов данных: символь­ных, числовых [...], «больших объектов» (графика, файлы, программные коды и проч.), возможность создания новых типов данных, в 
частности, композитных типов (объединяющих элементарные типы для представления сложных 
объектов) и ряд других. Технология обобщённого поискового дерева (Generalized Search Trees for Data) позволяет эксперту по свойствам наноструктур, не владея сведениями по 
БД, создавать специализированные типы данных и обеспечить доступ к ним. В целом функциональные возможности PostgreSQL оказались адекватны 
специфике данных по свойствам наноструктур, 
включая наличие блоков данных с внутренней иерархической структурой, эклектичность типов 
(числа, таблицы, файлы и проч.), вариации логи­ческой структуры.


СУБД, как будто нарочно задуманная для информации о наноматериалах! Разумеется, это не так. На форуме ИРБИС промелькнуло сообщение о медицинской СУБД MUMPS - видимо, имелось в виду, что она такая же старая и бесплатная, как ISIS. Но автор оказался троллем, флудил еще про левостороннее дерево и про бундесвер... Но сейчас речь о другом - о предметно-ориентированном ПО (в т.ч. СУБД и АБИС) такого вот крайне узкого назначения. Если оно и было, то давно, а к PostgreSQL и CDS/ISIS это не относится.
"Технология обобщённого поискового дерева [...] позволяет эксперту по свойствам наноструктур, не владея сведениями по БД, создавать 
специализированные типы данных". То есть "не владея сведениями по БД" означает "не будучи библиографом" или "не будучи программистом"? И что такое "специализированные типы данных"? Может быть, все-таки специализированные, проблемно-ориентированные базы данных?
GIST, обобщенное поисковое дерево, в PostgreSQL есть http://zarabotai-s-elisespam.ru/?p=393 Как есть B-деревья и R-деревья. Но лучше или хуже эти механизмы поиска, чем имеющиеся в ISIS-подобном ПО, пока неясно.
Описанные далее достоинства CDS/ISIS либо преувеличены или сомнительны ("библиографичность"), либо потеряли смысл (компактность, скромные аппаратные запросы).

Цитата № 2:
CDS/ISIS имеет механизм для назначения смысловых функций полей индивидуально для 
каждой БД. Он позволяет [...] вписать вновь создаваемую БД в существующую информационную 
структуру, назначив ей такие же поля.


То есть такие же, как в ранее созданных БД, чтобы, например, копировать данные из одной базы в другую? В чем же уникальность? То есть, проще говоря, проектировать БД с любым набором полей. А другие системы этого не позволяют?

Цитата № 3:
Эксперты проводят обработку отечественных и зарубежных изданий, извлекая из них сведения, отвечающие выделенным тематическим границам, и вводят в БД формализованную информацию, включающую библиографию, численные данные, а в отдельных случаях, полнотекстовые документы.

Очевидно, именно здесь вся суть и пафос статьи с точки зрения библиотекаря. Эксперты, но не библиографы. "Извлекают сведения" - а снабжают ли КС, аннотациями, индексами УДК? "Вводят формализованную информацию" - тоже непривычное выражение... многое для нас непривычно в системе НТИ (ЦНТИ, ОНТИ)...

Цитата № 4:
Файлы, определяющие структуру БД, поставляются вместе с СУБД, а содержимое БД в виде файла 
файла описаний в формате ISO­2709, предназначенном для обмена данными. При наличии в БД 
фактографической информации дополнительно 
поставляется cовокупность электронных
документов в форматах *.pdf, *.html, *.mht.


Кому именно и как поставляется, на каких условиях, каким образом? То есть это некий "информационный продукт", пусть и бесплатный?

Имя *:
Email *:
Код *: