Суббота, 20.04.2024, 09:58
Приветствую Вас, Гость
Главная » Статьи » Мои статьи

ТЕЗАУРУС В ИРБИС: ОТ ПРОБЛЕМЫ – К РЕШЕНИЮ
Дескрипторные информационно-поисковые языки (ИПЯ) - наиболее перспективное направление развития документальных информационно-поисковых систем (ИПС), предусматривающих участие человека в анализе информации. 
 Простота индексирования документов и посковых запросов для каталогизатора и конечного
 пользователя обеспечивается серьезной работой редактора (-ов) тезауруса. Вместе с тем для
 тезауруса характерен, сравнимый с другими поисковыми языками, невысокий темп роста словаря.
 Достигнув определенного уровня насыщения, темп  роста словаря существенно снижается. Это облегчает процесс его обслуживания - поддержания в актуальном состоянии.
 
Информационно-поисковый тезаурус – инструмент эффективного тематического поиска с высокими комбинационными возможностями. Тезаурус отличается простотой использования: формулировка поискового образа документа при создании каталогизационных записей и составлении поисковых запросов при поиске близка к естественному языку и допускает произвольный порядок терминов.
 
Основу тезауруса составляют дескрипторы – нормативные термины. Каждый дескриптор представлен в нем с указанием связи с нижестоящими терминами (более узкими по содержанию понятия) и вышестоящими (более широкими), а также с ассоциативными (тематически близкими дескрипторами, например ДРЕВНЯЯ РУСЬ и МОНГОЛО-ТАТАРСКОЕ ИГО). 
 
 В состав лексики тезауруса входят также аскрипторы (синонимы и условные синонимы), значение которых передается либо одним принятым в качестве эквивалента дескриптором, либо комбинацией дескрипторов, или одним из предложенных альтернативных дескрипторов, который более соответствует содержанию конкретного документа. 
 
Таким образом, наравне с дескрипторными статьями (авторитетными/нормативными записями) в тезаурусе существуют статьи на аскрипторы (ссылочные записи), термины из которых отражаются в соответствующих дескрипторных статьях (обратные ссылки).

Дескрипторный ИПЯ требует учета своей специфики при индексировании и поиске. Он отличается от словаря ключевых слов: дескрипторный ИПЯ - контролируемое средство индексирования и поиска информации, значения его терминов закреплены в тезаурусе (поисковом словаре, отражающем смысловые соотношения понятий).    
Сходство дескриптора с известным пользователю словом может оказаться чисто внешним. Естественно, что полноценный поиск, т.е. осмысленный, по точно отобранным терминам, содержание которых (при соответствующем поисковом предписании И-ИЛИ-НЕТ) покрывает реальное содержание информационной потребности, возможен также с использованием тезауруса. Того тезауруса, на основе которого был проиндексирован информационный массив.
Пользователь должен иметь возможность увидеть полное отображение терминов тезауруса
(дескрипторов, аскрипторов) в их связи, иметь возможность быстрой и удобной навигации по
терминам тезауруса (более общий/более точный термин, термин из близкой области и т.п.), отбирая для поискового выражения необходимое количество терминов. 
    
Дескрипторный ИПЯ отличается от предметных рубрик. В идеале, язык предметных рубрик также должен быть контролируемым ИПЯ - опираться на соответствующие словники, картотеки или, как сегодня, нормативные файлы предметных рубрик.
 Здесь основное отличие заключено в характере синтаксиса и синтагматических связей между
 лексическими единицами (ЛЕ) ИПЯ. 
 Предметная рубрика - словесное выражение темы документа. Заголовок рубрики выражает основную тему документа. Конкретизация (ограничение) темы по тематическому, географическому, хронологическому признакам, форме представления информации в документе формализованно выражена последовательностью подзаголовков. Таким образом, один термин (рубрика) стремится выразить содержание документа (или основной его части).
 Соответственно, для проведения поиска по конкретной (не самой элементарной) теме,
 естественно с использованием словаря предметных  рубрик, мы должны иметь представления о логике формулировки тем в словаре предметных рубрик, а главное - суметь логически последовательно выстроить наше поисковое выражение. При этом, если программными средствами не предусмотрен вывод рубрик и подрубрик в единые поисковые словари (ну например, в словари (условно назовем) "тема", "география", "время", "вид документа" и т.п.), то найти информацию по вопросу, который отражен в одном из вторых-пятых подзаголовков будет нереально - мы не угадаем, к какому доступному для словарного поиска заголовку он относится.
 
Предмет и аспект в сложной предметной рубрике имеют строгую последовательность (жесткая синтагматическая связь между ЛЕ), определяемую предметизационной формулой.
 
Дескриптор выражен словом или словосочетанием, каждое из которых выражает самостоятельное понятие, выступает как отдельная точка доступа, а их последовательность в поисковом образе документа (синтагматическая связь) абсолютно не имеет значения ни для индексирования, ни для поиска: машина просто устанавливает соответствие между набором поисковых терминов документа и терминами запроса (здесь от перестановки слагаемых сумма не меняется, существенно только поисковое предписание: ИЛИ-И-НЕТ).
 
Дескрипторы можно сравнивать с простой предметной рубрикой. Но, опять-таки, это сходство
чисто внешнее, поскольку термин поискового языка  (и словаря) существует в контексте этого словаря.
Например, дескриптор РЕСТАВРАЦИЯ и простая  предметная рубрика Реставрация. Такая предметная рубрика обозначает только документы (книги, статьи и т.п.), основное содержание которых посвящено общим вопросам реставрации, и которые не являются учебными пособиями, альбомами и т.п. (что требовало бы формального подзаголовка и превращало бы рубрику в сложную). [В практике предметизации есть тенденция самым общим рубрикам, все-таки, присваивать хоть какой-то конкретизирующий подзаголовок, типа "Очерки" - очень неудачное решение, поскольку при алфавитной сортировке рубрик при поиске документы общего характера не начинают зримо видимый предметный комплекс, а теряются в его середине...] Лексическая  единица "Реставрация" в большинстве случаев будет фигурировать в качестве тематического подзаголовка (подрубрики) к самым различным предметам (заголовкам): зданиям, живописным произведениям, ювелирным украшениям, тканям, интерьерам и т.п.
 
 В свою очередь, дескриптор РЕСТАВРАЦИЯ будет представлен в качестве отдельного поискового термина в соседстве с любым набором иных терминов в описаниях документов, посвященным (в целом или частично) любым видам реставрации, "под любым соусом" рассматривающим вопросы реставрации.
Соответственно, объем понятий у этих терминов (РЕСТАВРАЦИЯ и Реставрация) различен, различны будут и результаты поиска.
 
Тезаурус в АБИС – совокупность взаимосвязанных словарных статей: авторитетных и ссылочных записей базы данных тезауруса (по функциональному назначению – авторитетный/нормативный файл). 
 
 Важным требованием к программному обеспечению для ведения тезауруса является возможность автоматической коррекции некоторого множества связанных словарных статей (записей БД тезауруса) в соответствии с теми данными, которые были внесены при редактировании или создании одной записи базы данных. 
 
 Одновременно с коррекцией БД тезауруса было бы заманчиво обеспечить возможность автоматической коррекции поисковых образов записей библиографической БД (БД электронного каталога).
 
 Тезаурус - более эффективное средство индексирования и поиска, чем неконтролируемые ключевые слова, с одной стороны, и сложные (многочленные) предметные рубрики, с другой стороны. При этом модуль "Тезаурус" - недостаточно доработанный элемент отечественных АБИС. 
 
Парадокс заключается в том, что электронные средства сбора, хранения и поиска информации создавались для повышения эффективности использования больших массивов данных, причем краеугольным критерием выступает как раз качество поиска. При этом именно понимание поискового предназначения автоматизированных библиотечных систем оказалось ретроградным, механизм обеспечения поиска ограниченным. Еще раз приходится убедиться, что сами по себе технические средства остаются СРЕДСТВАМИ, принципиальные изменения возможны только когда "революция" произойдет в головах молодых (не по возрасту, а по душевному складу) специалистов. Здесь уместно вспомнить статью Э. Р. Сукиасяна "'Трудный' шаг от предметизации к координатному индексированию" (НТБ. 2006. № 6) и нисколько не утратившую свою свежесть и актуальность работу Г. С. Щербининой с очень говорящим названием "Философия координатного индексирования" (НТБ. 2000. № 9), где рассматриваются как раз вопросы эффективности применения ИПЯ в электронных поисковых системах.
 
 И еще одна очевидность - современному библиотекарю-библиографу (медиатекарю и т.п.)
 нужно быть не только специалистом в области методики и содержания своей профессии, знания информационных ресурсов различных предметных областей, но и разбираться на каком-то уровне в механизме функционирования программно-аппаратных средств, которые он использует. Чтобы не задавать примитивных вопросов программистам высокого класса и быть "сам себе автоматизатор". Не оказаться в заложниках у IT-специалистов, чтобы не удивляться тому, куда "завело" его профессию в ходе развития информационных технологий. По существу в этом направлении должно серьезно развиваться высшее профессиональное образование библиотечных специалистов. Понимание современного библиотекаря только как профессионального пользователя автоматизированных средств (с компьютером на "ты" и т.п.) на наших глазах постепенно становится вчерашним днем.

Библиографическая служба ЦГПБ им. В. В. Маяковского (СПб.) имеет 17-летний опыт
 применения тезауруса для аналитической библиографической базы данных. Ведение тезауруса осуществляется по ГОСТ 7.25 "Тезаурус информационно-поисковый одноязычный". Среди требований ГОСТа – адекватное отображение тезауруса (со всеми связями) на экране (если речь идет о применении тезауруса в АБИС).
 
 Используемая с 1994 г. для библиографической БД и БД тезауруса программа CDS/ISIS/M (версия 3.0) в среде MS-DOS отвечала необходимым требованиям ГОСТа на ведение тезауруса, но не обладала дружественным пользователю интерфейсом. 
 
 Переход нашей библиотеки на систему автоматизации библиоек ИРБИС в 2001 г. позволил создать многочисленные читательские АРМы – читатели впервые получили возможность самостоятельной работы с нашими электронными ресурсами. Но при этом остро встала проблема сохранения нашей методики индексирования и поиска:ИРБИС не давал инструмента работы с нормативными словарями. В качестве временного средства индексирования стала использоваться текстовая версия тезауруса, в которой нужный выделенный термин копировался и вставлялся затем в ИРБИС.  
 Для ведения дескрипторов-имен собственных (имена лиц, географические названия и т.п.) с 2006 г. успешно используется механизм авторитетных/нормативных файлов. Тогда же основной массив лексики тезауруса более 7000 терминов (без имен собственных) был введен в БД "Тезаурус" (TEZ) ИРБИС. Это существенно упростило доступ каталогизатору/библиографу к тезаурусу - непосредственно в АБИС через встроенный словарь поля 965 "Дескрипторы".
 
 Возможности БД "Тезаурус" ИРБИС (мы работали в ИРБИС 64, версия 2009.1, теперь – 2010.1)
 позволяли использовать его как поисковый механизм (во многом соответствовавший необходимым требованиям) и получать при "поиске для умников" возможность навигации по словарю. При просмотре дескрипторной статьи пользователь видит термин в его связях с другими, может отобрать для поиска более соответствующий запросу термин, провести поиск с необходимой полнотой и с минимальными информационными потерями. 
 
 Но недостатки модуля "Тезаурус" (TEZ) в ИРБИС не обеспечивали весь цикл работ по ведению тезауруса, что вынуждало продолжать ведение эталонной версии в CDS/ISIS/M (версия 3.0) с последующим вводом изменений в БД "Тезаурус" в ИРБИС. 
 
 Мной были высказаны следующие соображения по его доработке:
 1) сделать поле для вышестоящих дескрипторов повторяющимся (достаточно часто к дескриптору требуется 2-3 вышестоящих термина); 
 
 2) создать повторяющееся поле для нижестоящих дескрипторов (нижестоящих терминов в дескрипторной статье может быть несколько десятков); 
 
 3) создать поле для синонимов-аскрипторов (функционально соответствуют 410 полю
 авторитетного файла); 
 
 4) создать поля для систематических и категориальных индексов (необходимых для выделения
 терминов по категориям, обеспечивают процесс ведения тезауруса); 
 
 5) обеспечить возможность автоматической корректировки всех связанных словарных статей
 тезауруса: a) при создании новой дескрипторной или аскрипторной статьи (сделать возможным автоматическое добавление нового термина или  синонима с указанием статуса синонима [синоним, передаваемый комбинацией терминов или одним из альтернативных терминов]); b) при изменении статуса термина (например, аскриптор стал дескриптором) или при редактировании термина; 
 
 6) в будущем создать поле для фиксированного идентификационного номера дескриптора,
 независимого от MFN, это позволит обеспечить автоматическую коррекцию поисковых образов (в полях 965). 
 
 РЕШЕНИЕ ПРОБЛЕМЫ 
 
 Стараниями зав. отделом разработки и совершенствования АБИС и технологий ГПНТБ России
 А. И. Бродовского для представления тезауруса в ИРБИС в декабре 2010 г. была использована БД URUB ("универсальный рубрикатор"), в которой под задачи ведения тезауруса была изменена структура и наименования полей. Для адекватного отображения терминов в окне просмотра стал использоваться ИРБИС-Навигатор на основе HTML (как в "поиске для умников"). 
 
Этот же ИРБИС-Навигатор стал доступен при работе библиографа/каталогизатора с полем 965
 "Дескрипторы". 
 
 При внесении изменений в служебные файлы БД URUB были обеспечены: 
 - повторяемость поля для вышестоящего дескриптора;
 - создание повторяющегося поля для нижестоящих дескрипторов (они отображаются в окне просмотра при создании/доработке нормативной записи, а при ее сохранении – заглавный дескриптор записи отображается в дескрипторных статьях этих терминов как вышестоящий, при этом поля нижестоящих терминов в сохраняемой записи опустошаются, поскольку данная связь таким образом уже зафиксирована и видна в окне просмотра); 
 - автоматическое включение заглавного дескриптора изменяемой/создаваемой нормативной записи в качестве ассоциативного во все дескрипторные статьи, заглавные термины которых внесены в поле ассоциативных дескрипторов данной нормативной записи (что равносильно созданию взаимной ссылки «см. также»); 
 - определение статуса записи (нормативная/ссылочная) путем заполнения поля "Отсылка "Смотри"".
 
 При этом отпала необходимость вводить в состав нормативной записи синонимы-аскрипторы – они отображаются в окне просмотра дескрипторной статьи, благодаря существующим в составе тезауруса соответствующим ссылочным записям. 
 
 Необходимая коррекция (после редактирования записей тезауруса) поисковых образов
 каталогизационных записей проще осуществляется путем глобальной корректировки конкретных данных в поле 965 менеджером/администратором БД статей или ЭК: в этой ситуации привязка дескрипторов к фиксированному идентификационному номеру неактуальна (см. выше, п. 6). 
 
 В результате очередной встречи с А. И. Бродовским в январе 2011 г. была решена, в частности, проблема дифференцированного отражения разных категорий ссылок: "см.”, "см. альтернативу”, "см. комбинацию”, что исключило возможность неадекватного индексирования. 
 
 Также была решена проблема алфавитной сортировки терминов внутри словарной статьи в каждой категории: синонимы, вышестоящие, нижестоящие, ассоциативные термины. Это не просто "дань” ГОСТу, а практически необходимое требование: словарная статья может содержать до сотни терминов, требующих упорядочения.
 
 Среди перспективных задач ведения тезауруса в URUB можно назвать обеспечение вывода тезауруса в текстовый файл в форме алфавитного лексико-семантического словаря. Но по существу задача может рассматриваться как решенная.
 
 Тезаурус в БД URUB уже обеспечивает процесс ведения и использования Корпоративной библиографической базы данных библиографов публичных библиотек Санкт-Петербурга,
 объединенных в единую Корпоративную сеть общедоступных библиотек (КСОБ СПб). Мы надеемся, что найденное решение адекватного представления тезауруса в ИРБИС может быть реализовано в качестве одной из базовых промышленно реализованных функций в последующих версиях и поколениях программы.
 
-------------------------------------------------------
 Примеры авторитетных записей, в которых к заглавному термину предлагается несколько
 вышестоящих дескрипторов, требующих повторяющегося поля в рабочем листе БД "Тезаурус" (текстовый формат), из тезауруса ЦГПБ им. В. В. Маяковского:
 
 Основной термин-дескриптор:
   АБСТРАКЦИОНИЗМ
 Вышестоящие:
   АВАНГАРДИЗМ
   МОДЕРНИЗМ
   ХУДОЖЕСТВЕННЫЕ ТЕЧЕНИЯ И СТИЛИ
 Нижестоящие:
   СУПРЕМАТИЗМ
 
 Основной термин-дескриптор:
   АВАРИИ
 Вышестоящие:
   ЭКСТРЕМАЛЬНЫЕ УСЛОВИЯ
   ЧРЕЗВЫЧАЙНЫЕ СИТУАЦИИ
 Нижестоящие:
   РАДИАЦИОННЫЕ АВАРИИ
   ТРАНСПОРТНЫЕ ПРОИСШЕСТВИЯ
 Ассоциативные:
   АВАРИЙНО-СПАСАТЕЛЬНЫЕ ФОРМИРОВАНИЯ
   ЖЕРТВЫ АВАРИЙ
   КАТАСТРОФЫ [техн.]
   ЛИКВИДАТОРЫ АВАРИЙ
   ЛИКВИДАЦИЯ АВАРИЙ
   НЕИСПРАВНОСТИ ПРИБОРОВ
 Синонимы-Недескрипторы (выражаются комбинацией):
   Кораблекрушения
 Синонимы-недескрипторы (основной термин -
 альтернативный):
   Катастрофы
   Техногенные катастрофы
 
 Основной термин-дескриптор:
   ПРОКУРОРЫ
 Вышестоящие:
   РАБОТНИКИ ПРАВООХРАНИТЕЛЬНЫХ ОРГАНОВ
   ЮРИСТЫ
 Ассоциативные:
   ПРОКУРАТУРА
 
 Основной термин-дескриптор:
 ПРОМЫШЛЕННЫЕ ЗДАНИЯ
 Синонимы-недескрипторы:
   Промышленная архитектура
 Вышестоящие:
   ЗДАНИЯ
   МАТЕРИАЛЬНЫЕ АКТИВЫ
   НЕДВИЖИМОСТЬ
   ОСНОВНЫЕ СРЕДСТВА
   СРЕДСТВА ПРОИЗВОДСТВА
 Ассоциативные:
   ПРОМЫШЛЕННЫЕ ПРЕДПРИЯТИЯ
-------------------------------------------------------
 
 Окончательное решение проблемы требует доработки небольших, но достаточно важных вопросов:
 
 - ввести в состав рабочего листа URUB поля для систематических и категориальных интексов и обеспечить поиск по этим признакам. Они обеспечивают сортировку терминов по отраслевому признаку и категориям (явления, процессы, вещи...) - важный инструмент для редактора БД тезауруса;
 
 - обеспечить возможность вывода тезауруса в текстовые файлы (согласно ГОСТу) в виде: 1)
 лексико-семантического  указателя  (в  алфавите всех словарных статей, дескрипторных  и 
 недескрипторных, с  отражением  в рамках   каждой статьи связей между терминами; 2)
 систематического указателя  (по систематическим индексам); 3) категориального  указателя;
 
 - обеспечить постоянство алфавитного порядка вывода терминов при использовании тезауруса в "поиске для умников" (вероятно, вопрос чисто технический);
 
 - обеспечить автоматическую корректировку во всей базе тезауруса при  удалении/изменениях данных в одной из словарных статей тезауруса:  например,  удаляя ассоциативную ссылку в одной статье (поисковый   термин  из  категории  "см.  также"),  необходимо обеспечить   автоматическое  удаление обратной  ссылки  из  связанной статьи:  сейчас это  приходится  делать вручную. Например, удалив из дескрипторной статьи  АВТОРСКОЕ  ПРАВО  из числа терминов  "См. также" термин ЭЛЕКТРОННАЯ ПОДПИСЬ, мы могли бы получить  удаление  из статьи  ЭЛЕКТРОННАЯ  ПОДПИСЬ  термина  АВТОРСКОЕ ПРАВО из перечня терминов "См. также".
 
Но принципиально вопрос о ведении тезауруса в ИРБИС решен.
Да, проблемы с тезаурусом интересные. Дискуссия на форуме "Информ-системы" - 2006 года, интересно, что делают ее участники сегодня? 
 
 Хочется прокомментировать 2 аспекта:
 
 - нерешенность в АБИС вопросов ведения тезаурусов.
 
Разработчик справедливо отметил сложность тезауруса, объяснив этим неразработанность этого вопроса в своей АБИС: даже подключение готового тезауруса рассматривается как проблема, требующая  индивидуальной отладки, а о самостоятельном ведении собственного словаря речи не идет.
 
 По разным причинам разработчики АБИС в свое время учли возможность [использования] ключевых слов и предметных рубрик, а тезауруса - нет, хотя его структура и функции в общих словах прописаны соответствующим ГОСТом.
 
 Практика работы отечественных информационных служб 1960-х - 1980-х гг. создала теоретически обоснованный эффективный механизм организации и поиска данных - тезаурусы. Процесс массовой автоматизации отечественных библиотек в 1990-е - нач. 2000-х совпал с неготовностью библиотечного сообщества (в массе своей) решать вопросы эффективности поиска новыми средствами и - с неготовностью программных средств обеспечивать эти процессы. По существу, электронный каталог до сих пор во многом используется как инструмент учета материальных ценностей (книг, иных документов) и путеводителя по фонду (и в меньшей степени - по содержанию документов этого фонда), а также - средства автоматизированного ведения карточного каталога (библиотечный почерк сейчас, по-моему, уже не преподают первокурсникам). Каталогизатору не столь существенно, как будут искать книгу, сколько - заполнить поле предметных рубрик (в лучшем случае - двумя рубриками).
Несколько иначе - в аналитических базах данных: задача их ведения требует более ответственного подхода к раскрытию содержания. Но, ключевые слова (даже если их присваивать много и в разных вариантах, как в проекте МАРС АРБИКОН) - не панацея, хотя за неимением лучшего - работающее средство.
Создание URUB в ИРБИС - "палочка-выручалочка" для создания и ведения СВОИХ (поисковый словарь должен быть адекватен информационному массиву) различных лексикографических баз данных.
 
 - второй аспект. Какой бы тезаурус (свой, приобретенный) мы ни использовали, его работа
 будет реально полезной, только тогда, когда поисковый образ документа и поисковый образ
 запроса будут строиться на основе одного и того же словаря - этого самого тезауруса. А, значит, документы (библиографические записи, текстовые массивы) должны быть проиндексированы этим тезаурусом.

-------------------------------------------------------
Прошедшая серия встреч с А. И. Бродовским позволила решить принципиальные затруднения по переводу всего цикла работ по ведению тезауруса аналитической БД ЦГПБ им. В. В. Маяковского в ИРБИС. Из существенного - удалось решить вопрос корректного (по ГОСТу) вывода тезауруса в текстовый документ (алфавитно-семантический словарь), столь же корректного отображения тезауруса в ИРБИС-навигаторе для индексатора (в поле 965) и читателя, а также конвертировать на основе таблицы  соответствия полей эталонную версию тезауруса из CDS/ISIS для MS-DOS в доработанный РЛ базы тезауруса в URUB (в ИРБИС). (Использующийся ныне в URUB  тезаурус неполно отражает связи между терминами, поскольку был получен из ограниченного по функциям и содержанию формата БД TEZ ИРБИСа, куда до этого был помещен). В настоящее время идет тестирование эталонной версии нашего тезауруса в оболочке URUB в локальном режиме. 



Источник: http://irbis.gpntb.ru/read.php?10,46024,page=1
Категория: Мои статьи | Добавил: piglet66 (25.06.2012) | Автор: Прозоров Иван Евгеньвуич E W
Просмотров: 3611 | Комментарии: 8 | Теги: ИПЯ, ИРБИС, САБ, АБИС, Автоматизация библиотек, Тезаурус, ЦГПБ им. В.В.Маяковского, Бродовский. Прозоров, лингвистическое обеспечение | Рейтинг: 0.0/0
Всего комментариев: 3
3 piglet66  
0
Специально под наш тезаурус, ведущийся с 1994 г. (подробности - в теме выше), была доработана оболочка БД URUB, а многосложные связи между терминами "нарисованы"-прописаны средствами HTML.
Этого в дистрибутиве нет. Благодаря любезности (и,
смею думать, увлеченности темой) А. И. Бродовского
и немного - нашей надоедливой настойчивости...
Он сам с сожалением отмечал, что очень немногие
библиотеки занимаются специально вопросами
лингвистического обеспечения поиска: так, мы
первые за годы существования в ИРБИС идеи
авторасширения поиска попросили его реализовать
данную функцию для нашей базы (прописать строчку
прграммного кода для одного из параметрических
файлов) - когда при вводе в процессе поиска в БД
каталога в окно терминов запроса слов, имеющих в
БД тезауруса (URUB) стстус синонимов, в результаты
поиска выводятся записи, содержащие нормативный
термин (+ сделано, что и записи, имеющие в своем
ПОД нижестоящие термины выводились бв также - для
полноты поиска).

2 piglet66  
0
На конференции "Крым 2012" был представлен доклад "Тезаурус в АБИС ИРБИС как эффективное средство поиска в ресурсах Корпоративной сети общедоступных библиотек Санкт-Петербурга". В нем дается обобщающая характеристика этапов решения проблемы организации полноценной работы с тезаурусом.
В частности, подчеркивается, что полноценная реализация собственного ИПЯ в АБИС требует от
программы решения трех задач:
- обеспечения процессов ведения поискового словаря (создание и редактирование лексикографических записей БД, обеспечение ссылочных связей, автоматизированная коррекция связанных лексикографических записей при внесении изменений в одну из них);
- обеспечение процессов индексирования каталогизационных записей (навигация и отбор
терминов по встроенному словарю);
- обеспечение процессов информационного поиска (навигация и отбор терминов в "поиске для умников").

1 piglet66  
0
АВТОРСКИЕ ДОПОЛНЕНИЯ
Уникальность тезауруса ЦГПБ им. В. В. Маяковского
Санкт-Петербурга заключается в том, что:
- это тезаурус в полном смысле этого слова (по ГОСТ) - компактный контруктор "Лего", из деталей
которого можно сконструировать поисковый образ документа любой сложности с высокой точностью, при этом каждый термин - самостоятельная точка доступа (реализуется координатный принцип индексирования и поиска);
- это тезаурус, который ведется и используется при индексировании в соответствии с ГОСТом;
- это тезаурус, который удалось в автоматизированном режиме представить в полном
соответствии с ГОСТом и использовать читателю как навигатор по Знанию (авторитетный файл).
Кроме того, к уникальным (в прямом смысле) свойствам можно отнести то, что это успешный опыт
ведения политематического тезауруса публичной библиотеки (не скажу "универсального" - все-таки
специфика библиотеки и запросов ее читателей не позволяет быть до конца универсальными).
О РНБ. Да, обе библиотеки находятся в Петербурге, между нашими главными зданиями 7 минут ходьбы. Но нас разделяет не только река Фонтанка и разность статуса (национальная и центральная библиотека
региона), но и точки зрения на вопросы лингвистического обеспечения библиографических
ресурсов.
Более того, в самой РНБ (как и у нас в библиотеке) также существуют разные точки зрения и применяемые
в разных БД решения. Генеральной линией РНБ является предметизация по "методике РНБ", которая
есть во многом формальный перенос в электронную среду традиционных подходов к предметизации.
Созданный специалистами РНБ рубрикатор - уникальный информационный ресурс с колоссальным
справочным значением. Но не эффективное средство поиска и пример для подражания в определении
методики раскрытия содержания документов в электронных каталогах.
К изданной в 2005 г. печатной методике добавилось множество методических решений и дополнений (не удивлюсь, если объем их будет соразмерен исходной печатной книжке). Несколько лет они размещались на сайте РНБ как "Дополнения 2007 г.", "...2008 г." и т.п. При этом они порой были не дополнениями, а опровержениями принятых ранее установок.
То, что этот ресурс объявлен Национальным авторитетный файлом предметных рубрик - в этом, в
принципе, нет ничего плохого. Но то, что с ним реально работают и развивают как национальное
средство индексирования и поиска - это большая стратегическая ошибка, очевидность которой со
временем будет более заметна. Наиболее разумным было бы использовать этот ценный (еще раз подчеркну!) ресурс как один из авторитетных источников для принятия библиотеками собственных
предметизационных решений. Кроме того, надо отдать должное специалистам РНБ, они периодически ставят вопрос о повышении поисковой эффективности каталога, изучают зарубежный опыт, например: статья Л. В. Завьяловой; статья про эксперимент индексирования ключевыми словами; Селиванова, Ю. Г. Современные тенденции развития систем тематического доступа : тезисы // Лингвистическое обеспечение информационных ресурсов библиотек,
музеев, архивов и других учреждений культуры. - СПб., 2008. - С. 18-22 и др.
Наши каталогизаторы работают с ресурсами ЛИБНЕТ по технологии заимствования записей с последующей доработкой, не ставя задачу загрузки доступного по сети авторитетного файла предметных рубрик.
Что касается ПР РНБ, то можно еще раз отметить, что библиотеки должны принимать собственные
предметизационные решения, ориентируясь на свой статус и задачи, на характер фонда, на характер
запросов читателей (текущий учет запросов/справок, ежеквартальные и ежегодные обобщения - это же элементарно должно быть).
Доступность национального АФ ПР и степень удобства его использования явно не следует рассматривать
как препятствие для ведения своего каталога.
К числу основных требований к ИПЯ относят простоту ведения и использования. Наши каталоги должны быть понятны малоподготовленному пользователю, ибо их назначение - приводить к знанию (книге, статье,
CD), а не препятствовать доступу.

Имя *:
Email *:
Код *: