Отчет
о результатах работ по гранту РФФИ № 04-07-90087
"Исследование и разработка системы метаданных
для электронных информационных ресурсов и сервисов
в фундаментальной науке"

Антопольский А.Б., Ауссем В.И., Блау С.А., Жежель А.И.

Москва, 2004 г.

Содержание

Введение

1. Предметы и цели метаописаний научных информационных ресурсов

2. Системы предметно-тематического поиска в сети Интернет и используемые ими метаданные

2.1. Универсальные "поисковые машины"

2.2. Некоторые региональные Интернет-каталоги и системы

3. Специализированные научные сайты и порталы, их поисковые и иные сервисные возможности

3.1. Некоторые примеры ведущих научных информационных сайтов

3.2. Дополнительные услуги российских научных информационных сайтов и порталов

3.3. Научные WEB-порталы и распределенные информационные системы

3.4. Виртуальные музеи

4. Системы метаданных и их использование для организации научных информационных ресурсов и сервисов

4.1. Разработка формальных моделей, языков и программного инструментария систем метаданных. Их реализация в сети Интернет.

4.2. Универсальные системы метаданных и их применение для создания каталогов научных и образовательных ресурсов

4.3. Проект ИСИР

4.4. Специализированные системы метаданных и их использование

4.5. Метаописания Web-сервисов. Спецификация UDDI.

4.6. Разработка интерфейсов к разнородным ресурсам на основе стандартов метаданных

Введение

При решении любых задач поиска, отбора информации из крупных информационных массивов, задач управления такими массивами возникает необходимость избежать сплошного просмотра и анализа, пусть даже в той или иной степени автоматизированного, всей имеющейся информации. Гораздо предпочтительнее получить компактно записанные стандартизованные данные о представляющих интерес аспектах рассматриваемых информационных объектов. Подобные данные об информации вполне естественно называть метаданными. Типичным примером метаданных являются, например, библиографические описания и выходные данные книг и других изданий.

Набор метаданных о том или ином информационном объекте составляет его метаописание. Объекты метаописаний могут быть весьма различны по уровню: от отдельных записей, документов, статей, разделов и глав монографий и научных трудов до огромных сложноструктурированных информационных массивов информации, интернет-порталов, крупных архивов и библиотек. Структура и состав метаописаний, очевидно, в значительной степени должны зависеть от уровня, типа и физической природы описываемых информационных объектов.

Требования к метаописаниям определяются также составом задач управления информационными массивами, для решения которых эти описания используются. Характер решаемых задач управления влияет, например, на наличие и степень отражения содержательных, организационных, технологических, правовых, экономических и других аспектов, связанных с описываемыми объектами. Задачи оптимизации поиска информации, в свою очередь, определяют необходимость наличия подробных адресных и идентификационных метаданных.

Помимо типа описываемых объектов и характера решаемых задач на состав используемых метаданных оказывают влияние и особенности сферы использования информации. Так, требования к метаописаниям управленческой документации, правовых документов, научной и художественной литературы могут в значительной степени отличаться друг от друга. Одной из сфер, предъявляющей наиболее разнообразные требования к описанию обращающейся в ней информации (особенно ее содержания), является фундаментальная наука.

В научном информационном пространстве, значительная часть которого формируется в Интернет, в основном в Web, генерируются многочисленные информационные ресурсы, различающиеся по самым различным параметрам. Это ресурсы различной структуры данных, различной тематики, посвященные объектам разной природы, использующие различный программный инструментарий. Эти ресурсы существенно разрознены, недостаточно структурированы и систематизированы. При создании их описаний недостаточное внимание уделяется вопросам интероперабельности, слабо применяются соглашения по стандартизации электронного представления информационных ресурсов, средства поддерживающие интеграцию информационных ресурсов, повышение качества поиска. В результате пользователь не может получить полную и достоверную информацию о ресурсах, представляющих для него интерес.

Очевидно, что каждая область науки оперирует своими специфичными данными и имеет потребность в собственных форматах их представления, что обусловлено требованиями функциональности соответствующих систем обработки информации. Этим объясняется малая степень интеграции научных данных, по сравнению с образовательными, библиотечными, и другими типами ресурсов.

Тем не менее, необходимость обеспечения активных научных коммуникаций, прежде всего на междисциплинарном уровне, требует решения задачи интеграции научных ресурсов, начиная с верхнего уровня. Именно исследование систем метаданных для информационных ресурсов фундаментальной науки как инструмента для их интеграции является основным содержанием первого этапа настоящей научной работы.

Конечная цель работы заключается в создании интерактивной Интернет-системы формирования метаописаний электронных научных информационных ресурсов. В связи с этим основное внимание исполнителей на первом этапе было сосредоточено на особенностях систем метаданных, применяемых именно для описания электронных информационных ресурсов (прежде всего, сетевых). В то же время, авторы считают, что нельзя проводить резкую грань между методами описания традиционных и электронных документов и информационных массивов. Нельзя согласиться с высказываемым иногда мнением, что метаданными следует называть только "информацию о документе, понимаемую компьютером" [1]. Семантические принципы описания, идентификации и поиска материалов научных исследований и разработок не зависят кардинально от технологии хранения и обработки информации. Речь может идти лишь о появлении новых, технологически обусловленных элементов описания и о повышении требований к формализации описаний. Последнее, правда, связано не столько с электронной формой самой описываемой информации, сколько с использованием метаописаний в системах автоматизированного поиска и обработки информации. Степень же формализации некоторых "традиционных" метаописаний (например, библиографического описания) весьма высока, что позволяет их использовать и в автоматизированных системах (непосредственно, при наличии соответствующего программного обеспечения, или как основу для "машинного" описания). Таким образом, несколько меньшее внимание к "традиционным" метаданным в настоящей работе объясняется их большей известностью и изученностью, а не их меньшей значимостью.

Также весьма важными, но не находящимися в центре внимания авторов настоящей работы, являются проблемы программно-технологической реализации существующих систем метаданных. Составляющие часть этих проблем вопросы использования протоколов и форматов, позволяющих формировать и предоставлять пользователям метаописания сетевых информационных ресурсов рассматриваются в разделе 4.1. ("Разработка формальных моделей, языков и программного инструментария").

Главным предметом исследований на данном этапе работы стала семантика систем метаданных, определяющая их состав и принципиальные возможности использования. Семантика и состав метаданных в свою очередь определяются решением уже упомянутых выше вопросов о составе объектов метаописаний и целях использования описаний. Рассмотрению именно этих вопросов посвящен первый раздел отчета.

Очевидно, что анализировать методы описания информационных ресурсов имеет смысл только на основе достаточно полного представления об особенностях нынешнего состояния, тенденциях развития и условиях функционирования описываемых научных информационных ресурсов. Поэтому два крупных раздела отчета (разделы 2 и 3) посвящены обзору наиболее характерных примеров научных информационных ресурсов, информационных систем и предоставляемых ими возможностей и услуг.

В последующих разделах отчета анализируются сведения о метаданных различных типов, выделяемых в связи с особенностями описываемых объектов и целями использования метаописаний.

Описания различных типов метаданных базируются на примерах из конкретных систем метаданных, используемых известными информационными системами. Несмотря на это, авторы сочли полезным привести отдельно краткие, но в то же время достаточно целостные описания ряда информационных проектов (прежде всего отечественных), основанных на создании и использовании универсальных и специализированных систем метаданных (см. раздел 4 отчета). В заключении на основе проведенного сбора и анализа сведений о системах метаданных намечены основные направления требований к методам построения и использования метаописаний информационных ресурсов для сферы фундаментальной науки.

В ходе настоящей работы широко использовались отечественные разработки и обзорные исследования в области создания и функционирования систем метаданных. Бесспорным лидером  общих и теоретических разработок в области метаданных в России, включая, прежде всего формальные модели систем метаданных и онтологий, является в настоящее время научный коллектив под руководством проф. В.А.Серебрякова (ВЦ РАН). Публикации этого коллектива по данной проблеме весьма многочисленны [2-9] и посвящены различным аспектам рассматриваемой проблемы. В этом же ряду следует отметить работы М.Р.Когаловского [10-14], Л.А. Калиниченко [15], А.В. Манциводы [16] и ряда других исследователей. Представляют большой интерес такие обзорные работыкак указатель источников по метаданным в области науки, образования и технологий А.Лопатенко [17], каталог систем метаданных Ю.А. Хохлова и С.А. Арнаутова [18], обзор  систем метаданных, содержащийся в монографии А.Б.Антопольского [19] и ряд других.

Предметы и цели метаописаний научных информационных ресурсов

Проблема определения предмета описания непосредственно связана с задачами членения информационного массива (или, в некоторых случаях, скорее "потока информации") и идентификации информационных объектов. Наиболее очевидный и часто встречающийся способ членения информационного массива опирается на факт размещения несовпадающих (то есть не являющихся точными копиями друг друга по содержанию) подмассивов информации (документов, произведений и их совокупностей) на отдельных носителях информации. На этой основе строятся чаще всего описания книг, журналов и другой полиграфической продукции. Таковы же обычно и описания тиражируемых электронных изданий на съемных носителях (CD-ROM, CD-R, дискеты). Результаты этого способа членения информации определяются, очевидно, авторами и издателями.

При размещении информации в сети некоторым аналогом членения информационного массива по информационным носителям является соотнесение разных фрагментов массива с различными сетевыми адресами. Заметим, что иерархическая структура сетевых адресов позволяет, сохраняя данный принцип членения информации, создавать многоуровневые описания информационных ресурсов или, по крайней мере, выбирать уровень описания, в наибольшей степени соответствующий поставленным целям.

Следует отметить, что метаописание, содержащее электронный адрес информационного объекта (или программно связанное с этим адресом), является фактически описанием не только собственно информации, а некоторого элемента конкретной информационной системы со своими правилами и возможностями хранения, обработки, поиска и выдачи информации. В традиционной библиотеке или архиве аналогом такого описания является каталожная карточка, содержащая адрес (шифр хранения) книги, документа (единицы хранения).

Реально широко распространенными собраниями метаописаний, не содержащих адреса хранения информации, являются лишь библиографические и реферативно-библиографические издания. Система метаданных для них ограничивается фактически элементами "классического" библиографического описания. Во всех остальных случаях система метаданных может и должна включать интересующие пользователя сведения о порядке и условиях доступа к информации, предоставляемых информационной системой возможностях обработки информации. Особенно актуальной такая информация может быть для пользователей многих научных информационных систем, предоставляющих разнообразные возможности обработки информации (как содержащейся в системе, так и в ряде систем дополнительно вводимой пользователем), включая осуществление средствами системы различных вычислений, построение графиков и другие возможности. Такие дополнительные возможности информационных систем последнее время часто называют научными сервисами. Рассмотрению ряда существующих научных сервисов, связанных с теми или иными информационными ресурсами, и способов их отражения в метаописаниях ресурсов посвящен раздел 3.2. настоящего отчета.

В зависимости от поставленных целей предметом метаописания могут быть информационные единицы (фрагменты), меньшие, чем те, что объединяются единым носителем или сетевым адресом. Это, например, отдельные документы и статьи в сборниках (обычно в несетевых изданиях), разделы, главы некоторого произведения, фрагменты текста, несущие ту или иную смысловую нагрузку, фрагменты, имеющие разную семиотическую природу (текст на естественном языке, таблицы, рисунки, видео и так далее). В этих случаях идентификация объектов описания связана с членением целостных изданий и разметкой текста, осуществляемыми либо автором (составителем) и отражаемыми, например, содержанием (оглавлением) издания, либо дополнительно в рамках информационной системы, в которой эти издания, документы, информационные массивы планируется использовать. В качестве эффективного инструмента такой дополнительной разметки, эксплицитной с точки зрения автоматизированной обработки информации, широко применяется в настоящее время язык XML (Extensible Markup Language – "расширяемый язык разметки"), точнее его синтаксис.

Еще чаще, чем фрагменты произведений (изданий, документов) предметом метаописаний становятся более крупные информационные объекты – базы данных, объединяющие множество отдельных документов или фактографических описаний отдельных объектов, электронные библиотеки, музейные, архивные и книжные коллекции, аудиа- и видеофонды и так далее. Во многих случаях такие совокупные объекты физически представлены на множестве разных носителей или занимают некоторое множество сетевых адресов, обычно связанных иерархически.

Следует отметить, что, несмотря на явную "многоуровневость" большинства информационных ресурсов,  значительная часть применяемых ныне систем метаданных либо прямо "настроены" только на один уровень членения информационного континуума (обычно это уровень отдельных изданий или произведений), либо пытаются игнорировать, хотя бы на верхнем уровне своей структуры, различия предметов описания. Последнее характерно для так называемых универсальных систем метаданных, наиболее распространенным представителем которых сейчас стало Дублинское ядро (Dublin Core, далее – DC). Стремление обеспечить единство структуры описания любых информационных объектов, облегчая в определенной степени автоматизированную обработку описаний, приводит в ряде случаев к фактической неоднозначности трактовки и практики использования некоторых элементов системы метаданных для объектов разного уровня.

Так, ясно, что интерпретации категории DC "создатель" ("creator") будут несколько различными, например, для документальной базы данных и для входящих в нее документов. В то же время, для многих пользователей их оценка необходимости к базе в целом может зависеть и от перечня авторов отдельных документов, вошедших в базу данных. Точное отражение семиотической природы информации (в DC, например, отражаемой обычно с помощью разных значений категории "тип ресурса" – текст, изображение, звук и так далее) легче удается в описаниях небольших информационных объектов (фрагментов). Для крупных объектов (книга, содержащая иллюстрации, тем более целая библиотека) часто указывается только превалирующая форма. То же можно отметить и в отношении такой традиционной категории метаописания как "язык" и некоторых других. Эти примеры свидетельствуют о желательности, по крайней мере в части случаев, создания взаимосвязанных описаний различных уровней представления (членения) информационных ресурсов.

Различные технологии разметки (прежде всего, XML-технологии) дают возможность создания удобных для использования в сетевом режиме описаний многоуровневых информационных объектов. Некоторые системы метаданных имеют средства для установления соответствий между различными описаниями (в DC, например, через категорию "связи"). В то же время, на практике почти не встречаются научные информационные системы, которые бы в явном, удобном для использования виде содержали взаимосвязанные метаописания как крупных информационных ресурсов, так и входящих в них объектов и фрагментов этих объектов.

Подобная ситуация объясняется, с одной стороны, большой трудоемкостью создания такой объединенной системы метаописаний для сколько-нибудь широкого круга крупных информационных ресурсов и упоминавшимися выше сложностями построения семантики системы метаданных для описания многоуровневых информационных объектов. С другой стороны, цели формирования массивов метаописаний в конкретных случаях связаны обычно с идентификацией ряда однородных объектов одного уровня, а не с решением задачи создания исчерпывающей информационной модели. Поэтому для того, чтобы перейти от описаний объектов одного уровня к описаниям объектов другого уровня чаще всего надо перейти к другому каталогу или другой, быть может связанной ссылками, поисковой системе (подсистеме).

Цели создания метаописаний в основном можно разделить на две группы: поиск информационных объектов и организация управления функционирования и использования этих объектов в информационной системе. Кроме того, метаописания могут использоваться с целью исследования существующих информационных ресурсов, например, для получения статистических сведений о них без непосредственного обращения к самим ресурсам. Исследовательские задачи, однако, являются, как правило, вторичными, и сами элементы метаописаний (метаданные) устанавливаются исходно для выполнения тех или иных функций при решении задач поиска или/и управления.

Характер и состав метаданных, используемых для поиска информационных объектов, определяются теми критериями, представлениями и знаниями, которые пользователи соотносят с требуемым предметом поиска. Чаще всего, особенно при поиске научных документов и их собраний, пользователь предъявляет требования к содержанию, предметной области искомых информационных ресурсов. Метаданными в этом случае следует считать любые элементы, используемые применяемой информационной системой для определения тематики просматриваемых документов (ресурсов, фрагментов и т.п.). Такие элементы обычно представлены различными классификационными индексами предметно-тематических классификаций, ключевыми словами, дескрипторами, стандартизованными элементами изображений и так далее. Поисковые элементы могут быть или заранее приписаны искомым объектам (в том числе составлять их специально выделенную часть) или вычленяться из текста (изображения) в ходе самого поиска средствами поисковой системы. При использовании предметно-тематических классификаций в сетевых гипертекстовых системах "приписывание" поисковых элементов ресурсам (или другим искомым информационным объектам) осуществляется обычно путем установления отсылки от рубрик классификации к соответствующим ресурсам и построения таким образом виртуального каталога ресурсов.

Так или иначе, состав метаданных, используемых для поиска информации по предметно-тематическому принципу, определяется применяемой информационно-поисковой системой, точнее, поисковым языком. Поэтому для охвата метаданных этой группы один из разделов настоящего отчета посвящен описанию основных поисковых систем ("поисковых машин") Интернета и ряда российских поисковых интернет-порталов (см. раздел 2).

Наиболее удобным непосредственно для человека (в отличие от автоматизированной системы) источником сведений о содержании отдельных документов и более крупных информационных объектов является, безусловно, текст на естественном языке в виде аннотации или реферата. Поэтому аннотации и рефераты остаются важной частью многих систем метаописаний информационных ресурсов.

Иногда в качестве дополнительного средства идентификации тематической направленности материалов могут использоваться и иные данные, не относящиеся к классификационным или лексическим единицам. Это, например, фамилии авторов и названия организаций, известных пользователю. Однако изначально подобные данные предназначены и чаще всего используются не для тематического поиска, а для поиска и идентификации конкретных документов, изданий, составных произведений и коллекций.

Классическим примером метаописания конкретного издания, документа является библиографическое описание. Оно охватывает сведения об издании в целом, месте, времени, объеме издания, лицах и организациях, имеющих отношение к созданию произведения и его изданию (авторы, составители, редакторы, издательство и т.д.). Еще больше сведений, прежде всего о процессе полиграфического производства издания (типография, тираж, шрифты, физические размеры и т.д.) традиционно приводится в выходных данных издания. Аналогичные по структуре описания используются для документов сферы управления, законодательных и иных нормативных актов, отчетных документов (в том числе в сфере науки). В подобных документах такие реквизиты как номер и дата принятия документа, орган, принявший документ часто являются основными поисковыми признаками документа.

Библиографические и близкие им по составу описания вполне приложимы и к электронным документам, изданиям, коллекциям. Лишь некоторые данные, связанные с полиграфическим исполнением (издательство, типография, тираж, метрические размеры) заменяются на сведения, характерные для цифровой реализации (наименование и владелец сайта, веб-дизайнер, объем в байтах, форматы, требования к программному обеспечению и т.п.).

Легко заметить, что только часть данных, входящих в библиографические и подобные им описания непосредственно используются для поиска информации, Обычно это наименование, автор, реже год и место издания, а в упоминавшемся случае официальных документов – номер, дата и наименование организации (органа власти). Ряд других сведений (язык, наличие таблиц, иллюстраций, фотографий, применяемый формат данных, требования к программному обеспечению и т.п.) используются обычно для дополнительного поиска или для "неавтоматизированной" оценки пользователем степени приемлемости для него конкретных материалов.

Как отмечалось ранее, метаданные применяются и в целях организации управления информационными ресурсами в конкретной информационной системе. Это, прежде всего, указания на то, какие процедуры, кем на каких и при каких условиях могут (или должны) осуществляться с данным информационным ресурсов (отдельным документом и даже частью документа). Этот класс метаданных используется, например, для управления доступом к данным, для организации процесса ведения информационных массивов, обмена данными между взаимодействующими системами и т.п. Примеры метаданных данного класса имеются в разделе 4 настоящего отчета.

Некоторые метаданные о функционировании информационного ресурса в конкретной системе могут быть интересны и для пользователя при определении желательности получения той или иной информации. Это, прежде всего, так называемый рейтинг ресурса, измеряемый часто количеством обращений к нему, но иногда и более сложным образом определяемой количественной оценкой качества материала.

Для информационного обеспечения научной сферы помимо сведений о самих информационных ресурсах и порядке их функционирования в информационной системе весьма часто для пользователя представляет интерес информация об исследовании, научном проекте, программе, в рамках или на основе которых создан информационный ресурс или отдельный научный документ. Такими сведениями могут быть, например, место проведения исследований, проект, программа, экспедиция, в которых получены результаты, описанные или использованные в работе, применявшиеся в ходе исследования методы, инструменты и так далее. В результате появляются возможности управления процессом консолидации разнородных массивов данных в рамках крупных научных проектов или для целых специализированных областей исследований. Примеры ряда научных проектов, использующих системы метаданных для организации своего внутреннего информационного пространства приводятся в разделе 4.6 настоящего отчета.

Суммируя сказанное в данном разделе, следует отметить, что метаданные могут относиться к объектам различного уровня, как например:

предметно-тематические области,

научные программы и проекты,

наборы и коллекции данных и документов,

конкретные произведения, их части и фрагменты,

реализации информационных ресурсов и отдельных документов в конкретных системах.

Кроме того, метаданные могут использоваться для решения многих различных (хотя и родственных) задач, как в интересах пользователей, так и владельцев информационной системы. Тем не менее, на практике существует стремление к целостному описанию информационных объектов. Это приводит к распространению в большей или меньшей степени универсальных наборов (систем) метаданных, постепенной стандартизации методов отражения конкретных значений метаданных в этих системах. В то же время, нельзя не отметить, что в большинстве случаев универсальные системы метаданных однозначно задают лишь общую структуру, синтаксис описаний, которые для многих конкретных систем оказываются избыточными, а для других – требуют расширения и спецификации отдельных параметров. Поэтому для исследования систем метаданных следует рассматривать не только их общую семантико-синтаксическую структуру и реализующие ее программные средства, форматы и протоколы, но и особенности функционирования как универсальных, так и узкоспециализированных научно-информационных систем, использующих те или иные виды метаданных. В связи с этим дальнейшие разделы настоящего отчета в основном связаны с описанием отдельных проектов и систем, показавшихся авторам наиболее характерными и перспективными с точки зрения применения метаописаний.

Системы предметно-тематического поиска в сети Интернет и используемые ими метаданные

В ряду известных и используемых в Интернете информационных поисковых систем (иногда называемые информационными машинами) можно выделить российские поисковые системы, среди которых основными можно считать Яндекс, Рамблер, Апорт, Mail.Ru, работающую в зоне рунета зарубежную систему Google. Проект системы Turtle, широко разрекламированный разработчиками, практически умер, не успев родиться. Помимо названных общеизвестных систем следует отметить многочисленный отряд региональных Интернет-справочников, каталогов и поисковых систем, действующих в зоне рунета и имеющих в составе ресурсов, предоставляемых ими, информацию по науке и технике.

Основным поисковым средством подобных систем является полнотекстовый лексический поиск. Кроме того, важнейшей и наиболее часто используемой услугой является предоставление пользователям предметного (предметно-тематического) каталога проиндексированных системой сайтов, обращение к которому позволяет сузить область поиска и тем самым уточнить запрос. Предметные каталоги, точнее лежащие в их основе классификации и рубрикаторы, являются представителями информационно-поисковых языков, и их можно рассматривать как один из видов метаданных.

Задача создания каталогов для того, чтобы ориентироваться в значительных объемах накопленной в Интернете информации, возникла уже к середине 90-х годов. Поэтому сначала за рубежом, а в 1995 г. в России ЦЭМИ РАН была начата работа над каталогом русскоязычных рeсурсов, который позже получил известность под названиями "Ау!" и @Rus. В настоящее время каталоги информационных ресурсов предоставляет подавляющее большинство информационных систем, однако различные системы используют свои методы каталогизации и способы описания информационных ресурсов. Универсальными поисковыми машинами практически не используются традиционные классификации и рубрикаторы, применяемые библиотечными и патентными системами, системами научно-технической информации, многими локальными информационно-поисковыми системами. Поэтому кратко рассмотрим особенности каталогов и некоторых других поисковых средств основных универсальных и ряда региональных поисковых систем.

2.1. Универсальные "поисковые машины"

Поисковая система Яндекс в настоящее время индексирует более миллиона российских и зарубежных русскоязычных серверов, а также серверов на территории бывшего СССР (всего более 175 миллионов оригинальных документов). Система обладает развернутой системой формирования запроса, в частности, допускается ввод поискового предписания на естественном языке – в этом случае все необходимые расширения производятся автоматически. Более детальный запрос может быть составлен с помощью режима "Расширенный поиск", в котором применяется система многоступенчатых меню. Пользователю предоставляется возможность задать различные условия соответствия интересующих его слов и представления найденной информации: Пользователь может задать условия расположения искомых слов относительно друг друга, а именнно: слова должны располагаться или подряд, или в одном предложении, или не очень далеко, или на одной странице. Искомые слова могут быть где угодно в тексте документа, или в его заголовке, или в тексте ссылки. Можно задавать ограничения/уточнения по языку документа, его дате, формату представления данных и ряду дополнительных условий.

Каталог Яндекса содержит 15 предметных рубрик, среди которых была рубрика “Наука и образование”. Пользователь может ограничить область поиска, используя помимо предметных рубрик рубрики “Регионы”, “Справки” и “Типы сайтов”. Следует отметить, что в процессе работы над данным обзором этот каталог изменялся. Так, в рубрике “Наука и образование” еще в конце мая 2004 г. содержались следующие подрубрики: “Науки”, “ВУЗы”, “Курсы”, “Школа”, “Рефераты”, а к 20 числам июня состав подрубрик стал следующим: “ВУЗы”, “Абитуриентам”, “ЕГЭ”, “Курсы”, “Рефераты”, т.е. раздел “Науки” исчез с первого уровня каталога и перешел на второй уровень. Подобные изменения, очевидно, диктуются необходимостью соответствия актуальным запросам пользователей, в данном случае запросам на информацию от заканчивающих школу и поступающих в ВУЗы школьников и молодежи.

Для поиска научных информационных ресурсов, очевидно, нужно использовать рубрику «Учеба”, далее – подрубрику “Науки”, к которой на день анализа каталога был отнесен около 500 сайтов. Эта цифра, естественно, не является постоянной, т.к. сайты рождаются и умирают; но об умерших сайтах сведения не сообщаются, при обращении к ним пользователь получит просто сообщение системы о том, что доступ к сайту не возможен.

В подрубрике “Наука” представлены следующие группы сайтов:

Гуманитарные науки 

Естественные науки 

Технические науки 

Конференции и семинары )

Научная периодика 

Научно-популярные журналы 

Универсальное 

Анализ информации, выдаваемой системой на каждом из уровней каталога, показывает, что раздел “Наука” в Яндексе хорошо структурирован, есть разделение на гуманитарные, естественные и технические науки. Рубрика “Естественные науки” содержит в качестве следующего уровня их перечень. В большинстве случаев на этом уровне также существует возможность уточнить запрос и выйти на ограниченное множество сайтов. Так, выбрав в рубрике “Биология” подрубрику “Общая биология”, мы получили сведения о 44 сайтах, в основном, это сайты институтов Академии наук и ВУЗов, есть сайты, посвященные определенным проблемам и задачам. Например, сайт “Практическая молекулярная биология”, на котором помещено описание молекулярно-биологических методик, сведения о приготовлении и прописях растворов.

Поисковая система Rambler является первой российской профессиональной поисковой системой, действующей с 1996 года. В 1997 году появляется Rambler's Top100 – уникальный рейтинг-классификатор, который не только оценивает на основе объективных данных популярность российских ресурсов, но и позволяет одним "кликом" перейти к ним. Возникновение такого универсального счетчика, способного направлять аудиторию на разные ресурсы, создало в российском Интернете активную, динамичную конкурентную среду. Веб-мастера стали более тщательно и вдумчиво работать над своими сайтами, стремясь занять в Топ100 более высокие строчки. Хороший рейтинг дает дополнительные преимущества – быстрый рост аудитории. Названия рубрик этого каталога-счетчика могут быть представлены в алфавитном порядке или сгруппированными по категориям.

Запущенная в 2003 году новая версия поисковой машины отличается значительно увеличенной скоростью поиска; а также тем, что, благодаря новой архитектуре системы, обновление поискового индекса происходит несколько раз в день. Кроме того, пользователям поисковой системы Rambler предоставлен новый механизм ассоциаций. Набрав в поисковой строке нужное слово, следует кликнуть на окно "найти", после чего открывается страница, в которой найденные документы расположены в порядке убывания релевантности (соответствия запросу). На этой же странице в самом низу есть строка "У нас также ищут". В ней приведено несколько слов и словосочетаний, тематически (ассоциативно) связанных с исходным запросом пользователя. Практически это – предоставление информационно-поискового квазитезауруса.

Для составления сложных запросов пользователь может использовать режим "Детальный запрос", который предоставляет широкие возможности для составления поискового предписания с помощью пунктов меню.

На главной странице системы Рамблер представлен алфавитный каталог, режима Ramblers Top 100, содержащий 54 предметные рубрики; которые могут быть сгруппированы в 10 категорий. Использование этого режима не предусматривает предоставления подробных описаний сайтов, соответствующих запросу пользователя; система дает перечень названий сайтов, который может быть отсортирован по количеству хостов, посетителей, хитов. О каждом сайте можно получить следующую информацию:

-адрес (страница/сервер);

-идентификатор в Ramblers Top 100;

-дата регистрации;

-дата последнего обращения;

-количество уникальных хостов сегодня;

-количество посетителей сегодня;

-количество показанных страниц сегодня.

Результатом тематического поиска средствами Рамблер является перечень соответствующих запросу ресурсов, о каждом из которых предоставляется следующая информация: название ресурса, фрагмент текста, содержащий слова запроса, или перечень сервисных блоков сайта, идентификатор ресурса, его адрес в Интернете, дата регистрации, название рубрики.

В каталоге есть рубрика “Наука и техника”, подрубриками которой названы “Наука”, “Образование”, “Техника”, “Электроника”. Обращение к подрубрике “Наука” производит отбор сайтов, отнесенных к ней; на день анализа подрубрика содержала 500 сайтов. Отнесенные к этой рубрике сайты весьма различны не только по отраслям науки, но и по самому научному статусу: от сайтов институтов Академии наук РАН, электронных библиотек, научных и научно-популярных журналов до сайтов по оккультизму; причем, большинство сайтов практически не содержат крупных научных информационных ресурсов.

Система Google представляет собой локализованный российский вариант глобальной поисковой системы. Главный каталог системы представлен на английском языке, а каталог для поиска в российской зоне Интернета – на русском. Режим “расширенного поиска” предоставляет пользователю при составлении поискового предписания форму, в которой можно задать условия поиска, используя различные типы метаданных (тема, автор, язык, дата, идентификатор сообщения, свободные или заданные последовательности слов и т.д.), что способствует повышению точности поиска.

Google является лучшей поисковой системой для поиска иллюстраций.

Система “Апорт!”, разработанная во второй половине 1990-х годов, к настоящему времени, возможно, несколько устарела, однако сохраняют ценность некоторые характеристики, в числе которых подсистема выдачи результатов: искомые слова показываются в контексте документа, что позволяет сразу же определить степень соответствия источника интересу пользователя. Система осуществляет  информационный поиск с учетом русской морфологии. Уточнение поиска возможно с использованием по разделам каталога и серверам. Каталог системы, особенно в его части “Наука и образование”, на наш взгляд, хорошо структурирован, и поиск по нему может быть полезен научным работникам и специалистам. Проведенный нами поиск по каталогу “Апорт” с использованием рубрики “Научно-техническая информация” дал более точный результат по сравнению с поиском средствами системы “Яндекс”.

В системе “Апорт!” имеются специальные режимы для поиска иллюстраций и аудио файлов. Стоит иметь ввиду, что "Апорт!" не ограничивает сферу деятельности только российскими или русскоязычными ресурсами: в его базе отражено большое число документов с зарубежных серверов. В "Апорт!" также включен справочник ресурсов Интернет.

Система Mail.Ru – первая рунетовская поисковая система, не индексирующая информационные ресурсы в Интернет самостоятельно, а покупающая результаты индексирования на стороне. Каталог системы содержит рубрику “Наука и образование”, обращение к ней переводит пользователя к следующему уровню, в котором есть возможность выделить естественные и общественные науки, однако в нем отсутствуют технические науки, и вообще этот каталог значительно проигрывает по сравнению с возможностями каталога системы “Апорт!”. При этом лексический поиск средствами Мэйл обеспечивает достаточно высокие результаты.

Поисковая система Лупа (www.lupa.ru ) демонстрирует весьма скромные показатели по сравнению с лидерами поискового сервиса, однако может быть полезна при поиске редких материалов. В разделе “Наука и образование” есть рубрика “Научные издания и публикации”, которая, в свою очередь, имеет раздел “Научные отчеты, статьи, публикации”. К сожалению, наряду с интересными сайтами и публикациями на них, система выдает вполне “винегретное” по тематике и степени научности множество сайтов, от статей Понтекорво об элементарных частицах до сайта по сатанизму.

В Интернет-справочнике Weblist отражаются не только российские серверы, но также и сайты ближнего зарубежья. Источники проаннотированы. Рубрика “Наука”, на наш взгляд, не является в настоящее время достаточно развитой.

Каталог ресурсов Улитка (http://www.ulitka.ru/)в настоящее время насчитывает более 35.000 ссылок. Пополняется регулярно, но не слишком оперативно. Следует отметить, что рубрика каталога “Наука, техника, производство” отбирает из массива около 5000 сайтов, которые можно отсортировать по алфавиту, дате занесения в каталог или количеству посещений. Такая возможность отнюдь не улучшает поисковые качества, так как пользователю выдается слишком большой не организованный по содержанию массив наименований сайтов, отнесенных к данной рубрике. Вряд ли этот каталог может быть удобен для поиска научных информационных ресурсов.

Многоязычный поисковый каталог MavicaNET. Интернет непрерывно растет, он включает огромное количество научных ИР на разных языках и становится все более доступным специалистам из разных стран. Цель данного каталога, размещенного по адресу http://www.mavicanet.ru/directory/rus/, - помочь пользователям Интернета из разных, прежде всего европейских, стран в поиске нужной информации на родном языке, в том числе научной направленности. Редакторы в каталоге MavicaNET работают на добровольной основе, для этого достаточно выбрать представляющие интерес категории (разделы) каталога и зарегистрироваться в системе. После регистрации редактор имеет право добавлять новые описания ИР и перемещать старые в структуре каталога. Однако деятельность добровольного редактора контролируется персоналом каталога MavicaNET.

Текущие параметры каталога: ссылок на ИР – 371990, категорий – 31016, поддерживаемые языки – 28 (прежде всего основные европейские языки, включая русский). Что значит – каталог MavicaNET поддерживает несколько языков? Это означает, что интерфейс каталога, названия управляющих элементов, названия категорий и описания ИР переведены на соответствующий язык. Язык просмотра каталога MavicaNET можно переключить на любой странице, чтобы все время работы с каталогом находиться в родной языковой среде. Содержимое ИР не переводится, их первоначальный язык сохранен.

Пользовательский интерфейс каталога MavicaNET очень удобен. Реализован контекстный поиск по содержимому ИР с учетом выбранного языка. В каталоге работают фильтры для детализации поиска и различные виды сортировки в категориях, однако процедура поиска путем навигации по категориям каталога несколько необычна. Это объясняется тем, что структура каталога MavicaNET – направленный граф со сросшимися ветвями. В результате, у одной дочерней категории может быть несколько родительских категорий. Поэтому к одной категории может вести несколько путей, которые показываются при навигации. Например, к ИР геологической разведки ведут два пути: 1) Культура->Наука->Науки о Земле->Геология->Геологическая разведка и 2) Культура->Наука->Науки о Земле->Геология->Ресурсы и ископаемые->Геологическая разведка. Категориями верхнего уровня являются: “Бизнес и экономика”, “Государство и право”, “Культура”, “Личная жизнь”, “Общество”, “По странам и регионам”, “Популярные темы”, “Природа” и “Техника и технологии”.

В настоящее время каталог MavicaNET реализован таким образом, что к большинству научных ИР путем навигации можно добраться только через категорию “Культура”. Что и вызывает недоумение в начале работы с каталогом, поскольку ожидалось появление научной категории на верхнем уровне. Да и предлагаемый состав дочерних научных категорий вызывает сильное желание поспорить. Вместе с тем, каталог MavicaNET является очень динамичной системой: его структура, объем наполнения, языковая поддержка  постоянно меняются и со временем он может стать достаточно популярным поисковым сервисом в национальных научных сообществах.

2.2. Некоторые региональные Интернет-каталоги и системы

Каталог УралWeb – каталог Интернет-ресурсов Большого Урала (Свердловская, Пермская, Челябинская, Оренбургская, Тюменская, Курганская области, Башкортостан, Удмуртия, республика Коми). Классический региональный каталог, отражающий сайты, располагающиеся в Уральском регионе или тематически с ним связанные. Имеется система удаления устаревших ссылок. Постоянно актуализируется. Имеет сравнительно хорошо структурированную рубрику "Наука и образование".

В Каталоге ресурсов Интернет в Сибири (http://intersib.ab.ru/) отражаются сайты, физически расположенные в Сибирском регионе. Описания снабжены аннотациями и указанием количества обращений к конкретному источнику. Возможен непосредственный поиск по ключевым словам с использованием для уточнения запроса перечня категорий. Имеется рубрика “Наука” представлены в приложениях. Отдельные сайты, отнесенные к этой рубрике, могут представлять интерес, однако вряд ли этот каталог имеет большую значимость для регулярного поиска научной информации, так как многие даже известные и доступные через универсальные каталоги сибирские научные сайты здесь недоступны.

Пермский поиск (http://search.perm.ru )- поисковая система, обеспечивающая учет документов, расположенных на серверах Пермской области. Каталог системы содержит рубрику “Наука и образование, в которой пользователь получает информацию справочного характера о серверах учреждений сферы образования и учебных заведениях.

Каталог Самарских Интернет-ресурсов (http://samaraweb.ru/) отражает сайты Самары и самарской области. Каталог имеет хорошую структуру и вполне качественно выполненные аннотации. В рубрике “Наука и образование” есть раздел “Научная информация”, к которому отнесены сайты, содержащие научную и околонаучную информацию. Во всяком случае, по сравнению с другими региональными сайтами наполнение этого раздела выглядит значительно интереснее.

Каталог ресурсов Интернет Тверского региона содержит сайты, расположенные в Тверской области. Учитываются только отдельные самостоятельные сайты, поэтому объем каталога еще не велик, однако рубрика "Наука и образование" уже сейчас охватывает сайты всех научных и образовательных учреждений и ассоциаций Твери. Аннотации отсутствуют. Возможен поиск по ключевым словам.

 

Рассмотренные в разделе 2 системы, справочники, каталоги, оперирующие с Интернет-ресурсами позволяют заключить, что выполняемая каталогизация ресурсов осуществляется либо путем индексирования Интернет-ресурсов, либо путем перечисления ресурсов. Описание ресурсов осуществляется на самом упрощенном уровне, обычно это – наименование ресурса, его URL, краткое содержание или характеристика ресурса, кодировка. В ряде случаев такой информации бывает достаточно, однако для описания научных ресурсов, очевидно, следует использовать более совершенные методы каталогизации с применением специальных систем метаданных.

 

Специализированные научные сайты и порталы, их поисковые и иные сервисные возможности

В настоящее время в сети Интернет имеется большое количество сайтов (и порталов), содержащих Web-сервисы для проведения фундаментальных научных исследований. Это прежде всего, сайты научных издательств; сайты научных библиотек; сайты научных обществ и организаций, представляющих информацию о своей научной деятельности; сайты (указатели, каталоги, поисковые машины), помогающие научной общественности найти необходимые информационные ресурсы и Web-сервисы.

Сайты, предназначенные для научных целей, характеризуются широким спектром разнообразия, однако определить состав типового сайта можно. Он, скорей всего, будет включать следующие основные разделы:

НОВОСТИ и ОБЪЯВЛЕНИЯ;

БАЗЫ ДАННЫХ (например, база данных, содержащая основные результаты исследований; библиографическая или полнотекстовая база данных по публикациям и учебникам в рассматриваемой области научных исследований);

ФОРУМ для организации и проведения тематических электронных конференций;

НОВЫЕ ЭЛЕКТРОННЫЕ ПУБЛИКАЦИИ для размещения электронных материалов по результатам новых исследований (данный раздел может формироваться на основе свободного доступа);

ССЫЛКИ на информационные ресурсы и Web-сервисы по рассматриваемой научной дисциплине.

Кроме того, типовой сайт по фундаментальной научной дисциплине может включать и дополнительные разделы:

ПОИСК по тематике (поисковый запрос и результаты поиска в виде ссылок на ресурсы могут поступать по e-mail);

ПОДПИСКА и РАССЫЛКА УВЕДОМЛЕНИЙ (например, при поступлении новых электронных публикаций);

ЭНЦИКЛОПЕДИИ, ЭЛЕКТРОННЫЕ СПРАВОЧНИКИ и СЛОВАРИ по тематике.

Отметим, что наименования разделов и доступных на сайте сервисов вполне логично рассматривать как специальные метаданные, характеризующие содержание и функциональные возможности связанных с этим сайтом информационных ресурсов.

Структура данных научной информации также отличается разнообразием: кроме обычных текстов, активно создается и распространяется научная информация в виде графики, ГИС, анимации, 3D-представлений, аудио, различных интерактивных систем и др.

3.1. Некоторые примеры ведущих научных информационных сайтов

Если проанализировать состав типового сайта, то можно сделать вывод, что основными Web-сервисами фундаментальной науки, в настоящее время, являются ИНФОРМАЦИОННЫЕ УСЛУГИ, включающие и поисковый сервис по конкретной тематике (поиск персоналий, организаций, публикаций), и аналитический сервис на основе собранных статистических данных. Большинство информационных услуг для научных целей предоставляется в свободном доступе.

В качестве примера сайта фундаментальной науки можно рассматривать сайт ЦДФЭ НИИЯФ МГУ (http://depni.sinp.msu.ru/cdfe/), на котором представлены такие Web-сервисы как:

База данных (БД) по ядерной спектроскопии NESSY;

БД по ядерным реакциям EXFOR;

Справочник параметров основных состояний атомных ядер;

Поиск публикаций по ядерной физике в библиотеке NSR Национального центра ядерных данных США (Брукхэвенская национальная лаборатория);

Каталог (указатель) фотоядерных данных с 1995 г.;

Справочник параметров гигантского дипольного резонанса, сечения фотоядерных реакций;

Справочник порогов основных фотоядерных реакций;

Каталог сечений реакций под действием заряженных частиц (разработчик ЦАЯД РНЦ “Курчатовский институт”);

Калькулятор порогов и энергий ядерных реакций;

Справочник вероятностей внутренней конверсии изомерных переходов малой энергии;

Коллекция публикаций сотрудников ЦДФЭ;

Коллекция ссылок на другие сайты и Web-сервисы ядерной физики (например, Los Alamos National Laboratory Nuclear Data Viewer).

 

Примером мощной и качественной базы электронных публикаций по различным разделам математики, физики, биологии и вычислительной техники является архив, размещенный на сайте http://arxiv.org. Сопровождают сайт и отбирают публикации для размещения в архиве сотрудники Cornell University (США). Архив имеет хорошую репутацию у специалистов, которые постоянно пополняют архив новыми публикациями. Публикации в архиве ищутся по наименованию, дате, авторам, тематике и находятся в открытом доступе. Аналогичный сервис организован Казанским государственным университетом в виде электронного журнала Lobachevskii Journal of Mathematics. Журнал работает с 1997 г. и доступен по адресу http://ljm.ksu.ru. В журнал принимаются статьи по математике, включая алгебру, геометрию, математический анализ, теорию вероятностей, математическое моделирование. Полнотекстовые версии принятых статей доступны в стандартных для математического сообщества форматах (.dvi, .ps, .pdf).

На сайте Научной электронной библиотеки (НЭБ, http://elibrary.ru/defaultx.asp) предоставлен доступ к огромной коллекции научных информационных ресурсов (условия доступа для читателей и организаций изложены на сайте):

Полнотекстовые электронные версии журналов издательства ELSEVIER SCIENCE по всем направлениям фундаментальной науки (всего 475 наименований);

Полнотекстовые электронные версии журналов издательств KLUWER ACADEMIC PUBLISHER (всего 750 наименований), SPRINGER (452), BLACKWELL (642), ROYAL SOCIETY OF CHEMISTRY (29), INSTITUTE OF PHYSICS (42), ACADEMIC PRESS (175), WORLD SCIENTIIC PUBLISHING (57);

База данных научного цитирования Института научной информации США Science Citation Index Expanded;

Электронные журналы крупнейшего мирового информационного провайдера – американской компании EBSCO (1166 наименований);

Библиографическая база данных Dissertation Abstracts американской компании ProQuest, в которой представлены диссертации авторов из более 1000 учебных заведений и университетов (начиная с 1861 по настоящее время);

Библиографические базы публикаций по медицине MEDLINE, AIDSLINE, CANCERLIT, EMBASE ALERT;

Библиографическая база публикаций по математике Zentalblatt MATH;

Полнотекстовые электронные версии научных журналов, издаваемых ИНИОН РАН (всего 24 наименований);

База данных научных отчетов, подготовленных по результатам выполнения проектов, финансируемых РФФИ (содержит более 18000 отчетов, начиная с 1994 года);

Полнотекстовые электронные версии российских научных журналов (всего 21 наименование).

На странице НЭБ, http://elibrary.ru/stat_global.asp, доступна статистика библиотеки: по представленным в ней информационным ресурсам, по читателям, по использованию ресурсов, персональная статистика для организации, для издательств, для участников проекта НЭБ. Анализ этой статистики позволяет определить наиболее востребованные научные публикации, журналы и издательства, спрогнозировать будущий спрос на ИР по научным направлениям и т.д. В какой-то мере эволюция научных электронных библиотек показывает, что, формируя полную и достоверную базу данных некоторой области научной деятельности и развивая аналитический сервис, разработчики могут в перспективе предложить полноценные системы поддержки принятия решений в этой области.

В настоящее время в опытную эксплуатацию запущен библиографический каталог БИТ (Библиография по Информационным Технологиям) научных публикаций с индексами цитирования, ориентированный на русскоязычную научную периодику [20]. Каталог БИТ включает в себя публикации научных журналов “Программирование” (ретроспектива с 1997 г. по 2003 г.) и “Вычислительные методы и программирование” (с 2000 г. по 2002 г.), труды конференций “Научный сервис в сети Интернат” и “Высокопроизводительные вычисления и их приложения”. Предполагается, что на основе данного сервиса можно определить наиболее авторитетные публикации по вычислительным и информационным технологиям. Данный Web-сервис свободно доступен по адресу http://bit.csu.ac.ru.

На сайте http://www.scirus.com находится поисковая машина SCIRUS