Интеллектуальные системы поиска по электронным библиотечным ресурсам
В библиотеках хранятся огромные объемы информации различных форматов и на различных носителях. Поиск по такому разнообразию материалов часто требует участия специалиста. Поиск требуемых материалов усложняется еще больше, если пользователь затрудняется сформировать четкий запрос, а лишь обрисовывает тематику.
Традиционно библиотеки предоставляют возможность поиска по электронному каталогу и подписным электронным ресурсам. В единичных случаях предоставляется доступ к оцифрованным электронным фондам, не попадающим под ограничения авторского права. Сложность поиска информации заключается в том, что для каждого электронного ресурса существует своя поисковая система.
Корпорация ЭЛАР предлагает решение «Интеллектуальная система поиска», которое обеспечит быстрый и эффективный поиск информации поиск по всему многообразию материалов – как традиционным способом (по классификаторам, рубрикаторам и атрибутам), так и с использованием аналитических инструментов.
Интеллектуальная система поиска, реализованная на основе специализированного программного обеспечения «Индекс», обеспечивает повышение удовлетворенности пользователей (читателей библиотеки) за счет:
- полноты охвата библиотечного контента
Поиск осуществляется по всем электронным ресурсам – каталогам, оцифрованным фондам, полнотекстовым коллекциям, медиа-ресурсам, электронным подпискам, диссертациям, а также по описаниям, аннотациям и другому электронному контенту. - полного набора поисковых инструментов
Широкие возможности для поиска информации: по классификаторам и рубрикаторам, атрибутам библиографического описания, по терминологическим словарям, с использованием логических операторов, контекстный поиск, неструктурированный поиск, автозаполнение запросов и другие возможности. - многоуровневой системы фильтров и аналитических инструментов поиска
Интерактивное сужение поиска с помощью многоуровневой системы фильтрации, в том числе с использованием графических фильтров. Анализ запросов (семантический, морфологический, таксономический, кластерный и др.) для предоставления адекватного результата. - предоставления искомой информации с ограничением доступа к контенту в соответствии с правами пользователей
Результат предоставляется в виде документов с возможностью просмотра, если на них не распространяются ограничения авторского права, или в виде цитат с искомой информацией и указанием источника, если доступ к документам ограничен. - интеграции системы в структуру web-портала
Система интеллектуального поиска может быть встроена в web-портал библиотеки, обеспечивая возможность удаленной работы.
Схема решения
Описание модулей решения и принцип работы интеллектуальной системы поиска.
Интеллектуальная система на основе ПО «Индекс» реализует поиск по электронным ресурсам библиотеки: библиографические данные из АБИС, полнотекстовые электронные коллекции, оцифрованные фонды, фотоальбомы и другие материалы.
Для того, чтобы скорость отработки поискового запроса была минимальной, осуществляется предварительный сбор и анализ информации (текстов, метаданных и др.) - полнотекстовое индексирование.
Сбор информации из различных источников осуществляется благодаря интеграции с информационными системами (АБИС, Электронная библиотека) или за счет использования коннекторов (например, файловые репозитории – полнотекстовые коллекции, видеоматериалы и т.п.). Для каждого источника информации используется свой коннектор, который настраивается в соответствии с задачами библиотеки: какую информацию получать, где она находится, с какой периодичностью отслеживать появление новых данных и другие параметры.
Вся полученная информация проходит обработку, которая включает в себя извлечение текстов и метаданных из файлов различного формата, включая изображения, определение языка и кодировки, преобразование стандартизованных данных в единый формат. Анализ текста предусматривает определение словоформ, частей речи и взаимосвязей слов в предложении, выявление различных сущностей в тексте (имен, географических названий, названий организаций), и даже анализ эмоциональной окраски текста.
Результаты обработки информации помещаются в поисковый индекс, который содержит тексты документов, исходные метаданные документов, связанную информацию, полученную на этапе анализа. Ядром поискового индекса является инвертированный список – отсортированный перечень всех слов, встречающихся в документах, где для каждого слова указаны документы, в которых оно [слово] встречается. Благодаря этому списку осуществляется оперативный поиск информации.
Сама система устанавливается и настраивается на сервере библиотеки. Часть операций администрирования требуется выполнять непосредственно на сервере, но большинство настроек может быть установлено через браузер.
Работа пользователей также осуществляется через браузер. При подключении к интеллектуальной системе поиска требуется авторизация пользователей через логин и пароль, назначенный или наследуемый из внутренних систем библиотеки. Например, для читателей может использоваться электронный читательский билет, для сотрудников библиотеки – рабочая учетная запись.
Служба разграничения прав доступа осуществляет контроль над правомерным использованием ресурсов. Интеллектуальная система, как и большинство поисковых платформ, строится на наследовании прав доступа, принятых для источников информации (Active Directory, АБИС, Электронная библиотека и др.). В результате, пользователю доступна только та информация, право на чтение которой он имеет.
Интеллектуальная поисковая система использует различные методы поиска и их сочетания:
- Традиционный атрибутный поиск
Классический поиск по рубрикатору или атрибутам библиографического описания с использованием перекрестной фильтрации. - Поиск по терминологическим словарям
Позволяет сузить поиск по области знаний, или жанрам, или другой тематической направленности. - Контекстный поиск
Поиск осуществляется из единой строки по набору ключевых слов с учётом морфологических форм. Такой метод позволяет быстро найти информацию в тех случаях, когда пользователь владеет терминологией и имеет представление о том, что ищет. Ограничить диапазон поиска можно при использовании логических и контекстных операторов. - Нечеткий поиск
Данный метод позволяет найти информацию по запросам, введенным с опечатками или ошибками. Или по документам и данным, содержащим ошибки. Результат, корректируя ошибки в документах и данных, по которым осуществляется поиск. При нечетком поиске, как правило, используется автозаполнение запроса. - Семантический поиск
Наиболее удобный вариант в тех случаях, когда пользователь затрудняется сформулировать запрос. Поиск информации осуществляется по смысловому содержанию поискового запроса, с учетом многозначных слов, омонимов, синонимов и лингвистических связей между словами. В результате предоставляется информация, как содержащая слова из запроса, так и не имеющая совпадений с поисковой фразой. - Интеллектуальный анализ
Данный метод является дополнительным и представляет собой набор инструментов анализа, визуализации и интерактивного сужения поиска. Средства интеллектуального анализа позволяют определять закономерности и группировать результаты, проводить анализ и адаптацию поисковых запросов, отображать похожие материалы и т.д. для выявления данных в огромных объемах электронных ресурсов.
Преимущества решения:
- Высокий уровень информационно-библиотечного обслуживания читателей
- Интеграция системы с различными источниками информации: автоматизированные библиотечно-информационные системы, базы данных, электронные полнотекстовые коллекции, аудио- и видео-контент и др.
- Максимальный набор поисковых возможностей и аналитических инструментов
- Встраиваемость системы интеллектуального поиска в web-портал библиотеки