Общая информация

Поисковая система это:

1) Онлайн сервис, предоставляющий возможность поиска информации на сайтах в интернете, а также (иногда) в новостных гртуппах и ftp-серверах.

2) (англ. search engine, синомимы: поисковой сервер, поисковая система) - инструмент для поиска информации в сети интернет. Работа поисковика состоит из двух этапов: индексации и поиска в индексе, с выдачей результатов поиска пользователю.

3) система, предназначенная для поиска и доставки информации. Сделана с целью каталогизации данных. Обычно использует индексацию страниц, чтобы в дальнейшем было легко находить обработанную информацию.

4) специальный сайт, на котором по заданному запросу можно получить информацию о ресурсах в интернете, соответствующих данному запросу.

Информационный поиск

Поиск информации представляет собой процесс выявления в некотором множестве страниц (документов), которые посвящены указанной теме, удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (подходящие информационной потребности) факты, сведения, данные.

Поиск включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.

4 этапа поиска:

1) определение нформационной потребности и формулировка информационного запроса;
2) определение совокупности возможных источников;
3) извлечение информации из выявленных информационных массивов;
4) ознакомление с резальтатами поиска и их оценка.

Виды поиска

Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.webalta.ru. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

Поиск по метаданным — это поиск по нескольким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).

Поиск как наука

Информационный поиск — большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела.

ИП рассматривает поиск информации в документах, поиск самих документов, извлечению метаданных из документов, поиску текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.

Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.

В настоящее время ИП — это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет. ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является TREC, организованной в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.

Говоря о системах ИП, употребляют термины запрос и объект запроса.

Запрос — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.

Объект запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат.

Центральная задача ИП — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.