3.24. Можливості інформаційно-пошукових систем
1. Пошук за словом, усіканнями і словоформами
Усі пошукові системи забезпечують пошук хоча б по одному слову. Засоби навігації в Інтернеті, що не забезпечують
такого пошуку, називаються інакше — каталогами, колекціями посилань і т. п. Інакше справа стоїть з усіканнями слів. Наприклад, система InfoSeek розглядає всі слова запиту як праві усікання. У деяких відомих системах можливість пошуку за усіканням просто не реалізована (наприклад, Lycos). Однак у більшості систем (наприклад, AltaVista, Rambler) для маскування правого усікання слова досить поставити символ «*».
Пошук за словоформами є результатом серйозного лінгвістичного аналізу і реалізований, наприклад, у двох російськомовних системах «Апорт» і Яндекс. У системі «Апорт» граматична форма слова в запиті особливого значення не має — воно зберігається в базі даних у всіх своїх формах. У цій системі запит «ребенок шел» еквівалентно запитові «дети идут».
2. Пошук по фрагментах тексту (строгим словосполученням)
Багато систем здатні реалізовувати контекстний пошук, укладеної в лапках фрази (наприклад, AltaVista, Lycos, InfoSeek і ін.). Така здатність — це реалізація неявно зазначених за допомогою лапок операторів контекстної близькості.
3. Використання логічних операторів
Для введення запитів зі складною логікою, як правило, потрібне використання булевих і контекстних операторів, дужок, і т. п. Для більшості випадків (до 75% як було вже сказано) цього не потрібно. Тому в деякіх інформаційно-по-шукових системах створено по два пошукових інтерфейси — простий (за замовчуванням) і розширений (який називається у різних системах детальним, могутнім або професійним). Цим шляхом пішли, наприклад, AltaVista, Lycos, InfoSeek, Rambler. В усіх розглянутих системах реалізовані булеві операції AND, OR і NOT, а також робота з дужками. Однак у двох з них — AlLaVista і Excite — оператор -NOT записується у вигляді «AND NOT», у такий спосіб підкреслюється його бінарність (у математичній логіці оператор NOT у чистому вигляді унарний і не може відноситися до двох операндів).
4. Використання операторів контекстної близькості
Більшість професійних пошукових систем забезпечує виконання операцій контекстної близькості. Наприклад, у системі Lycos функції контекстної близькості одержали найбільший розвиток і реалізовані за допомогою чотирьох операторів: ADJ, NEAR, FAR, BEFORE.
ADJ забезпечує близькість двох слів у тексті в будь-якому
порядку.
NEAR дозволяє знаходити документи, у яких слова-опе-ранди віддалені не більше ніж на 25 слів.
FAR — оператор, протилежний за змістом операторові NEAR, він виключає близькість термінів запиту в межах 25 слів тексту документа.
BEFORE — схожий на оператор ADJ, тільки з урахуванням порядку розташування термінів у тексті.
Наприклад, оригінальне вирішене питання контекстної близькості в інформаційно-пошуковій системі Rambler. За бажання мінімізувати відстань між пошуковими термінами, використовується службове слово «$пеаг:», за яким розташовані два операнда — значення самих слів. У системі «Апорт» інтелектуальній обробці піддаються словосполучення в лапках. Наприклад, запит «яблука на снігу» еквівалентний запитам «яблука і сніг», «яблука під снігом», «яблуко-сніг».
5. Пошук по полях
Окремого розгляду заслуговує можливість пошуку по полях, що найчастіше дозволяє обмежувати діапазон пошуку значеннями URL, датами, заголовками і т. п.
Наприклад, у системі AltaVista забезпечується пошук по датах за допомогою операторів «From:» і «То:». Цей режим названий «Веб-археологією». Система InfoSeek забезпечує пошук по посиланням у HTML-документах («link:»), у межах сайтів («site:»), no URL («url:»), по заголовкам документів («title:») і міткам, приписуваним зображенням («alt:»). Система Rambler реалізує пошук, як по всьому документі («$ALL»), так і по URL («$URL»), заголовкам («$Title»), адресам («$Address») і ін. Hndex дозволяє шукати в двох зонах — заголовках («Title») і посиланнях. Апорт забезпечує пошук по URL, датам, заголовкам, ключовим словам, міткам до зображень, посиланням, коментарям, текстам.
6. Пошук схожих документів
Одна з можливостей, яка властива багатьом сучасним системам, є здатність пошуку документів, схожих на вже знайдені документи. Вона називається «позитивним зворотним зв'язком». Що означає «схожий документ», за якими критеріями це визначається, найчастіше залишається загадкою для користувача. Один з підходів до її вирішення може бути таким: кожне значиме, на думку системи, слово «зважується» за якимось критерієм, з найбільш вагомих слів автоматично формується запит, що розглядається як деякий ранговий критерій пошуку. Такий режим реалізований, наприклад, в інформаційно-пошукових системах Excite («More Like This») і Япсіех («Найти похожие документы»). Цей режим реалізований у системах, що використовують «вагові» критерії релевантності.