Бібліотека Букліб працює за підтримки агентства Magistr.ua

3.24. Можливості інформаційно-пошукових систем

1. Пошук за словом, усіканнями і словоформами

Усі пошукові системи забезпечують пошук хоча б по од­ному слову. Засоби навігації в Інтернеті, що не забезпечують

такого пошуку, називаються інакше — каталогами, ко­лекціями посилань і т. п. Інакше справа стоїть з усіканнями слів. Наприклад, система InfoSeek розглядає всі слова запи­ту як праві усікання. У деяких відомих системах можливість пошуку за усіканням просто не реалізована (наприклад, Lycos). Однак у більшості систем (наприклад, AltaVista, Rambler) для маскування правого усікання слова досить по­ставити символ «*».

Пошук за словоформами є результатом серйозного лінгві­стичного аналізу і реалізований, наприклад, у двох російськомовних системах «Апорт» і Яндекс. У системі «Апорт» граматична форма слова в запиті особливого значен­ня не має — воно зберігається в базі даних у всіх своїх фор­мах. У цій системі запит «ребенок шел» еквівалентно запи­тові «дети идут».

2. Пошук по фрагментах тексту (строгим словосполученням)

Багато систем здатні реалізовувати контекстний пошук, укладеної в лапках фрази (наприклад, AltaVista, Lycos, InfoSeek і ін.). Така здатність — це реалізація неявно зазначе­них за допомогою лапок операторів контекстної близькості.

3. Використання логічних операторів

Для введення запитів зі складною логікою, як правило, потрібне використання булевих і контекстних операторів, дужок, і т. п. Для більшості випадків (до 75% як було вже сказано) цього не потрібно. Тому в деякіх інформаційно-по-шукових системах створено по два пошукових інтерфейси — простий (за замовчуванням) і розширений (який називається у різних системах детальним, могутнім або професійним). Цим шляхом пішли, наприклад, AltaVista, Lycos, InfoSeek, Rambler. В усіх розглянутих системах реалізовані булеві опе­рації AND, OR і NOT, а також робота з дужками. Однак у двох з них — AlLaVista і Excite — оператор -NOT записується у вигляді «AND NOT», у такий спосіб підкреслюється його бінарність (у математичній логіці оператор NOT у чистому вигляді унарний і не може відноситися до двох операндів).

4. Використання операторів контекстної близькості

Більшість професійних пошукових систем забезпечує ви­конання операцій контекстної близькості. Наприклад, у сис­темі Lycos функції контекстної близькості одержали найбільший розвиток і реалізовані за допомогою чотирьох операторів: ADJ, NEAR, FAR, BEFORE.

ADJ забезпечує близькість двох слів у тексті в будь-якому

порядку.

NEAR дозволяє знаходити документи, у яких слова-опе-ранди віддалені не більше ніж на 25 слів.

FAR — оператор, протилежний за змістом операторові NEAR, він виключає близькість термінів запиту в межах 25 слів тексту документа.

BEFORE — схожий на оператор ADJ, тільки з урахуван­ням порядку розташування термінів у тексті.

Наприклад, оригінальне вирішене питання контекстної близькості в інформаційно-пошуковій системі Rambler. За ба­жання мінімізувати відстань між пошуковими термінами, використовується службове слово «$пеаг:», за яким розташо­вані два операнда — значення самих слів. У системі «Апорт» інтелектуальній обробці піддаються словосполучення в лап­ках. Наприклад, запит «яблука на снігу» еквівалентний за­питам «яблука і сніг», «яблука під снігом», «яблуко-сніг».

5. Пошук по полях

Окремого розгляду заслуговує можливість пошуку по по­лях, що найчастіше дозволяє обмежувати діапазон пошуку значеннями URL, датами, заголовками і т. п.

Наприклад, у системі AltaVista забезпечується пошук по датах за допомогою операторів «From:» і «То:». Цей режим названий «Веб-археологією». Система InfoSeek забезпечує пошук по посиланням у HTML-документах («link:»), у межах сайтів («site:»), no URL («url:»), по заголовкам документів («title:») і міткам, приписуваним зображенням («alt:»). Сис­тема Rambler реалізує пошук, як по всьому документі («$ALL»), так і по URL («$URL»), заголовкам («$Title»), ад­ресам («$Address») і ін. Hndex дозволяє шукати в двох зо­нах — заголовках («Title») і посиланнях. Апорт забезпечує пошук по URL, датам, заголовкам, ключовим словам, міткам до зображень, посиланням, коментарям, текстам.

6. Пошук схожих документів

Одна з можливостей, яка властива багатьом сучасним си­стемам, є здатність пошуку документів, схожих на вже знай­дені документи. Вона називається «позитивним зворотним зв'язком». Що означає «схожий документ», за якими кри­теріями це визначається, найчастіше залишається загадкою для користувача. Один з підходів до її вирішення може бути таким: кожне значиме, на думку системи, слово «зва­жується» за якимось критерієм, з найбільш вагомих слів ав­томатично формується запит, що розглядається як деякий ранговий критерій пошуку. Такий режим реалізований, на­приклад, в інформаційно-пошукових системах Excite («More Like This») і Япсіех («Найти похожие документы»). Цей ре­жим реалізований у системах, що використовують «вагові» критерії релевантності.

Magistr.ua
Дізнайся вартість написання своєї роботи
Кількість сторінок:
-
+
Термін виконання:
-
днів
+