Бизнес в интернете - подписная база

Книга:

"Как создавать эффективную базу подписчиков и увеличивать ваши продажи и прибыль!"

Чтобы получить книгу, введите имя, e-mail и нажмите кнопку

Бизнес в интернете с нуля с Сергеем Тиссеным
Smart Redirector 3.0 систематизирует множество ваших ссылок в категории и делает перенаправление (редирект) на новый адрес в зависимости от задаваемых вами условий. И весь процесс интуитивно понятен.

Поисковые системы

Поисковые системы

11/02/2007  

Инструменты поиска

   Индексированные каталоги

   Тематические коллекции ссылок

   Подбор доменного имени

   Поисковики

   Как работает поисковик

   Построение индекса

   Поиск по индексу

   Метапоисковые системы

      ДИСКо Искатель

   Онлайновые энциклопедии и справочники

Будущее поисковиков

Практические рекомендации

Поисковая система Яндекс

В Интернете размещены миллионы сайтов, причем наряду с современной актуальной информацией имеется много устаревших ресурсов, немало мусора и недобросовестной рекламы — сайтов, которые рекламируют себя только для того, чтобы повысить собственный рейтинг. Каждый может разместить в Сети собственный ресурс и высказать свое мнение. В результате мало кто озабочен тем, чтобы избежать дублирования информации или следовать стандартам, принятым на сайте соседа.

Не зря бытует мнение, что в Сети есть все, но найти там что-либо практически невозможно. Впрочем, противоположная точка зрения, взятая на вооружение поисковиком Яндекс, гласит, что найти в Интернете можно все. Видимо, для того чтобы находить, нужно уметь искать. В настоящей статье представлен обзор инструментов поиска в сети Интернет, объясняется механизм работы поисковиков, даются практические рекомендации по оптимизации поиска.

Инструменты поиска

Для поиска в Интернете предназначены различные инструменты: поисковые машины (поисковики), индексированные каталоги (рубрикаторы), рейтинги и топы, метапоисковые системы и тематические списки ссылок, онлайновые энциклопедии и справочники. При этом для поиска разного рода информации наиболее эффективными оказываются различные инструменты. Рассмотрим каждую категорию по отдельности.

Индексированные каталоги

Каталог представляет собой данные, структурированные по темам в виде иерархических структур. Тематические разделы первого уровня определяют наиболее популярные, максимально широкие темы, такие как «спорт» «отдых», «наука», «магазины» и т.д. В каждом разделе есть подразделы. Таким образом, вы можете уточнять интересующую вас область, путешествуя по дереву каталога и постепенно сужая область поиска. Само дерево каталога позволяет составить представление об изучаемой теме. Дойдя до нужного подкаталога, вы находите в нем набор ссылок. Обычно в каталоге все ссылки являются профильными, поскольку составлением каталогов занимаются не программы, а люди. Очевидно, что если вы ищете общую информацию по некоторой широкой теме, то целесообразно обратиться к каталогу. Если же вам необходимо найти конкретный документ, то каталог окажется малоэффективным поисковым средством.

Существует огромное количество каталогов. Один из наиболее популярных каталогов в России — List.ru перекочевал на адрес http://mail.ru/. Помимо каталогов общего профиля в Сети достаточно много специализированных каталогов. Например, по адресу www.kinder.ru можно найти прекрасный каталог, посвященный детским ресурсам. В случае если внутри отдельной темы каталога находится огромное количество ресурсов, возникает проблема выбора. В некоторых каталогах имеется сортировка по популярности, например в каталоге поисковика Яндекс сортировка идет по индексу цитирования (http://www.yandex.ru/info/ci.html).

Помимо каталогов в Сети существуют рейтинги. От каталога рейтинг отличается тем, что в нем описание ресурсов делают непосредственно их владельцы, а в каталоге — авторы, то есть редакторы каталога.

Одним из наиболее популярных рейтингов является Rambler Top 100. Популярность ресурса оценивается по ряду параметров, основные из которых — так называемые хосты (количество уникальных посетителей в единицу времени) и хиты (количество заходов на сайт за определенный промежуток времени).

Тематические коллекции ссылок

Тематические коллекции ссылок — это списки, составленные группой профессионалов или коллекционерами-одиночками. Очень часто узкоспециализированная тема может быть раскрыта одним-единственным специалистом лучше, чем группой сотрудников крупного каталога. Тематических коллекций в Сети так много, что давать конкретные адреса не имеет смысла.

Подбор доменного имени

Каталог — удобная система поиска, однако если вам нужно попасть на сервер компании Intel или IBM, то вы вряд ли станете обращаться к каталогу. Угадать название соответствующего сайта нетрудно: www.intel.com, www.ibm.com или www.intel.ru, www.ibm.ru — сайты российских представительств этих компаний.

Если же вам необходим сайт, посвященный погоде в мире, его логично поискать на сервере www.weather.com. При этом в большинстве случаев найти сайт с ключевым словом в названии предпочтительнее, чем документ, в тексте которого это слово многократно используется. Сегодня даже мелкая компания может позволить себе содержание персонального сервера. Если такая компания (или коммерческий проект) имеет односложное название и реализует в Сети свой сервер, то его имя с большой долей вероятности укладывается в формат www.name.com, а для Рунета — www.name.ru, где name — имя компании или проекта. При поиске малоизвестной компании подбор адреса может успешно конкурировать с другими приемами поиска. Следует отметить, что при подобной системе поиска вы можете установить соединение с сервером, который не зарегистрирован ни в одной поисковой системе. Однако очевидно, что подобное угадывание не всегда успешно, и если вам не удается подобрать искомое имя, то придется обратиться к поисковой машине.

Поисковики

Прежде чем рассказать, как функционируют поисковики, следует ввести ряд терминов. Если бы компьютер был высокоинтеллектуальной системой, которой можно было бы легко объяснить, что вы ищете, то он выдавал бы вам два-три документа — именно те, которые вам нужны. Но это, к сожалению, не так, и в ответ на запрос вы обычно получаете длинный список документов, многие из которых не имеют никакого отношения к тому, о чем вы спрашивали. Такие документы называются нерелевантными (от англ. relevant — подходящий, относящийся к делу). Таким образом, релевантный документ — это документ, содержащий искомую информацию. Очевидно, что от умения грамотно делать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной документов называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантны (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска — 100%.

Таким образом, качество поиска определяется двумя параметрами: точностью и полнотой поиска. Стоит отметить, что они взаимозависимы, причем увеличение полноты снижает точность, и наоборот.

     

Поисковик Яндекс

Еще в 1990 году в компании CompTek началось создание поисковой технологии Яндекс. С самого начала она задумывалась для поиска именно по массивам русских текстов, то есть с учетом морфологии русского языка. Слово «Яндекс» и первые программы с этим названием появились еще в 1993 году, а поисковик Яндекс (www.yandex.ru) был открыт 23 сентября 1997 года на выставке SofТool.

Возможности поисковика Яндекс

Поиск слова

Система позволяет находить:

  • все формы слова для русского, английского, польского и других языков; в том числе все формы неизвестных Яндексу слов (отсутствующих в базовом словаре языка) при помощи автоматического моделирования их словоизменения;
  • только заданную точную словоформу;
  • только формы, производные от заданной формы.

Поиск нескольких слов

Поиск нескольких слов может происходить при:

  • задании произвольных «контекстных ограничений» — нужно искать документы, в которых заданные слова находятся на определенном расстоянии друг от друга либо на расстоянии, не большем или не меньшем данного. Расстояние может быть задано в словах или в предложениях. Интервал расстояний может быть отрицательным, точным, асимметричным (например, пять слов вперед, три слова назад). Контекстные ограничения могут быть либо заданы пользователем явно (что крайне редко встречается на практике), либо могут быть автоматически назначены Яндексом на основе синтаксического разбора;
  • гарантированном ранжировании устойчивых словосочетаний (точных цитат). При наличии в базе точной цитаты документы, содержащие ее, будут гарантированно выданы в начале списка;
  • ранжировании, основанном на принципе «поиска неточной цитаты». Точно найденным документом считается документ с полным набором слов в заданных контекстных границах. Он гарантированно ранжируется выше документов с неполным набором таких слов. При отсутствии в базе индекса точного соответствия запросу с учетом заданных контекстных ограничений предпринимаются попытки найти максимально похожее словосочетание с возможным пропуском одного самого незначащего слова, затем, если это не удается, допускается пропуск двух слов или одного, но более значимого и т.д.;
  • автоматическом синтаксическом разборе «естественных» фрагментов поискового запроса с целью переформулирования и смены (смягчения или расширения) неявно заданных контекстных ограничений. Это значит, что если задан запрос из трех и более слов, то он будет проанализирован и при удачном построении синтаксического дерева переформулирован в такой же, но с контекстными ограничениями, назначенными Яндексом на основе синтаксических связей. Иными словами, поисковик Яндекс вместо того, чтобы рассматривать слова запроса (не образующего в текстах точной цитаты и не встречающегося в пределах одного предложения) как независимые и искать в документе их где угодно, пытается одни слова искать рядом, а другие «не очень рядом». Приведем пример. Для этого поисковика запрос <продажа автомобилей Украина> отличается от запроса <продажа автомобили Украины>. В первом запросе точно найденным документом будет считаться тот, в котором слова «продажа» и «автомобиль» находятся рядом (скажем, в одном предложении), а слово «Украина» — далеко (где угодно в документе). Во втором запросе точно найденным документом будет считаться только такой, в котором слова «автомобиль» и «Украина» находятся достаточно близко. Поисковик Яндекс решает так потому, что фраза «автомобили Украины» синтаксически согласована. Таким образом, с точки зрения поисковика первый запрос нацелен на поиск украинских автомобильных дилеров, а второй — на поиск любых продавцов «таврий»;
  • эвристических переформулировках естественных запросов. Запросы, использующие вопросительные слова и ряд других типичных конструкций, переформулируются. Например, запрос <что такое кванзаа> превратится в запрос <кванзаа это> ИЛИ <кванзаа означает> ИЛИ ...;

Все вышеперечисленные особенности позволяют поисковику Яндексу с приемлемым качеством выполнять разнообразные запросы на естественном русском языке, даже с учетом «рваного», телеграфного стиля общения пользователей с поисковиком.

Поиск в социальной сети

Под поиском в социальной сети понимается учет внетекстовых критериев в поиске, ранжировании и индексировании:

  • взвешенный, тематический и иные виды индекса цитирования;
  • поиск по лексике ссылок на документ, в том числе по альтернативной лексике (словам, не употребляющимся в самом документе). Например, по слову «яндех» будет найден www.yandex.ru, хотя на сайте Яндекс слово «яндех» не употребляется. Этот метод применялся в Яндексе еще в 1990-1991 годах для патентных поисковых систем;
  • выявление и удаление из базы точных и неточных дубликатов;
  • выявление и удаление зеркал сайтов;
  • учет в ранжировании выбора пользователей после проведенного поиска;
  • многоязыковая поддержка (возможность автоматически распознавать язык и кодировку индексируемого документа).

Дополнительные поисковые возможности

К таким возможностям относятся следующие:

  • поиск похожего документа;
  • сортировка найденных документов по степени релевантности, а также по дате или по размеру, возможность влиять на порядок сортировки, используя операторы веса и уточнения запроса;
  • сортировка по любому внешнему целочисленному атрибуту (например, цена товара в Яндекс.Маркете и т.п.);
  • подсветка найденных слов в документе (возможность просмотреть найденный документ с выделенными ключевыми словами; пролистать документ к следующему или предыдущему найденному слову. Статистика найденных слов для каждого документа);
  • подсветка контекстов (возможность выделять слова, найденные в заголовках, на странице с результатами поиска; показывать отдельные предложения документа, содержащие найденные слова, на странице с результатами поиска);
  • поиск в любых поименованных частях текста документа (зонах). Например, можно искать в заголовках, текстах ссылок и т.д.;
  • поиск по «скрытым» свойствам документа (атрибутам). Возможность учитывать при поиске как атрибуты целого документа, заданные при индексировании, так и атрибуты отдельных частей документа. Например, можно искать документы с заданными ключевыми словами, в заданном каталоге или содержащие заданную картинку;
  • поиск в найденных документах (возможность искать документы, удовлетворяющие новому запросу, среди документов, полученных в результате предыдущего запроса).

 

Как работает поисковик

Поисковик состоит из двух частей: робота и поискового механизма. База робота в основном формируется им самим (робот сам находит ссылки на новые ресурсы) и в существенно меньшей степени — владельцами ресурсов, которые регистрируют свои сайты в поисковике. Помимо робота (паука, червяка), который обходит все предписанные серверы и формирует базу данных, существует программа, определяющая рейтинг найденных ссылок.

Принцип работы поисковика сводится к тому, что она опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности.

Следует отметить, что поисковик оперирует именно внутренними ресурсами (а не пускается в путешествие по Сети, как часто полагают неискушенные пользователи), а внутренние ресурсы, понятно, ограничены. Несмотря на то что база данных поисковика постоянно обновляется за счет опроса узловых адресов в Сети, внутренние ресурсы поисковика и ресурсы Сети несопоставимы, и поэтому вероятность того, что машина даст устаревший адрес или не найдет нужный ресурс, всегда больше нуля. При этом проблема состоит не только в ограниченности внутренних ресурсов, но и в том, что скорость робота поисковика ограничена. Увеличение внутренних ресурсов поисковика не решает проблемы в силу того, что скорость обхода конечна. При этом нельзя сказать, что поисковик внутри имеет копию определенной части исходных ресурсов Интернета, разложенных по каталогу. Полностью информация (исходные документы) хранится отнюдь не всегда, чаще хранится лишь ее часть — так называемый индексированный список (индекс), который гораздо компактнее текста документов.

Для построения индекса исходные данные преобразуются таким образом, чтобы объем базы был минимальным, а поиск осуществлялся очень быстро и давал максимум полезной информации. Объясняя, что такое индексированный список, можно провести параллель с его бумажным аналогом — так называемым конкордансом, то есть словарем, в котором в алфавитном порядке перечислены слова, употребляемые определенным писателем, а также указаны ссылки на них и частота их употребления в произведениях писателя.

Очевидно, что поиск ключевых слов с подобным словарем (индексом) гораздо эффективнее, чем поиск по книге. Отыскать нужное слово в конкордансе и посмотреть по ссылкам, где оно употребляется, намного проще, нежели перелистывать книгу в надежде наткнуться на это слово.

Построение индекса

Сетевые агенты, или роботы-пауки, ползают по Сети, анализируют содержимое Web-страниц и собирают информацию о том, что и на какой странице было обнаружено. При нахождении очередной HTML-страницы большинство поисковиков фиксирует слова, картинки, ссылки, скрипты и другие элементы (в разных поисковиках по-разному), содержащиеся на ней. При отслеживании слов на странице фиксируется не только их наличие, но и местоположение, то есть где эти слова находятся: в заголовке (title), подзаголовке (subtitles), в метатэгах (meta tags) или в других местах. При этом обычно фиксируются значимые слова, а союзы и междометия вроде «а», «но», «или» игнорируются. Метатэги позволяют владельцам страниц определить ключевые слова и тематику, по которым индексируется страница самим поисковиком. Это особенно актуально в случае, когда ключевые слова имеют несколько значений. Метатэги могут сориентировать поисковик при выборе из нескольких значений слова единственно правильное. Однако метатэги работают надежно только в том случае, когда заполняются честными владельцами сайта. Недобросовестные владельцы Web-сайтов помещают в свои метатэги наиболее популярные в Сети слова, не имеющие ничего общего с темой сайта. В результате посетители попадают на незапрашиваемые сайты, повышая тем самым их рейтинг. Исключение из поиска подобных сайтов — это еще одна задача, которую должен решать хороший поисковик. Каждый робот поддерживает свой собственный список ресурсов, наказанных за недобросовестную рекламу.

Очевидно, что если вы ищете сайты по ключевому слову «собака», то поисковый механизм должен найти не просто все страницы, где используется слово «собака», а те, где это слово имеет отношение к теме сайта. Для того чтобы определить, насколько то или иное слово имеет отношение к профилю некоторой Web-страницы, необходимо оценить, насколько часто оно встречается на странице, есть ли по данному слову линки на другие страницы или нет. Короче говоря, необходимо ранжировать найденные на странице слова по степени важности. Словам присваиваются весовые коэффициенты в зависимости от того, сколько раз и где они встречаются (в заголовке страницы, в начале или в конце страницы, в ссылке, в метатэге и т.п.). Каждый поисковик имеет свой алгоритм присваивания весовых коэффициентов — это одна из причин, по которой поисковики по одному и тому же ключевому слову выдадут вам различные списки ресурсов. Поскольку страницы постоянно обновляются, то и процесс индексирования должен выполняться постоянно. Роботы-пауки путешествуют по ссылкам и формируют файл, содержащий индекс, который может быть довольно большим. Для уменьшения его размеров прибегают к минимизации объема информации и сжатию файла. Прежние поисковики хранили индексы нескольких тысяч документов и получали несколько тысяч запросов в день. Сегодня мощные поисковики хранят сотни миллионов страниц и получают десятки миллионов запросов ежедневно. Имея несколько роботов, поисковик может обрабатывать сотни страниц в секунду. Для того чтобы снизить время обращения к внешним DNS-серверам, организация, осуществляющая поиск, имеет собственный DNS-сервер, который для ускорения процесса переводит имена в IP-адреса.

При построении индекса решается также задача снижения количества дубликатов — задача нетривиальная, особенно если учитывать, что для корректного сравнения нужно сначала определить кодировку документа. Еще более сложной задачей является отделение очень похожих документов (их называют «почти дубликаты»), например таких, которые различаются лишь заголовками, а текст дублируется. Подобных документов в Сети очень много — например, кто-то списал реферат и выдал его на сайте за своей подписью. Современные поисковики позволяют решать все эти проблемы.

Поиск по индексу

Поиск по индексу заключается в том, что пользователь формирует запрос и передает его поисковику. В случае когда у пользователя имеется несколько ключевых слов, весьма полезно использование булевых операторов.

Наиболее часто используемые булевы операторы:

  • AND — все термины, соединенные AND, должны присутствовать в предлагаемом документе. Некоторые поисковые системы используют значок «+» вместо AND;
  • OR — как минимум одно из ключевых слов, соединенных OR, должно присутствовать в искомом документе;
  • NOT — ключевое слово (слова), следующее за NOT, не должно появляться в искомом документе. Некоторые поисковые системы используют значок «-» вместо NOT;
  • FOLLOWED BY — одно из ключевых слов должно следовать непосредственно за другим;
  • NEAR — одно из слов должно отстоять на определенное количество слов от другого;
  • кавычки — слова внутри кавычек являются фразой, которая должна быть найдена в пределах документа или файла.

Текст, в пределах которого проверяется логическая комбинация, называется единицей поиска. Это может быть предложение, абзац или весь документ. В разных поисковиках могут использоваться различные единицы поиска. Например, вы можете искать документы, в которых два слова — «электрический» и «счетчик» — находятся одновременно в пределах предложения или в пределах всего документа. Соответственно поиск в пределах предложения возможен для тех систем, которые имеют в индексе подробный адрес.

После того как пользователь передал запрос поисковику, она обрабатывает синтаксис запроса и сравнивает ключевые слова со словами в индексе. После этого составляется список сайтов, отвечающих запросу, они ранжируются по релевантности и формируется результат поиска, который и выдается пользователю.

Существует огромное количество поисковиков. Наиболее популярная западная поисковая система — Google (www.google.com). В частности, всемирно популярный каталог Yahoo! в качестве поисковика использует именно Google. В Рунете самыми популярными поисковиками являются Яндекс (www.yandex.ru) и Рамблер (www.rambler.ru).

Метапоисковые системы

Интернет развивается стремительными темпами — каждый день появляются сотни тысяч новых документов. Рост количества документов происходит быстрее, чем поисковики успевают их проиндексировать. Отсюда следует неутешительный вывод, что даже если в Сети и есть то, что вы ищете, вовсе не обязательно, что об этом знает поисковик, к которому вы обратились. Поисковиков в мире сотни, и велика вероятность, что нужный вам документ не попал в ваш поисковик, но проиндексирован другим поисковиком. Поэтому существуют службы, позволяющие транслировать ваш запрос сразу в несколько поисковиков, — это метапоисковые системы. Однако пользоваться ими во всех случаях не следует. Если документов по теме много, то метапоиск не нужен и, возможно, даже вреден, поскольку смешивает разные логики ранжирования. Но если документов по теме мало, то метапоиск может быть полезен именно благодаря тому, что объединяет большое число поисковиков. Весьма удобной является отечественная программа ДИСКо Искатель, о которой стоит рассказать подробнее.

ДИСКо Искатель

Разработчик: фирма «ДИСКо» (www.disco.ru), права на распространение продукта принадлежат компании «Арсеналъ» (www.ars.ru).

ДИСКо Искатель — это метапоисковая система, инструмент для поиска информации на нескольких поисковиках одновременно. Главной особенностью этой программы является возможность запоминать как параметры поиска, так и его результаты и использовать их впоследствии.

Двойным щелчком на любую ссылку вы можете вызвать свой Интернет-браузер для просмотра этой страницы. Выбрав любое подмножество страниц, можно потребовать создать HTML-страницы со ссылками на все эти страницы. ДИСКо Искатель запускает одновременно несколько соединений со всеми указанными поисковиками, что существенно ускоряет время поиска. Оперативная информация о соединениях выводится в окно соединения. Вы можете сохранить параметры и результаты поиска в файле с расширением dio, чтобы в следующий раз снова запустить этот же поиск или внимательнее просмотреть его результаты.

Есть два способа экспорта подмножества страниц из дерева поиска: в закладки (избранное) Интернет-проводника и в HTML-страницу для последующего вызова ее из браузера.

Онлайновые энциклопедии и справочники

Очень часто нужно найти не документ, содержащий то или иное ключевое слово, а именно толкование искомого слова. Можно, конечно, поискать незнакомый вам термин с помощью поисковика, но в этом случае вы рискуете получить целый ряд статей, в которых этот термин используется, и при этом так и не узнать, что же он все-таки обозначает. В данном случае лучше обратиться к онлайновым энциклопедиям.

Одной из крупнейших онлайновых энциклопедий является ресурс «Яндекс.Энциклопедии» (http://encycl.yandex.ru/) — этот проект содержит 219 968 статей из 14 энциклопедий, в том числе из БСЭ и «Энциклопедии Брокгауза и Ефрона». К крупным относится и «Энциклопедия Кирилла и Мефодия», которую можно найти по адресу www.km.ru.

Особенно актуальным является поиск толкований терминов по информационным технологиям, которые развиваются так быстро, что уследить за появлением новых IT-терминов очень сложно. Увы, большинство словарей из данной категории — англоязычные. Единственный ресурс на русском языке, который можно назвать компьютерным энциклопедическим словарем, — это проект «Компьютерная энциклопедия Кирилла и Мефодия» (http://www.megakm.ru/pc/), предусматривающая поиск не только по термину, но и по тематической структуре. Однако для словаря терминов объем в 700 статей явно недостаточен.

А вот объем англоязычного словаря FOLDOC (Free On-line Dictionary Of Computing; http://wombat.doc.ic.ac.uk/foldoc/index.html) весьма убедителен — более 13 тыс. терминов.

FOLDOC — это классический онлайновый словарь компьютерных терминов, в том числе акронимов, жаргонизмов, терминов языков программирования, а также всех слов, имеющих отношение к компьютерам. Однако не следует думать, что достаточно одного словаря, пусть даже и самого большого. Дело в том, что большинство крупных словарей построено по принципу обратной связи: не найдя термин в словаре, клиент делает запрос, и термин в базе со временем появляется. Таким образом, каждый ресурс развивается на основе своей клиентской базы, и не обнаружив термин в одном словаре, его можно найти в другом. Можно порекомендовать еще как минимум два онлайновых словаря: Webopedia и WhatIs.com.

Webopedia (www.pcwebopaedia.com) — это серьезный ресурс с большим количеством слов и постоянным пополнением базы. Помимо традиционного словаря ресурс имеет массу специализированных сервисов, например: «Кто есть кто в компьютерных технологиях», «Сравнительная таблица микропроцессоров», «История развития компьютерных технологий» и др.

WhatIs.com (http://whatis.com/index.htm) — толковый энциклопедический словарь по информационным технологиям и в первую очередь по терминам, связанным с ПК и Интернетом. Ресурс содержит более 2 тыс. энциклопедических статей, а также дает несколько Интернет-ссылок на каждый термин. Все статьи взаимосвязаны и содержат около 12 тыс. гипертекстовых ссылок.

Будущее поисковиков

Несмотря на то что человеку всегда проще объяснить, что вы ищете, нельзя сказать, что современные поисковики — это примитивные системы, которые, кроме как найти некоторую последовательность символов, ничего не могут. Напротив, они решают целый ряд проблем, связанных с поиском, например проблему словоизменения (это далеко не простая задача). Если мы ищем документ по ключевому слову «стол», то вполне вероятно, что документ, содержащий фразу «столы для кухни», — это то, что нам нужно. Однако «стол» и «столы» для системы, осуществляющей формальное сравнение, — это разные слова. Поиск, учитывающий словоизменения, называется морфологическим. Большинство современных поисковых систем умеют осуществлять морфологический поиск.

Тем не менее морфологический поиск не решает проблему в том случае, когда слово имеет несколько значений. Например, слово «лук» может обозначать как растение, так и орудие для стрельбы. В этом случае необходим поиск, при котором поисковик «понимал» бы, о чем идет речь. В последнее время подобное направление (concept-based searching) развивается.

Один из таких сайтов находится по адресу AskJeeves.com (www.askjeeves. com). На нем запросы к системе выполняются в неформализованном виде (без использования булевых операторов), то есть так, как мы формулируем вопрос, когда задаем его человеку. Служба AskJeeves.com предоставляет надежные и высокорелевантные ответы на миллионы вопросов, задаваемых ежедневно, используя обработку запросов натуральных языков (Natural Language Processing, NLP). В основе службы лежит поисковый движок Teoma Search Technology. Вместо ранжирования результатов на основании мест с наибольшим количеством ключевых слов Teoma анализирует содержимое Web на основе предметно-содержательных групп, что позволяет выбрать наиболее релевантный документ. Мы протестировали данную систему и убедились в ее эффективности.

Практические рекомендации

  1. Используйте различные инструменты для поиска информации разного профиля. Поиск в каталоге дает представление о структуре вопроса, поисковая система позволяет найти конкретный документ, подбор доменного имени помогает найти сервер фирмы, даже если она не индексирована ни одной поисковой системой.
  2. Осуществляя поиск в поисковике, избегайте общих слов. Чем уникальнее ключевое слово, по которому вы осуществляете поиск, тем скорее вы его найдете. Логика данных рассуждений очевидна, однако факты позволяют лучше понять ситуацию: 400 наиболее часто употребляемых слов русского языка со всеми словоформами (около 2 тыс. форм) составляют одну треть всех слов в среднестатистическом тексте, а частотный список на 8 тыс. слов покрывает уже 80% всех словоупотреблений в текстах.
  3. Ищите больше чем по одному слову. Сократить объем ссылок можно, определив несколько ключевых слов. Используйте синонимы.
  4. Не пишите прописными (большими) буквами. Избегайте написания ключевого слова с прописной буквы. В ряде поисковых систем заглавные буквы позволяют искать имена собственные, например «телепередача Здоровье».
  5. Используйте функцию «Найти похожие документы». Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку «Найти похожие документы».
  6. Пользуйтесь языком запросов. С помощью языка запросов вы сможете сделать запрос более точным.
  7. Пользуйтесь расширенным запросом. Во многих поисковых системах есть форма расширенного запроса, в которой можно использовать основные механизмы сужения поиска (не запоминая семантики языка запросов).
  8. Пользуйтесь метапоисковыми системами, если по теме мало документов.

    Будьте первым комментатором, заполните форму ниже!

Обсуждение

Есть что сказать?








Кто сейчас президент России? (Путин, Зюганов, Жириновский)


    Другие статьи по этой теме