Бизнес в интернете - подписная база

Книга:

"Как создавать эффективную базу подписчиков и увеличивать ваши продажи и прибыль!"

Чтобы получить книгу, введите имя, e-mail и нажмите кнопку

Бизнес в интернете с нуля с Сергеем Тиссеным
Smart Redirector 3.0 систематизирует множество ваших ссылок в категории и делает перенаправление (редирект) на новый адрес в зависимости от задаваемых вами условий. И весь процесс интуитивно понятен.

Вавилонское столпотворение в Интернете

Вавилонское столпотворение в Интернете

22/02/2007  

Как работают поисковые системы

Степень против экспоненты

«Невидимый» Интернет

Реклама против «ботаников»

Потомки Эллочки-Людоедки

PageRank и связность1 Сети

Заключение

 

Что мы ищем в Интернете?

По библейской легенде в незапамятные времена жители города Вавилона задумали построить башню до небес, чтобы стать выше Бога. Но Господь, разгневавшись на такую дерзость, смешал языки и заставил людей заговорить на разных наречиях. Наступил хаос, поскольку люди перестали понимать друг друга.

Интернет, в свою очередь, задумывался с целью расширения интеллектуальных и образовательных возможностей человека, но по мере его роста и проникновения в широкие массы его развитие превратилось в своего рода вавилонское столпотворение. Сегодня каждый пользователь на себе может ощутить один из главных парадоксов Интернета — полезной информации становится все больше, но найти что-либо необходимое — все сложнее. (Попробуйте, например, набрать в поисковой системе ставший уже анекдотическим запрос: «детские рассказы о животных». Только проследите за тем, чтобы дети не увидели результатов этого поиска…)

Таким образом, замусоривание информации — головная боль человека XXI века. И чем больше информации в Интернете, тем эта проблема острее, поэтому любая работа, направленная на снижение остроты данной проблемы, имеет сегодня все шансы на успех.

Как работают поисковые системы

Чтобы успевать за лавинообразным ростом объема информации в Интернете, поисковые алгоритмы постоянно меняются, создаются дополнительные сервисы, дорабатывается дизайн и т.д. Словом, нет предела совершенствованию поисковых машин — чтобы выжить, они должны соответствовать быстро расширяющемуся Интернету. При этом разработчики, занятые постоянной оптимизацией и приспособлением существующих поисковых машин к растущим объемам информации, пытаются также реализовать что-то новое, что, с их точки зрения, действительно важно и необходимо для повышения эффективности поиска.

Однако, как мы покажем ниже, многие современные методы поиска информации в Сети крайне архаичны и даже порочны в своей основе, а новые алгоритмы оптимизации только усугубляют проблему информационного засорения той небольшой части Интернета, которую видят сегодня поисковики и которая является всего лишь верхушкой информационного айсберга. Все это может привести в недалеком будущем к тому, что пользователям поисковых систем придется копаться в одном только мусоре, попсе и рекламе, а все более или менее серьезное будет надежно погребено под грудами этой ерунды и станет доступным только по прямым ссылкам, узнать которые будет весьма непросто.

Современные поисковые системы имеют многоуровневую организацию, и в основе своей все они состоят из пяти программных компонентов:

  • Spider (паук) — эта браузероподобная программа планомерно путешествует по Сети и скачивает все попавшиеся ей на пути Web-узлы (страницы по глобальным URL-ссылкам). По сути, Spider работает точно так же, как и любой Web-браузер, только ничего не визуализирует, а лишь считывает HTML-код;
  • Crawler (сборщик, или путешествующий паук) — это порождаемый Spider’ом процесс, который углубляет поиск, перемещаясь по всем локальным ссылкам, найденным на странице. Как и Spider, сборщик тоже скачивает страницы, но уже способен их анализировать в поисках перекрестных ссылок. Собственно, его основные задачи — сканирование Интернет-ресурсов в поисках изменений на страницах и определение того, куда он должен идти дальше, основываясь на найденных ссылках или исходя из заранее заданного списка адресов;
  • Indexer (индексатор) — ключевая программа поисковой системы, которая анализирует Web-страницы, скачанные пауками, определяет их тематическую принадлежность, актуальность, популярность у пользователей и т.д. Индексатор разбирает страницу на части и анализирует такие ее элементы, как заголовки страниц, ссылки, тексты, структурные элементы, стилевые элементы и т.д. По окончании анализа он индексирует ресурсы, то есть строит базы данных по ключевым словам и сохраняет эти базы данных в удобном для поиска виде;
  • Database (база данных) — хранилище скачанных и обработанных индексатором страниц. Такая база данных требует огромных ресурсов для хранения информации и нуждается в эффективных алгоритмах доступа;
  • Gateway (шлюз) или Search engine/Results engine (собственно поисковая машина) — принимает запросы от пользователей, анализирует их и извлекает результаты поиска из базы данных. Именно эта система решает, какие страницы удовлетворяют запросу пользователя, и предоставляет ему интерфейс для просмотра и уточнения этих результатов.

Таково краткое описание функционирования поисковой системы, которое, возможно, не совсем точно соответствует действительности, но позволяет нам получить представление о том, чего можно ожидать от поиска информации в Сети и какие факторы могут затруднить нахождение требуемого.

Степень против экспоненты

Начнем с самого начала — с роботов-пауков и индексатора. Хотя программы-поисковики производят отбор результатов на основании собственных, постоянно меняющихся критериев и алгоритмов, но, судя по социологическим исследованиям, наибольшую популярность из них имеют те, которые всего-навсего смогли проиндексировать наибольшее количество документов.

Так, например, однажды, к удивлению многих ветеранов поисковых работ, в безусловные лидеры вырвался никому ранее не известный Google (http://www.google.com), который и сегодня продолжает бить рекорды популярности. В последнее время в любом исследовании он непременно получает первые места в категориях «Самый информативный», «Самый релевантный», «Самый удобный в использовании» и т.д. При внимательном рассмотрении поисковой системы Google, созданной студентами Стэнфордского университета, оказывается, что одним из принципиальных ее отличий от других поисковиков является то, что она проиндексировала уже более 8 млрд. страниц — в несколько раз больше, чем ее ближайшие конкуренты. Поскольку не все проиндексированные страницы хранятся в базе (как и не все показываемые ссылки — проиндексированы), то критерием мощности индексация на самом деле не является, но суть, тем не менее, отражает — Google превзошел конкурентов по широте охвата.

Второй по популярности глобальной поисковой системой сегодня обладает, если объединить все ее дочерние подразделения, компания Yahoo! (http://www.yahoo.com). Как известно, в 2003 году Yahoo!, оператор одного из крупнейших Web-порталов, приобрела другую компанию — Overture Services, работающую в рекламном и поисковом бизнесе в Интернете (ранее между Yahoo! и Overture действовали только соглашения о партнерстве). В свою очередь, Overture является и разработчиком систем для поиска, и владельцем популярнейших в прежние годы поисковых сайтов AltaVista (http://www.altavista.com) и AlltheWeb/Fast Search (http://www.alltheweb.com). Поисковые технологии норвежской компании Fast Search & Transfer (FAST) считались наиболее близкими по своим возможностям к Google, и потому Overture приобрела их для ликвидации своего отставания в этой области. Позиции AllTheWeb были сильны и потому, что в этой поисковой системе проиндексировано очень много документов (3-4 млрд.), что, конечно, вдвое меньше, чем сейчас у Google, но все равно в несколько раз больше, чем у других конкурентов. Однако в дальнейшем менее популярная на рынке поисковых систем AllTheWeb, по заявлениям компании Overture, будет использоваться для первичной обкатки и отладки новых технологий, которые будут потом окончательно доводиться до ума на более раскрученной, хотя и менее мощной AltaVista. При этом Overture намерена, насколько это возможно, сохранять аудиторию данных сайтов, но основное внимание все же будет уделять лицензированию своей технологий поиска и оказанию услуг таким крупным порталам, как MSN, AOL и Yahoo!. Немного устаревшие, однако все равно интересные публикации о том, как устроены индексы самых больших в мире поисковых систем — Google и Fast, можно прочитать на сайте searchenginewatch.com в интервью с создателями этих поисковых систем (Google: http://searchenginewatch.com/searchday/article.php/2161091; AllTheWeb (Fast): http://searchenginewatch.com/searchday/article.php/2161101).

     

Что мы ищем в Интернете?

В 2004 году поисковая система Google, пока остающаяся, несмотря на сильную конкуренцию, самой востребованной среди пользователей Сети, получила больше всего запросов о Бритни Спирс, Кристине Агилере и других знаменитостях женского пола, которые сумели оттеснить с первых строчек популярности не только известных мужчин, но и новости о войне в Ираке и даже MP3-файлы. В первую десятку, составленную из запросов со всего мира и опубликованную на сайте Google Zeitgeist, помимо актрис и певиц, попали игры, чаты, Орландо Блум (Orlando Bloom), сыгравший Леголаса во «Властелине колец», Гарри Поттер и MP3. Среди публичных фигур лидерство держит президент США Джордж Буш, за которым идут Джанет Джексон (ее брат Майкл на седьмом месте), Джон Керри, Бритни Спирс и Саддам Хусейн.

Страной, за информацией о которой чаще всего обращались к помощи Google, оказалась Франция. Она же стала единственным европейским государством в первой десятке. Далее расположились Китай, Индия, Ирак, Иран, Южная Корея, Гаити, Куба и Пакистан.

На Google Zeitgeist были расставлены по популярности различные товары и бренды, которые в 2004 году искали в Интернете: iPod стоит на первом месте в разделе электроники, Tablet PC — в разделе компьютерных товаров, а бикини, как выяснилось, — самая востребованная одежда. Французская компания Louis Vuitton лидирует со своим брендом.

Отдельные списки были составлены и по странам (отметим, что Россия туда попала впервые). Предпочтения российских пользователей в минувшем году расположились по рейтингу следующим образом: обои для рабочего стола Windows, фильм «Ночной дозор», теннисистка Мария Шарапова, расписания поездов, сотовые телефоны, футбол, г.Беслан, «Фабрика звезд», пластиковые окна, открытки.

 

Кстати, такие некогда популярные поисковые системы, как AltaVista или Northern Light, утратили привлекательность исключительно из-за снижения мощности своих баз (то есть из-за уменьшения сферы поиска), так как первая долгое время не уделяла достаточного внимания индексированию новых документов, а вторая сосредоточила свои усилия на возрождении услуг специализированного платного целевого поиска, сузив возможности автоматического индексирования. AltaVista, находясь во владении компании CMGI (а до того — у компании Compaq), неоднократно публиковала даже пресс-релизы, сообщающие об утере значительной части базы данных своих поисковиков в результате физического переноса серверов, и потому быстро потеряла доверие пользователей. А ведь когда-то AltaVista считалась лучшим из всех существовавших поисковиков. Кроме того, у AltaVista насчитываются 58 патентов, охватывающих самые разные аспекты поиска информации в Сети (в России технологии AltaVista продвигает компания РБК). Однако вместо того, чтобы развивать свои технологии поиска, эта компания, в попытках расширить сферу деятельности, отстала от конкурентов и растеряла все свои преимущества. Владельцы компании Northern Light тоже, так сказать, перемудрили — решив выжать из поиска в Сети все возможные материальные блага, занялись составлением собственной коллекции периодических изданий, статьи в которых заинтересованным лицам предоставлялись за определенную плату, а ведь понятно, что никакая коллекция не может сравниться по объему с результатом работы автоматических пауков и мощного индексатора системы Google. В результате Northern Light теперь серьезно уступает конкурентам и совершенно незаметна на рынке поисковых систем. Тяжелый финансовый кризис настиг Excite, а другие некогда популярные поисковые системы, такие как WebCrawler, Lycos и Infoseek, или вообще позакрывались, или превратились в фасады других поисковиков.

Таким образом, стало очевидным, что чем быстрее растет Сеть, тем труднее угнаться за ней многочисленным классификаторам, каталогам и поисковым машинам, которые не пошли по экстенсивному пути развития и недостаточно активно расширяют свои базы.

Однако огромный сегмент Сети просто не подпадает под определение индексируемого контента и остается за пределами внимания поисковиков. Именно эти сайты и составляют основу той «невидимой» Сети, разговор о которой пойдет ниже.

Еще в 2000 году, когда были проведены наиболее крупные исследования о наполнении Интернета, выяснилось, что поисковыми системами индексируется лишь незначительная часть документов, находящаяся как бы на поверхности Интернета. Американская компания BrightPlanet оценила, что недоступная часть Сети может быть приблизительно в 500 раз больше того, к чему поисковые серверы могут обеспечить доступ. В то время каждая из лидирующих поисковых систем, судя по числу проиндексированных документов, знала не более 1 млрд. Web-страниц. Если это составляет менее 10% от общедоступного контента, то большая часть документов (соответственно до 500 млрд.) оставалась недоступной поисковикам, а это значит, что где-то в глубине Сети (обозначается терминами Deep Web или Invisible Web), несмотря на декларации о доступности информации для любого посетителя, хранятся страницы, на поиск которых у пользователя ушла бы целая жизнь.

Между тем со временем ситуация только ухудшается, и даже если предположить, что четыре года назад исследователи ошиблись в своих оценках раз в десять, то на каждый найденный нами документ приходятся десятки скрытых (кстати, одним из самых популярных вопросов новичков форумов на http://searchenginewatch.com или на http://searchengines.ru является следующий: «Почему поисковик не индексирует мой сайт, несмотря на все мои усилия?»).

Ухудшение ситуации вполне закономерно по одной простой причине: база данных поисковых систем растет со временем как логарифмическая функция (приближаясь к своему физическому пределу), в то время как количество Web-страниц теоретически возрастает как степенная функция (и непременно опередит первую). Недавно, например, в Интернете появилась еще одна напасть — блоги (сайты личных дневников). Издатели американского словаря Merriam-Webster даже назвали слово blog — главным словом прошлого года. Так, по некоторым оценкам, количество блогов в Интернете уже сегодня приближается к 5 млн. и каждые 5-6 секунд создается новый блог.

     

Google (www.google.com)

Поисковая система Google, запущенная в 1998 году, является ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам. Но главное достоинство Google — это объем индексного файла, который составляет сегодня более 8 млрд. Web-страниц и статей из групп новостей по интересам. За сутки программы-роботы системы индексируют более 5 млн. новых и обновленных страниц, причем актуализация базы производится каждые 28 дней.

Несомненным преимуществом поисковика Google является его способность индексировать документы не только в виде HTML-файлов, но и в форматах PDF, RTF, PS, DOC, XLS, PPT, WP5 и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML-файл, так что пользователю не нужно специальное программное обеспечение для доступа к файлу.

Google отличается высокой степенью комфорта для пользователя. Хотя Google — это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Длительность процесса поиска в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы. А у интерфейса первой страницы Google сегодня вообще нет достойных конкурентов в Сети.

Методика поиска с помощью Google предельно проста. В поисковую строку вводится запрос на естественном языке — на русском, английском или любом другом. К сожалению, язык запросов не допускает усечения терминов знаком «*», поэтому необходимо вводить все возможные словоформы самостоятельно. Набор логических операторов предельно лаконичен — «+», OR и «-», а также реализована возможность поиска по фразам в кавычках. Все термины запроса по умолчанию объединяются условием AND (логическое «И»), так что ставить перед ними знак «+» не обязательно — в список результатов попадают лишь страницы, содержащие все введенные ключевые слова.

Поисковый механизм игнорирует стоп-слова (предлоги, союзы, артикли), однако если какое-либо из таких слов существенно, то перед ним необходимо поставить «+», давая системе понять, что в данном случае термин даже из одной буквы является значимым.

Google имеет в своем арсенале множество опций для максимальной конкретизации запроса, доступных через меню Advanced Search «Расширенный поиск». Помимо уже описанных возможностей, добавляются фильтры, ограничивающие язык документа, его формат (к примеру, «только документы в PDF»), время опубликования («за 1 год»), место термина в самом документе («в заголовке страницы») или расположение страницы в определенном домене или даже на сайте.

Кроме возможностей поиска текстовых материалов, Google обладает лучшими на данный момент возможностями поиска иллюстраций с помощью режима поиска изображений («Картинки»). Предусмотрена также возможность уточнения поиска среди уже найденных результатов («Поиск среди результатов»).

В качестве собственного справочника Интернет-ресурсов Google использует усовершенствованный массив Open Directory Project, что порой позволяет сочетать достоинства обоих этих поисковых инструментов.

Кстати, дополнительным платным сервисом Google является поиск трудно доступной информации не роботом, а человеком. Стоимость этого вида обслуживания — 2,50 долл. за ответ.

 

Сухие цифры статистики также показывают опережающую динамику расширения Интернета, несмотря на то что производители поисковых систем утверждают обратное. В 1999 году наилучший результат по охвату Web-контента принадлежал поисковой системе Northern Light, проиндексировавшей 16% доступной информации, Snap и AltaVista шли на втором месте с показателем 15,5%; система HotBot замыкала список лидеров с долей в 11,3%. При этом утверждалось, что интегральный показатель всех проиндексированных документов составил к 2000 году около 30%. Но уже в 2000 году исследование NUA Internet Surveys (http://www.nua.ie/surveys) показало, что все поисковики вместе взятые проиндексировали и внесли в свои базы данных менее одной шестой части доступного информационного наполнения Сети, то есть около 17%. Годом позже в исследованиях компаний National Equipment и Inktomi прогнозировался рост Интернета до 1 млрд. страницу, что позволило компании Inktomi утверждать, что в ее распоряжении находится 50% проиндексированных Web-страниц. Хотя у Inktomi не было даже собственного поисковика, она предоставляла свои услуги таким популярным сайтам, как HotBot, ICQIt, MSN, Canada.com, Goto.com и Yahoo! (в последнем поиск по базе данных Inktomi осуществляется при отсутствии искомых элементов в собственной базе Yahoo!). На втором месте с долей в размере 34% оказалась разработка норвежских программистов Fast Search (AllTheWeb.com), которые заявили, что именно этому поисковику, созданному при поддержке Dell Computer, предстоит обогнать всех конкурентов, стать абсолютным лидером и удовлетворить запросы пользователей на 100%. Однако жизнь быстро внесла свои коррективы — победила система Google, официальный размер базы данных которой составлял тогда лишь около 20% от всего Интернет-наполнения. Уже к 2003 году и такие оценки стали казаться сильно завышенными, а результаты работы поисковиков до сих пор оставляют желать лучшего. При этом мощности поисковиков уже сейчас находятся на пределе — ведь до последнего времени вся информация, вплоть до копий исходных документов, хранилась в самой базе. Когда-то это было обусловлено ненадежностью каналов связи, Web-серверов и другого компьютерного оборудования и давало возможность пользователю ознакомиться с документом, фактически независимо от его доступности, в момент обращения к поисковой системе. Но поисковики просто не в состоянии наращивать свою память и вычислительную мощность пропорционально росту количества документов в Сети. Например, на Google сегодня работают уже сотни высокопроизводительных серверов и десятки тысяч компьютеров послабее, которые разбросаны по всему миру и находятся в различных data-центрах, что порождает уже чисто аппаратные проблемы. Кстати, судя по последним тенденциям полнотекстовые документы в своей базе Google уже не хранит.

К слову, в конце минувшего года, в первый же день после официального объявления о запуске новой поисковой системы Microsoft MSN (http://search.msn.com), она продемонстрировала крайне нестабильную работу и до сих пор никак не выйдет из бета-версии. Сайт MSN Search периодически отказывается обслуживать некоторых посетителей, выдавая сообщения о временной недоступности сервиса. Компания Microsoft по этому поводу заявила, что поисковая система до сих пор находится в стадии тестирования и в процессе ее отладки могут возникнуть перебои в работе. Составит ли она конкуренцию нынешнему лидеру на рынке Интернет-поиска — компании Google, покажет время, а вот то, что для этого потребуется немало сил и средств, — очевидно уже сейчас. Одним из достоинств MSN Search ее создатели называли именно большое число проиндексированных документов — более 5 млрд., в то время как у Google на момент запуска MSN Search этот показатель составлял 4,5 млрд., то есть Microsoft хотела превзойти Google по объему базы, но ее неудача наглядно продемонстрировала, что мощности поисковых систем нельзя наращивать до бесконечности.

Кроме того, с ростом числа документов в Интернете затрудняется работа пауков, которые самостоятельно сканируют Сеть в поисках новых документов. Если прежде, когда количество документов измерялось сотнями тысяч, такой способ позволял быстро наполнить базу и, следовательно, представить там максимальное количество документов, то теперь, когда документов сотни миллионов, подобный подход себя исчерпал. Мало того что просканированными оказываются не более 10-15% документов в Сети, но и все изменения и перемещения уже известных документов попадают в базу со значительным опозданием (до 3-4 недель), то есть найти актуальную информацию в Интернете, если туда не заглядывает специально «назначенный» паук, становится совершенно невозможно.

«Невидимый» Интернет

В русском сегменте Сети все не так плохо, однако здесь ситуация складывается по принципу «не было бы счастья, да несчастье помогло»: темпы развития Рунета и Интернета по-прежнему совершенно несопоставимы, зато темпы роста баз данных отечественных поисковых систем значительно опережают показатели их американских коллег. Так, разработчики проекта Yandex.Ru (которые идут в нашей стране по стопам Google, постепенно вытесняя конкурентов) утверждают, что поисковая система Яндекс на данный момент проиндексировала более 90% Рунета, но сюда, естественно, не входят те сайты, индексация которых не предусмотрена правилами регистрации, а также сайты, установившие запрет на индексацию собственных ресурсов.

К тому же индексации не подлежат многочисленные сайты, которые динамически предоставляют пользователям подготовленную в соответствии с их запросами информацию. Разработчиков таких сайтов трудно винить в нежелании подогнать свое детище под требования поисковых машин — базы данных в некоторых случаях являются единственной альтернативой для оформления содержимого Web-сайта.

Впрочем, сначала вся информация в Интернете была представлена в HTML, причем без таблиц, картинок и рисунков и т.п., которые появились в Сети позже. Естественно, что алгоритмы поиска были ориентированы прежде всего на текст, а сейчас объем мультимедийного наполнения (таблицы, базы данных, рисунки, музыка, видео) уже значительно превышает объем текстов, вследствие чего сегодня крайне сложно найти информационную сводку, картинку или нужный музыкальный фрагмент, не зная его дополнительных параметров, хотя средства для этого уже появляются. Возможны также варианты, когда доступ к той или иной странице требует ввода пароля, даже несмотря на отсутствие там конфиденциальной информации. А на многих страницах чаще всего присутствует стандартная информация, не представляющая интереса для поисковиков, а уникальное содержимое ресурса глубоко скрыто под локальными ссылками и переходами.

И конечно же, полагаясь на русское «авось», авторы большинства российских сайтов не регистрируются в поисковых механизмах и не заботятся хотя бы о небольшой раскрутке своих ресурсов. Создатели сайтов, видимо, предполагают, что рано или поздно желающие их все равно найдут. Однако чем дальше, тем такая перспектива представляется все менее реальной — если еще лет пять назад роботы-пауки добирались даже до потайных уголков Сети, то сегодня ожидать их внезапного визита на свою страницу уже не приходится. И даже опытные Web-мастера сейчас с нетерпением ждут каждого ежемесячного обновления баз данных поисковых систем, надеясь только на высшие силы, которые привлекут внимание роботов-пауков к их сайтам. Рядовым же пользователям такие ресурсы, затерянные на просторах «невидимой» Сети, можно найти, лишь руководствуясь известной истиной «места знать надо». Вот только таких мест становится все больше и больше, а доступ к ним — все труднее. Между тем «невидимый» Интернет так же доступен для рядового пользователя, как и «видимый», но стандартные способы поиска туда уже не приведут.

Реклама против «ботаников»

Если количество информации в Интернете растет очень быстро, то этого отнюдь нельзя сказать о ее качестве. А поскольку владельцам поисковиков тоже приходится искать средства к существованию, то услуги по платному размещению рекламы в результатах поиска — один из основных источников доходов и для Google, и для других поисковых систем. Однако обычная баннерная реклама, которую видят все посетители Интернет-сайтов, приносит в последнее время все меньше доходов (практика показывает, что пользователи ее вообще игнорируют), поэтому многие поисковые системы перешли на так называемую контекстную рекламу, которая демонстрируется пользователям в зависимости от содержания их запроса. Например, если пользователь ищет в Интернете «кондиционер для дома», то он увидит и рекламу фирмы, торгующей кондиционерами в розницу. Некоторые поисковики уже беззастенчиво продают желающим лучшее пространство, так что первые выведенные результаты поиска могут принадлежать сайтам-спонсорам, а вовсе не тем, которые система определила как наиболее подходящие. Кстати, лидеры — и Google, и Яндекс — тоже продают спонсорские ссылки, которые сортируются и показываются в зависимости от темы поиска пользователя. Однако эти ссылки явно обозначаются как реклама и демонстрируются отдельно от результатов поиска. Другие системы формально позволяют пользователю исключить спонсорские ссылки из результатов поиска, но обычно эта опция делается не слишком заметной. Кроме того, в качестве дополнительной услуги такие компании, как Overture, предлагают платное включение сайтов заказчика в базу данных своих поисковиков. Информация о таких сайтах в базе данных будет обновляться чаще, чем информация об обычных неоплаченных ресурсах, и, следовательно, продвигаться выше по списку найденных документов и иметь большую актуальность. При этом рекламный и алгоритмический поиск, по утверждениям компании, будут дополнять друг друга, хотя вряд ли в таком случае сделка с Overture принесет AllTheWeb/Fast Search и AltaVista пользу — куда вероятнее другой исход: продавшись рекламщикам, указанные поисковики окончательно лишатся доверия пользователей.

     

AllTheWeb/Fast Search (www.alltheweb.com)

Поисковая система, существовавшая под данным именем с 1997 года, была разработана в Норвегии и первоначально ориентировалась преимущественно на европейские сайты. В 2003 году поисковик Fast Search стал собственностью Yahoo!, но продолжал существовать и в качестве оригинального поискового сервиса, регулярно наращивая собственный индексный файл и повышая степень релевантности поиска. На протяжении последних лет Fast Search справедливо рассматривался в качестве главного конкурента Google, но с 25 марта прошлого года под брендом Fast Search была размещена и запущена в действие поисковая система Yahoo!, разработанная на основе поискового механизма Inktomi, ранняя версия которого использовалась, в частности, в поисковой системе HotBot. В настоящее время Fast Search фактически представляет собой «зеркало» (запасной сервер) поисковой системы Yahoo!, с той лишь разницей, что в его модуле выдачи результатов гораздо лучше решены проблемы вывода документов на разных языках, использующих кодировки, отличные от расширенной латиницы. В числе 36 языков, с которыми вполне корректно работает система, есть и русский.

Индексный файл Fast Search, по уверениям владельцев, в настоящее время содержит около 3 млрд. документов. Помимо текстовых документов, нынешний вариант системы поддерживает поиск в группах новостей по интересам, поиск иллюстраций, видеофрагментов и аудиофайлов, в том числе и с русскоязычных серверов. Система способна собирать сведения и индексировать размещенные в Интернете файлы в форматах PDF, DOC, XLS, PPT.

Fast Search оперирует традиционным языком запросов, включающим знаки «+», «-» и кавычки для поиска цитат. Для формирования сложных запросов рекомендуется обращаться к расширенному поиску (Advanced Search). Система многоступенчатых меню позволяет применять фильтры, в числе которых — ограничения по местоположению термина в документе, по определенному домену, по географическому местоположению, по времени опубликования документа и по формату файла. В числе сервисных функций Fast Search — возможности установки персональных режимов для поиска и их сохранения в системе (на конкретном компьютере) для работы в дальнейшем.

 

Еще одной причиной появления «невидимой» части Сети является такая особенность поисковиков, как приоритет актуальности или проверки обновления информации. Для того чтобы ссылки, предоставленные поисковым механизмом, были более актуальными и свежими, время от времени пауки проводят реиндексацию сайтов, сравнивая вновь загруженные страницы с теми, которые уже содержатся в базе данных. Если различий не обнаружено, робот решает, что ничего с тех пор не изменилось и что, собственно говоря, индексировать здесь нечего; причем если главная страница не претерпела никаких изменений, то некоторые поисковики обычно полагают, что и все остальное тоже сохранилось в первозданном виде. Более всего при таком подходе страдают сайты учебных заведений, так как там главная страница, как правило, остается неизменной в течение многих лет, в то время как на персональных страницах профессоров и студентов появляются диссертации, научные работы или какие-нибудь коллекции тематических ссылок «о вечном».

    Будьте первым комментатором, заполните форму ниже!

Обсуждение

Есть что сказать?








Какое слово получится, если соединить "ма" и "мба"


    Другие статьи по этой теме