Интернет, компьютеры, софт и прочий Hi-Tech

Подписаться через RSS2Email.ru

Что такое поисковый индекс

Вам нужно найти в интернете информацию, и вы, естественно, обращаетесь к поисковым системам. Однако вам не совсем понятно, как они работают. В частности, вас удивляет, почему некоторые сайты находятся в верхних строчках, сразу бросаются в глаза, а некоторые задвинуты куда-то далеко, доводится долго перелистывать и напрягать зрение.

Также у вас может вызвать недоумение тот факт, что вышеуказанные системы предлагают перейти на ресурсы, которых давно уже не существует. Был портал полгода назад — и его призрак по-прежнему присутствует в сети. В общем, будем разбираться, что к чему.

Поисковые системы бывают двух видов: настоящие и не очень. Те, которые не очень, сами ничего не делают, только запускают так называемые метапоисковые машины и пользуются результатами работы настоящих. Так что лучше поговорим о всамделишных. Например, о Яндексе, Google, Bing, Yahoo! (восклицательный знак является частью названия).

Предположим, кто-то создал сайт. Наполнил его каким-нибудь содержимым и раздал ссылки, указав их в разных блогах, на форумах и вообще где только можно. Специальная программа, называемая «паук» или «робот» (сокращённо «бот», то бишь «bot»), ежедневно запускается поисковой системой в интернет, дабы разузнать всё новенькое, что появилось благодаря стараниям неугомонных людей.

В первую очередь робота (бота) интересуют оригинальные тексты, не скопированные откуда-нибудь с других сайтов. На языке веб-мастеров они называются уникальными. Хотя, конечно, стопроцентной оригинальности никто не требует, можно вставлять цитаты, традиционно сформировавшиеся словосочетания, поговорки, пословицы и тому подобное. Главное, чтобы чужого было не очень много.

Все найденные тексты бот утаскивает своим хозяевам, на сервер поисковой системы, и там сохраняет в кэше. Вы наверняка видели рядом с адресом предлагаемой страницы маленькую такую ссылочку под обозначением «Сохранённая копия». Вот это и есть кэш.

Какова польза от кэша? Во-первых, благодаря ему поисковой системе не приходится каждый раз обшаривать интернет, отвечая на любой запрос. Поэтому всё работает почти мгновенно.

Во-вторых, если оригинальная страница в сети уже приказала долго жить, имеется вероятность того, что сведения всё же будут храниться в кэше еще несколько месяцев. Пока хозяева системы не решат, что пора устраивать генеральную уборку и выгонять с серверов всех «призраков», напрасно занимающих место.

В-третьих, представьте себе, что оригинальная страница заражена какой-нибудь пакостью (iframe автоматически загружает вирусы с нехороших сайтов, вредоносный скрипт-эксплойт использует недостатки браузеров для взлома оных, Adobe Flash Player атакует посредством спрятанного в его объектах Action Script).

И Яндекс пишет предупреждение, мол, не заходите туда, если не являетесь самоубийцей или мазохистом. (Хотя, конечно, пишет иными словами, более дипломатично.) При этом предлагает посмотреть ту же самую страницу, сохранённую в кэше и ничем не заражённую. Польза очевидна.

У системы кэширования есть и недостатки. Нет, не гигантский объем данных, это не проблема, современные дата-центры способны хранить у себя весь интернет (что фактически и делает Google). Всё дело в приватности.

Допустим, вы создали блог, написали там что-то, а потом спохватились и удалили. Но если текст был проиндексирован, то спохватились слишком поздно: при желании всё можно извлечь из кэша поисковых систем. И так продлится до тех пор, пока кэш не очистят.

Нередко поисковые роботы влезают туда, куда их не звали. Раньше таким любили заниматься поисковые программы от Google, пока им не вправили мозги.

Впрочем, вправили не окончательно, и по сей день иногда можно наткнуться на записи в блогах, созданных в приватном режиме, скачать фотографии, выкладываемые только для друзей, ну и так далее. (Хотя, конечно, это проблема, скорее, не роботов, а бестолковых разработчиков сайтов.)

Изображения индексируются иначе. Никаких дата-центров не хватит, чтобы копировать картинки в исходном качестве, поэтому формируются маленькие «превьюшки» (от английского «preview», что обозначает «предварительный просмотр»). Нажимая на «превью», пользователь загружает оригинальную картинку, расположенную на том сайте, где она была обнаружена поисковым роботом.

Здесь, конечно. Яндекс поступил умнее всех остальных: он не заставляет переходить на сайт с картинкой (ведь ресурс может быть заражённым!). Точно так же действует и система Nigma.ru. Нажали на «превью» — и получили только изображение, а не всю его страницу во фрейме, как на Google, Yahoo! и Bing.

Отдельная тема печали — индексация мультимедиа. В частности, видео. Они отыскиваются и распознаются по названиям. Конечно, тоже показываются только картинки-«превьюшки», представляющие собой кадр из видео.

Недавно Microsoft, активно продвигающая свою систему Bing (довольно неплохую), обвинила Google в ужасном коварстве. Мол, видео на сервисе Youtube прячется от всех ботов, кроме принадлежащих Google. Ну, не то чтобы действительно прячется, но его поиск умышленно затрудняется, дабы у Google было преимущество.

Однако эксперимент показал, что Яндекс видит почти всё то, что видит Google. Следовательно, найти какой-нибудь видеоролик на Youtube с помощью Яндекса можно довольно легко.

Впрочем, у последнего имеется видеосервис, практически ничем не уступающий Youtube (по крайней мере, качество видео при перекодировке снижается не очень сильно, в отличие от некоторых других подобных служб).

Однако вернёмся к текстам, в коих содержится основной объём полезной информации. У каждой поисковой системы есть команда модераторов. Они выправляют то, с чем не справились роботы.

Конечно, бот, используя очень заумные алгоритмы, способен распознать нехороший сайт, созданный для надувательства, рекламы других сайтов, продажи места под статьи и ссылки. Но не всегда. Пока что человек ещё способен обмануть программу.

Поэтому в дело вступает другой человек, который вручную удаляет плохие ресурсы из индекса. Выпиливает полностью, чтобы и духу не осталось. И запрещает программе индексировать их повторно.

Соответственно, если вы вознамерились подзаработать, размещая на своём сайте или в блоге статьи и тыкая ссылки, то такой бизнес обречён на провал.

О ссылках следует сказать отдельно, потому что они стали причиной настоящего психоза среди веб-мастеров. Внешних (исходящих, ведущих на другие сайты) боятся как огня. Часто попадаются порталы, где нет вообще ни одной исходящей. Ошибочно считается, что каждая внешняя ссылка снижает рейтинг (позицию на странице с результатами поискового запроса).

Конечно, если ссылок много, то это плохо: такие ресурсы поисковыми роботами презираются. Но если их не более четырёх-пяти на страницу, то всё в порядке. Ведь главное — их качество. В смысле, чтобы они вели на приличные, уважаемые сайты. В таком случае никакого снижения рейтинга не случится. Возможно, даже наоборот.

Есть ещё один момент. Верхние строчки всегда будут занимать не просто приличные сайты, но сайты релевантные — наиболее соответствующие запрошенной пользователем информации. То есть, если вы ищете «браузер Firefox», то на первом месте будет официальный сайт разработчика, организации Mozilla.

Кстати, именно на такие ресурсы и можно смело ставить ссылки, не опасаясь негативных последствий.

Теперь вы понимаете, насколько всё непросто. Та лёгкость, с которой Яндекс или Google выдаёт информацию, на самом деле является результатом весьма серьёзной и кропотливой работы.

Напоследок упомянем о том, что можно использовать «Расширенный поиск». Указать, на каком именно сайте вы хотите обнаружить желаемые сведения. Выставить ограничения, чтобы вам не вываливалось всё подряд. Или хотя бы заключить фразу в кавычки, чтобы найти текст с конкретным сочетанием слов, идущих подряд, а не разбросанных по странице.

Каким бы сложным и мудрёным ни был механизм поиска, а освоить методы работы очень легко. Ведь всё это создаётся для простых людей.

Автор: vanilinkin, специально для xBB.uz, 29.05.2011


Предыдущие публикации:

Биржа долевых инвестиций SIMEX.

Последнее редактирование: 2014-07-17 16:58:36

Метки материала: индекс, поисковый индекс, что такое поисковый индекс, алгоритмы поисковых систем

Оставьте, пожалуйста, свой комментарий к публикации

Представиться как     Антибот:
   

Просьба не постить мусор. Если вы хотите потестить xBB, воспользуйтесь кнопкой предварительного просмотра на панели инструментов xBBEditor-а.


© 2007-2017, Дмитрий Скоробогатов.
Разрешается воспроизводить, распространять и/или изменять материалы сайта
в соответствии с условиями GNU Free Documentation License,
версии 1.2 или любой более поздней версии, опубликованной FSF,
если только иное не указано в самих материалах.