Интернет, компьютеры, софт и прочий Hi-Tech | |||
Избранные докиМетки (все метки)hi tech, internet, it, интернет, информационные технологии, ит, по, программное обеспечение, сайт, софт
Подписаться через RSS2Email.ru
Дополнительнооптимизация, сайт, мониторы, движок, Битрикс, хостинг, сайты, мобильные, электроника, видеокарта |
Как поисковая система Mail.Ru составляет сниппеты
По материалам статьи «Костин М., Проскурин А., Федоровский А. Mail.Ru на РОМИП-2006» (Труды РОМИП-2006 — http://romip.narod.ru). Статья посвящена проверке качества поиска Mail.Ru на «дорожках» Российского семинара по оценке методов информационного поиска. Особенно интересно описание алгоритма, по которому поисковая система Mail.Ru составляет сниппеты найденных документов для поисковых запросов. Вот конспект этого описания: Общие принципы, по которым Mail.Ru составляет сниппеты поисковой выдачи:
Особо обрабатывается случай, когда слова запроса присутствуют только в заголовке (<title>) текста и отсутствуют в его теле. Обработка этого особого случая: в качестве сниппета выводится начало текста документа. (Замечание. Может лучше в таком случае выводить description?)
Эксперименты с описанным алгоритмом выявили высокий процент ошибок вида «релевантная аннотация — нерелевантный документ», которые составили 50%-55% для разных условий поиска. Возникла гипотеза, что это может быть связано с принципом включения всех слов запроса в сниппет. Близость фрагментов с найденными словами в сниппете создает иллюзию их близости в документе. (Замечание. Может быть это можно улучшить за счет увеличения
Конспект подготовил Д.Скоробогатов, 23.03.2011 Предыдущие публикации: Последнее редактирование: 2011-03-23 12:52:26 Метки материала: mail, ru, сниппеты, поисковая система, mail.ru, система mail.ru, поисковая система mail.ru Оставьте, пожалуйста, свой комментарий к публикации |
||
© 2007-2012, Дмитрий Скоробогатов.
Разрешается воспроизводить, распространять и/или изменять материалы сайта
в соответствии с условиями GNU Free Documentation License,
версии 1.2 или любой более поздней версии, опубликованной FSF,
если только иное не указано в самих материалах.