Интернет, компьютеры, софт и прочий Hi-Tech

Подписаться через RSS2Email.ru

Как поисковая система Mail.Ru составляет сниппеты

Mail.Ru

По материалам статьи «Костин М., Проскурин А., Федоровский А. Mail.Ru на РОМИП-2006» (Труды РОМИП-2006 — http://romip.narod.ru).

Статья посвящена проверке качества поиска Mail.Ru на «дорожках» Российского семинара по оценке методов информационного поиска. Особенно интересно описание алгоритма, по которому поисковая система Mail.Ru составляет сниппеты найденных документов для поисковых запросов. Вот конспект этого описания:

Общие принципы, по которым Mail.Ru составляет сниппеты поисковой выдачи:

  1. В сниппет должен попасть фрагмент текста, релевантный запросу в целом, если он есть в тексте.
  2. В сниппет должны попасть все слова поискового запроса, если они присутствуют в тексте.
  3. Для наиболее значимых слов запроса сниппет должен быть максимально информативен.
  4. В сниппет, по возможности, должны попадать законченные по смыслу фрагменты текста, с учетом знаков препинания и форматирования текста.

Особо обрабатывается случай, когда слова запроса присутствуют только в заголовке (<title>) текста и отсутствуют в его теле.

Обработка этого особого случая: в качестве сниппета выводится начало текста документа. (Замечание. Может лучше в таком случае выводить description?)

  1. Для поиска фрагментов текста, релевантных всему запросу, используется алгоритм поиска релевантных пассажей. Этот алгоритм описан в статье «Федоровский А., Костин М., Проскурин А. Mail.Ru на РОМИП-2005».

    Пассажи — фрагменты текста, ограниченные по длине. Пассаж считается релевантным, если содержит «представительное множество» слов запроса. Это представительное множество определяется

    1. числом слов в запросе;
    2. частотностью слов запроса в коллекции документов.

    Каждому релевантному пассажу присваивается «вес», в котором, помимо прочего, учитываются:

    1. длина пассажа;
    2. соответствие порядка слов запроса и пассажа;
    3. соответствие грамматических форм слов в запросе и пассаже.

    На основании веса производится выбор одного или нескольких пассажей для составления сниппета.

    К найденному пассажу присоединяется его «окружение», — заданное количество слов с обеих сторон, и все это включается в сниппет. В зависимости от длины пассажей и ограничения на длину сниппета, в последний может быть включено несколько найденных фрагментов.

  2. В сниппет по возможности включаются все слова запроса. Если их число велико, то наименее значимые слова могут быть опущены. В этом случае максимизируется количество слов запроса в сниппете.
  3. Под значимостью слов понимается IDF, вычисляемая по классической логарифмической формуле. Информативность контекстного фрагмента для данного слова определяется длиной фрагмента в словах и наличием в нем других слов запроса.

    Базовая формула для определения величины контекстного фрагмента для включения в сниппет:

    L(term) = Lmin + ((La - Nq*Lmin)/Lmin)*IDF(term), где

    L(term) — длина контекстного фрагмента в словах,
    Lmin — минимальная длина контекстного фрагмента,
    La — оптимальная длина сниппета,
    Nq — количество слов в запросе за исключением стоп-слов,
    IDF(term) — обратная частота слова.

    Значение Lmin не должно быть слишком маленьким, чтобы информативность цитаты сохранялась на разумном уровне.

    При выборе контекстных фрагментов для сниппета предпочтение отдается тем, которые включают в себя другие слова запроса. Для таких фрагментов длина вычисляется более сложным способом.

  4. Длина отобранных для сниппета фрагментов «выравнивается» с учетом знаков препинания и тегов форматирования текста. Эта процедура является наименее значимой из перечисленных и не должна осуществляться в ущерб перечисленным.

Эксперименты с описанным алгоритмом выявили высокий процент ошибок вида «релевантная аннотация — нерелевантный документ», которые составили 50%-55% для разных условий поиска. Возникла гипотеза, что это может быть связано с принципом включения всех слов запроса в сниппет. Близость фрагментов с найденными словами в сниппете создает иллюзию их близости в документе.

(Замечание. Может быть это можно улучшить за счет увеличения Lmin?)

Конспект подготовил Д.Скоробогатов, 23.03.2011


Предыдущие публикации:

Биржа долевых инвестиций SIMEX.

Последнее редактирование: 2011-03-23 12:52:26

Метки материала: mail, ru, сниппеты, поисковая система, mail.ru, система mail.ru, поисковая система mail.ru

Оставьте, пожалуйста, свой комментарий к публикации

Представиться как     Антибот:
   

Просьба не постить мусор. Если вы хотите потестить xBB, воспользуйтесь кнопкой предварительного просмотра на панели инструментов xBBEditor-а.


© 2007-2017, Дмитрий Скоробогатов.
Разрешается воспроизводить, распространять и/или изменять материалы сайта
в соответствии с условиями GNU Free Documentation License,
версии 1.2 или любой более поздней версии, опубликованной FSF,
если только иное не указано в самих материалах.