Есть вопросы? => Напиши мне письмо с вопросом: iamwork собако mail.ru

J2J.RU - cовременная система продвижения сайтов
 
Advego.ru - система покупки и продажи контента для сайтов, форумов и блогов


четверг, 19 июня 2008 г.

Яндекс лучше стал усваивать морфологию русского языка

Яндекс продолжает раскрывать механизмы работы уже вошедшей в историю поисковой программы Магадан. Еще в своем первом отчете по новому алгоритму яндексоиды рассказали о то, что поиск Яндекса стал понимать аббревиатуры и транслитерацию.

Теперь же команда поисковика рассказывает подробно и поэтапно о том, как именно происходит ранжирование результатов поиска по таким запросам.

До Магадана Яндекс учитывал морфологию русского языка лишь по двум типам отношений:

а) словоизменительному – т.е. изменение форм слова, например, по падежам, числу: «маме», «мамой», «маму», «мамы» – формы слова «мама»;

б) видовому – совершенный и несовершенный виды глагола, например “сделать” – “делать”.

Теперь же новая поисковая программа позволяет учитывать еще 3 вида отношений:

1) некоторые типы переходов из одной части речи в другую («гамбург» -> «гамбургский»);

2) транслитерация («mazda» -> «мазда»);

3) аббревиатуры (МГУ -> Московский государственный университет).

То есть если пользователь введет запрос «МПГУ», то Яндекс найдет страницы, содержащие «Московский Педагогический Государственный Университет», причем даже если самого слова «МПГУ» на них нет. Аналогичным образом, по запросу «мазда» показываются сайты как с этим словом, так и со словом «mazda».

Что касается упомянутого типа отношений «гамбург» -> «гамбургский» нам не удалось проследить. Выдача по каждому их запросов абсолютно разная.

Очевидно, пример был выбран неудачно, мы проверили выдачу по запросу «ванная» – и убедились, что действительно Яндекс показывает много страниц со словом «ванна».

Команда Яндекса дает статистические характеристики внесенных изменений по расширению слов запроса:

• Переход из одной части речи в другую - 17182 пар слов, 6% запросов

• Транслитерация - 25455 пар слов, 8% запросов

• Аббревиатуры - 19360 пар слов, 1,5% запросов

Однако что касается аббревиатур, на их примере команда Яндекса рассказывает о том, каким образом собирались по текстам интернета зоны .ru связки пар слов (МГУ – Московский Государственный Университет).

1. На первом этапе из архива веба выделяются цепочки вида последовательность слов, слово в верхнем регистре в скобках:

• Парламентская ассамблея Совета Европы (ПАСЕ)

• Мобильные ТелеСистемы (МТС)

2. Затем оставляют те пары, в которых из первых букв последовательности получается слово в скобках.

3. Далее удаляется часть аббревиатур, если средняя частота расшифровки аббревиатуры близка к частоте стоп-слов, а сама расшифровка встречалась меньше, чем на N хостах, удаляем аббревиатуру, например, были удалены:

• правая рука (пр) -- 46 хостов

• что я за это получу (чязэп) -- 16 хостов

• центр информационных систем и технологий в управлении (цисту) -- 2 хоста

4. Если две расшифровки одной и той же аббревиатуры отличаются по Левенштейну не больше, чем минимальная длина расшифровок, умноженная на k, при этом различия распределены равномерно, тогда считаем это одной и той же расшифровкой, например:

• фильтр низких частот <=> фильтр нижних частот

• железная дорога молдавии <=> железная дорога молдовы

5. Удивило то, что если устанавливается омонимия аббревиатур, удаляется вся пара, а не менее частотный омоним:

• управление буровых работ (убр) - 154

• учреждение банка россии (убр) - 26

• московский государственный строительный университет (мгсу) - 2181

• московский государственный социальный университет (мгсу) - 718

6. Также удаляются аббревиатуры, совпадающие с частотными словарными словами:

• технические условия (ту)

• институт гармонического развития и адаптации (игра)

А ты подписался на наш фид? Нет? ==> Подписаться<==Тогда не упусти свой шанс. Я - на Карте Щелкни по картинке дай блогу +1 к рейтингу

Комментариев нет:

Выбери Партнерку по душе:   J2J - SetLinks - Richtraffic - TextSale - Popunder - Begun - LovePlanet - Seoreg - Webst - Mp3fiesta - Kinotraff - LinkFeed - Blogun - Sape  - Xap - Mainlink  - Tak  - Clx  - Wmlink  - Ozon  - Раскрути свой сайт!  - Прогон по каталогам!

Advego.ru - наполнение сайтов информацией