Интернет агентство
полного цикла
Отправить заявку
Москва, ул. Нижегородская, 17
г. Пятигорск, ул. Орджоникидзе, д. 11
8 (938) 302-59-48
Максимов Антон , Руководитель отдела продвижения

Нейросети в алгоритмах Яндекса: что происходит с отечественным поиском

Новый алгоритм Яндекса «Королёв» (по фамилии известного советского авиаконструктора) основан на анализе поисковых запросов при помощи нейронных сетей. Но прежде чем вдаваться в подробности, давайте разберёмся, что предшествовало появлению этого алгоритма.


Нейронные сети

kor2.png

Нейросети давно помогают людям в задачах, связанных с распознаванием и анализом различных видов информации: от текстовых документов до изображений и даже речи. Поисковики используют эти технологии уже довольно давно, чтобы анализировать и сопоставлять пользовательские запросы с заголовками и содержимым страниц. Главный плюс нейронных сетей в том, что их можно обучать на положительных и отрицательных примерах.

Относительно поиска Яндекса это выглядит так: сети показывают множество пар запрос-заголовок и отмечают те, в которых страница соответствует запросу как «положительные». С отрицательными примерами всё проще: достаточно взять случайный запрос и случайный заголовок, никак друг с другом не связанные. Так происходит обучение.

Важен и принцип самообучения нейронных сетей. В прошлом году Яндекс выпустил алгоритм «Палех», который перед запуском научили преобразовывать запросы и заголовки в группы из трёхсот чисел каждая — так называемые семантические векторы. Преимущество данных векторов в том, что сеть может их сравнивать. Чем больше сходство, тем теснее связь запроса со страницей.


Итак, «Палех»

kor3.png

Символом алгоритма является птица, которая часто появляется на палехских миниатюрах – отсюда и название. Она изображена даже на гербе и флаге Палехского муниципального района. По замыслу разработчиков алгоритма, птица олицетворяет ситуацию с поиском – небольшая голова составляет высокочастотную основу запросов: [погода], [кинопоиск] и т.д.; тело – среднечастотные запросы; большой и пышный хвост – низкочастотка. И действительно, по словам разработчиков, около 50% запросов в Яндексе составляют низкочастотные и микронизкочастотные запросы.

Суть алгоритма сводится к смысловому подбору заголовков в ответ на пользовательский запрос. Например, по запросу «фильм где человек остался один на земле с собакой» поисковик выдаст адекватный ответ. Хотя, как мы видим из выдачи, по запросу «фильм где мужик негр с собакой остался в городе один», он может выдать нечто сильно похожее. Работает ведь!

kor4.png

Для этого и понадобился алгоритм: необходимо анализировать запросы с низкой частотностью для улучшения качества ранжирования документов. Проблема «Палеха» была в низких вычислительных мощностях: он мог обрабатывать всего 150 страниц на один запрос, в «Королёве» же они увеличились до 200 тысяч.


Ну и сам «Королёв»

Новый алгоритм является логичным продолжением предыдущего: увеличились вычислительные мощности, анализ теперь затрагивает не только заголовок, но и «тело» страницы. Также «Королёв» проводит процедуру сравнения ещё на этапе индексирования, позволяя экономить время и вычислительные ресурсы. Это позволяет подготовить базу подходящих страниц под те запросы, которые ещё даже не вводились в поисковую строку.

kor5.png

Из всего вышесказанного можно вынести простой вывод: низкочастотные информационные запросы в ближайшее время должны начать ранжироваться намного адекватнее ещё и по смысловой составляющей. Конечно, для этого нужно время, но все предпосылки и возможности есть.


Оставьте комментарий

Подпишитесь на рассылку:

Популярное: