ГлавнаяБлог Алгоритм «Палех»: счастье — это когда тебя понимают

Алгоритм «Палех»: счастье — это когда тебя понимают

Команда «Яндекса» сообщила о старте амбициозного проекта по запуску нового алгоритма поиска, который способен «понимать» не только то, что пользователь вводит в строку поиска, но и что он при этом имеет в виду.

Прикладная орнитология

В СМИ «Яндекс» справедливо называют российским поисковым гигантом, ежедневно отвечающим на более чем 280 миллионов запросов пользователей. Некоторые из них постоянно повторяются и вводятся в поисковую строку почти ежесекундно — «одноклассники», «вконтакте», «скачать бесплатно». Другие — абсолютно уникальны и могут не повториться никогда — количество таких «эксклюзивных» запросов может достигать 100 миллионов в сутки.

Внешний вид графика, отражающего частоту распределения запросов, который составила команда «Яндекса», напомнил разработчикам сказочную птицу с клювом, туловищем и длинным хвостом. Острый клюв - относительно небольшой список наиболее распространенных и повторяющихся запросов. Более массивное, но менее плотное туловище - среднечастотные запросы. А объемный разреженный массив редко встречающихся и уникальных запросов выступает в роли роскошного длинного хвоста.

Новый поисковый алгоритм дает «Яндексу» возможность лучше обрабатывать даже самые нестандартные вопросы из «хвостовой области» фантастического пернатого, которое в сказках носит имя Жар-птицы. Изображения этой чудо-птицы — «фирменный знак» палехской миниатюры. Так «само-собой» было выбрано название нового алгоритма — «Палех».

Откуда растет хвост

Низкочастотные запросы относятся к самым различным категориям и их систематизация достаточно затруднена. В наиболее общей классификации, например, принято выделять необычные:

  • детские запросы: малыши, воспринимающие компьютер как живое существо, обращаются к нему с просьбами: Дорогой Яндекс, подскажи, пожалуйста, какие-нибудь новые прикольные игры с динозавриками для плантика;
  • запросы по эпизоду: люди, пытающиеся вспомнить название книги, песни или фильма по отрывку. Например, «фильм о человеке, вырастившем картошку на чужой планете» — «Марсианина». Или «где физики объясняют женщине свойства дейтерия» — «Девять дней одного года».

Запросы, отнесенные командой «Яндекса» к области «длинного хвоста», отличаются повышенной сложностью обработки для поисковой системы. Отвечая на вопросы, «принесенные в клюве», которые задают постоянно, алгоритм опирается на многочисленные данные пользовательской статистики. Релевантность ответа находится в прямой зависимости от информации о поведении пользователей — если алгоритм «знает», что большинство пользователей переходят по ссылке и остаются на странице, значит ресурс (с высокой степенью вероятности) соответствует запросу. В случае с уникальными запросами подобных данных просто не существует и «Яндекс» не может определить, насколько тот или иной сайт годится для решения проблемы пользователя.

Задача дополнительно осложнена тем, что слова, использованные пользователем в запросе, совсем не обязательно присутствуют на релевантной странице интернет-ресурса! Для выражения одного и то же смысла на сайте и в запросе могут быть использованы совершенно несовпадающие выражения.

Уникальные запросы-перья из области «длинного хвоста» практически никогда не совпадают и не повторяются, но, как и высокочастотные, должны быть обработаны максимально качественно, а ответы на них должны быть максимально релевантными.

Для решения этой задачи команда «Яндекса» решила привлечь нейронные сети.

Векторная семантика и семантический вектор

ИНС (искусственная нейронная сеть) сегодня считается одним из наиболее эффективных способов машинного обучения. Самые впечатляющие результаты нейросети продемонстрировали при анализе информации естественного происхождения: звуков, изображений, текста.

Искусственный интеллект учат распознавать выбранные объекты (кошек, собак или деревья), например — в графике. Для этого в процессе обучения нейросетям показывается огромное количество визуальных образов, содержащих нужные объекты (в качестве положительных примеров) и видеоматериалы, где объекты отсутствуют (в качестве отрицательных примеров). В результате у нейросети формируется способность определять выбранные объекты на всех видах представленных изображений.

Обработка поисковых запросов в большинстве случаев основана на тексте — контенте, который вводится пользователем в поисковую строку и содержится в заголовках веб-страниц, а не визуальных образах, но принцип обучения остается неизменным: «плюс» и «минус». Каждый из предлагаемых сети примеров представляет собой пару «запрос-заголовок». Подбор примеров базируется на статистике, накопленной поиском. Опираясь на поведение пользователей, искусственные нейронные сети учатся «понимать», соответствует ли каждый определенный запрос заголовку той или иной страницы.

Работа любого компьютера основана, в первую очередь, на обработке числовых данных. Поэтому разработчики алгоритма стремились свести поиск соответствия между запросом и заголовком к анализу числовых значений. Они научили искусственный интеллект «переводить» известные поисковой системе заголовки в digital-формат — группы из 300 чисел. Таким образом была создана уникальная трехсотмерная «система координат» для каждого документа из базы данных «Яндекс». Размещая поисковый запрос, переведенный в цифровой вид, в этом пространстве, нейросеть сопоставляет его местоположение с вероятными ответами и подбирает наиболее релевантный — ближе всего находящийся.

Подобный метод обработки запросов и сопоставления получил название «семантического вектора». Подход доказал свою высокую эффективность при работе с запросами из области «хвоста» Жар-птицы — семантические векторы дают возможность находить ответы даже на наиболее низкочастотные запросы с отсутствующей пользовательской статистикой. Еще более важным оказывается то, что представление запроса и заголовка в виде вектора 300-мерного пространства позволяет оценить степень их соответствия даже при отсутствии общих ключевых слов!

Большие планы

Использование семантического вектора ведется командой «Яндекс» несколько месяцев и сегодня инструмент применяется не только в поиске, но и в других сервисах. В «Картинках», например, он отвечает за поиск изображений, максимально точно соответствующих текстовому описанию.

Инновационная технология предоставляет разработчикам огромные возможности. Ведь в семантический вектор могут быть переведены не только заголовки, а контент всей страницы или даже профиль пользователя! Это даст возможность в будущем создать модели, «оценивающие» семантическое соответствие запроса документу на уровне человека!

Последние записи: Что ищут пользователи на разных типах устройств Коммерческие факторы ранжирования Фильтр Bad Neighborhood Войны клонов: использование канонических URL Быстрые ссылки в Яндекс и Google Графики в разделе «Внешние ссылки» сервиса «Яндекс.Вебмастер» Поисковый индекс Google mobile-first индекс: мы будем жить теперь по-новому? Баден-Баден: «Говорите по-человечески» Смотреть, чтобы видеть: обновленный Вебвизор 2.0 Как присвоить регион сайту в Яндексе? 50 ошибок, ухудшающих юзабилити сайта Улучшаем юзабилити сайта: 64 совета о том, как сделать сайт удобнее Как правильно разработать и оптимизировать структуру сайта Правильная оптимизация текстов на сайте Почему SEO-продвижение не может быть быстрым Почему не стоит продвигать сайт самостоятельно Турбо-страницы Скорость обхода страниц Отчет по расписанию – новая функция Яндекс.Метрики Почему SEO-продвижением следует заниматься постоянно Контекстная реклама Яндекса – любая картинка превращается в видео! Что выбрать – SEO или контекстную рекламу? Юзабилити сайта – что это такое и как провести его аудит Индекс качества сайта ИКС – новый показатель качества
КОНТАКТНАЯ ИНФОРМАЦИЯ
  • 620010, г. Екатеринбург
    ул. Грибоедова, 32/20, оф. 707, 709
    Тел. +7 (343) 204-78-80
    E-mail: client@artena.ru
  • 625049, г. Тюмень, ул. Новосибирская, 131.
    Тел. +7 (3452) 59-60-71,
    E-mail: tumen@artena.ru
  • 119331, г. Москва, пр-т Вернадского, 29, офис 508
    Тел. +7 (495) 128-21-42
    E-mail: msk@artena.ru
Похвалить
Пожаловаться
Посоветовать