На человеческом уровне: как интернет-поисковики учатся у людей
Российская компания "Яндекс" представила новую версию интернет-поиска: он основан на усовершенствованной нейронной модели, которая анализирует веб-страницы целиком и расставляет их на выдаче по смыслу, а не только по ключевым словам. Это решает проблему "мусорных" веб-страниц, которые не соответствуют запросам пользователей и появляются в выдаче лишь потому, что содержат те же слова, что в запросе.
"В основе новой версии поиска лежит поисковый алгоритм "Королёв" - с помощью нейронной сети он сопоставляет смысл запроса и веб-страницы. Благодаря этому поиск понимает, что именно нужно пользователю, и отвечает на сложные вопросы более точно", - сообщили в компании.
Нейронной называют математическую модель, которая работает по принципу нервных клеток живого организма. Наиболее эффективно эти модели справляются с распознаванием людей и объектов на фотографии.
В 2016 году "Яндекс" запустил поисковый алгоритм "Палех", названный в честь русской народной росписи. Лежащая в основе этого алгоритма нейросеть анализирует поведение пользователей - на что они кликают, а на что нет - и чем дальше, тем лучше "понимает", насколько запросы соответствуют заголовкам веб-страниц.
Так, введя запрос "фильм про человека, который попал на остров и разговаривал с мячом", мы обнаружим ссылки на веб-страницы, посвященные блокбастеру "Изгой". Далеко не все страницы будут содержать слово "мяч", зато они больше подходят по смыслу.
Новая версия поиска "Яндекса", представленная в московском планетарии 22 августа, "понимает" смысл уже не только заголовков, но также веб-страниц и документов в целом. По словам представителей "Яндекса", это убыстряет, углубляет и делает поиск более качественным.
"Поиск - это очень сложная система. Тысячи инженеров работают над тем, чтобы она понимала человека и помогала решать его задачи. В "Королёве" мы объединили машинный интеллект и усилия миллионов людей. Наши пользователи улучшают поиск вместе с нами, задавая вопросы и помогая обучать наши алгоритмы", - говорит руководитель поиска "Яндекса" Андрей Стыскин.
Для оценки качества поиска вместо традиционного коллектива оценщиков "Яндекс" использует "Толоку" - сеть контролеров качества, в которую ежегодно входит более 1 млн человек. Отслеживать собственный вклад в обучение нейросетей "Яндекса" пользователь сможет с помощью сервиса "Спасибо".
Долгосрочная цель - создать модель поиска, которая будет "понимать", насколько веб-страницы соответствуют запросам пользователей, на уровне, сравнимом с уровнем человека, отмечают в компании.
Google, основной конкурент "Яндекса" и поиск № 1 в мире, также использует нейросети. Так, онлайн-переводчик Google уже не разбивает предложения на отдельные слова, а учится воспринимать предложения целиком, в том числе исходя из контекста. С марта 2017 года технология работает для переводов с русского и на русский.
Как новые технологии поисковиков меняют пользовательский опыт?
Поисковики воспринимают естественный язык
Мы быстро, просто и понятно объясняем, что случилось, почему это важно и что будет дальше.
эпизоды
Конец истории Реклама подкастов
Чемпионаты по поиску в интернете, в которых запросы больше напоминают программный код - прошлый век. Нейросети приближают компьютерный интеллект к человеческому.
Обработка естественной речи уже лежит в основе многих программ - персональных ассистентов. В 2011 году компания Apple запустила персонального ассистента Siri, после чего появились Amazon Alexa, Google Now, Microsoft Cortana и "Яндекс Алиса".
Все эти программы отвечают на простые устные запросы и дают советы, учитывая время, местоположение, погоду и другие обстоятельства, в которых находится пользователь. Поисковики стараются не отставать от них и выделяют в отдельную категорию условно детские запросы, например, "дорогой яндекс вот пожалуйста включи песню братьев радченко для мамы". В первую очередь на выдаче появится сама песня, а веб-страницы, изобилующие ключевыми словами "дорогой" и "включи" окажутся ниже. Такой же принцип действует у Google.
Правда, самостоятельно включать песню, не заставляя пользователя переходить по ссылке, поисковики, в отличие от персональных ассистентов, пока не научились.
Поисковики обрабатывают устные запросы
Это следствие развития технологий обработки речи. Большинство устных запросов поступает с мобильных устройств, при этом в устной речи пользователи более склонны давать уточненные формулировки.
Так, запрос "купить старинную мебель" скорее поступит в текстовом варианте, а "купить дубовый комод XIX века" - в устном. Поэтому поисковики должны уметь воспринимать на слух практически все слова.
Поисковики лучше работают с постами в соцсетях
Еще несколько лет назад поисковики уделяли непропорционально мало внимания постам в соцсетях, хотя именно там зачастую находилась информация, которую искали пользователи. В 2015 году Facebook обновил функцию Notes, которая позволяет размещать длинные тексты с фотографиями.
Для поисковиков уже нет никакой разницы, размещен ли такой текст на обычном сайте или в соцсети.
По данным Liveinternet, самым популярным поисковиком в России остается "Яндекс": его среднесуточная аудитория в июне 2017 года составляла 54 млн пользователей, аудитория Google - 46 млн.