Table of Contents
Материал Google Knowledge Graph Could Change Search Forever из Mashable
Google вас не понимает. Если вы введете в поле поиска запрос «10 самых глубоких озер в США», результаты в выдаче будут релевантными. Они основаны на ключевых словах и авторитетности сайтов, которые «отзываются» на эти слова и фразу в целом. Но, как отмечает Амит Сингхал, страший вице-президент и научный сотрудник Google, самого запроса система не понимает. «Мы скрещиваем пальцы на удачу и надеемся, что кто-то уже опубликовал в сети что-то о запрашиваемых вещах или темах», – говорит Амит.
Но будущее поиска Google может быть совсем другим. Сингхал, который исследует эту тему уже 20 лет, обрисовал концепцию, которая подразумевает переход от простого поиска на основе слов к поиску с учетом сущностей-объектов, их атрибутов и взаимных отношений. Другими словами, на следующей ступени развития поиск Google не просто поймет запрос об озерах, система тут же определит, что речь идет о водоемах и выдаст глубины, площади зеркал (поверхностей водоемов), температуры и даже уровни солености каждого озера.
Чтобы понять, куда идет Google, надо знать, где этот путь начался.
По словам Сингхала, изначально поиск основывался только на индексе контента. Изменения в этой модели появились только с возникновением всемирной паутины, когда поиск начал «дружить» со ссылками. Амит отмечает, что Google был первой системой, которая стала использовать ссылки как «суррогаты рекомендаций». В те дни поисковая выдача зависела от контента ссылок и их авторитетности. Со временем, эта модель обросла дополнительными ориентировками, которые касались самого контента, ключевых слов, данных о пользователе. Все это добавлялось с целью сделать результаты поиска еще лучше.
В конце концов, Google перешел от оценки ключевых слов к оценке значений. «Мы поняли, что запрос New York имеет свой смысл, отличный от первоначальных значений слов New и York, взятых отдельно», – говорит Сингхал. Google разработал и внедрил набор эвристических правил, согласно которым некоторые сочетания слов являются новой единицей с собственным значением. Но эти правила все равно не позволяют системе «понимать», что New York – это город, расположенный в определенном месте, с таким-то населением и т.д.
Распознавание сочетаний слов и их значения – уже кое-что, однако ни Google, ни Сингхал, недавно ставший членом Национальной Академии Инженерного Искусства (National Academy of Engineering), эти не удовлетворены.
Грядущие перемены
Сейчас Google учится узнавать в словах сущности и сопоставлять их с соответствующими значениями и атрибутами. Для человека это естественный процесс, но в мире компьютеров для его реализации требуется то, что называется «искусственным интеллектом».
Задача сложная, но к ее решению уже приступили. Google разрабатывает объемную концепцию сущностей и создает собственное хранилище записей, хранящих информацию об этих сущностях и том, что о них следует знать.
В 2010 году Google приобрел Freebase, собранную сообществом базу знаний, которая содержит 12 миллионов записей о сущностях. 12 миллионов – неплохо для начала, но, по словам Сингхала, Google вложил немалые средства в создание огромного древа знаний (knowledge graph) о связанных друг с другом вещах и их атрибутах.
Переход от основанного на словах индекса к этому древу знаний – фундаментальный сдвиг, в результате которого способности системы и ее сложность увеличатся радикально. Амит сравнивает обычный индекс с содержанием книги. «Древо знаний в разы превосходит индекс, это гораздо более совершенная и продвинутая структура», – отмечает Сингхал.
Сейчас Google создает инфраструктуру для более сложного (с точки зрения алгоритмов) поиска будущего. Конечно, эта задача требует значительных вычислительных мощностей. На этих мощностях и основано древо знаний, которое уже объединяет почти 200 миллионов записей. Что же можно сделать с таким массивом? Начальный этап напоминает первые шаги ребенка. Хотя в поиске Google уже проявляются элементы искусственного интеллекта, большинство пользователей их не замечают.
Древо знаний сегодня
Введите в поле поиска Google, например, запрос «Моне». В выдаче, помимо стандартных результатов, вы увидите блок «Картинки по запросу Моне». В этом блоке – миниатюры 5 или 6 самых известных работ мастера. Сингхал утверждает, что этот блок – проявление понимания: система узнает в запросе фамилию известного художника, и выдает в результатах самые важные вещи, которые его касаются – картины.
На замечание о том, что ничего особенно выдающегося в этом блоке нет (в сравнении с результатами, выданными из индекса), Амит отвечает предостережением: судить о мощи древа знаний на основании такого примера – то же самое, что оценивать талант художника по картинам, написанным им в возрасте 1–2 лет.
Некоторую иронию можно усмотреть в том, что Google обратился к проблеме, которую активно критикует Microsoft Bing, его главный конкурент в поиске. Софтверный гигант заказал ряд роликов, в которых высмеивалась поисковая выдача, состоящая из вхождений, явно не имеющих ничего общего с контекстом запроса. Название Google в этих роликах, конечно, отсутствовало, но большинство видевших их людей поняли, над кем подшучивает Bing. И сейчас Google взялся за улучшение качества поиска.
Сингхал фактически отказался комментировать факт критики со стороны Bing и «выпячивание» этой системой своих алгоритмов, которые нацелены на выдачу полезного контента, а не просто ссылок. Атим сказал, что рассуждать о том, что делает или чего не делает Bing, он не может.
Также следует отметить мнение миллионов пользователей iPhone 4S: для них Siri, умный помощник, работающий в этой модели – воплощение искусственного интеллекта. Siri использует информацию, доступную в телефоне и интернете, чтобы давать ответы на поставленные простым человеческим языком вопросы. Древо знаний Google просто обязано придать системе еще более впечатляющие возможности в плане проявления AI.
Сингхал затрудняется очертить четкие рамки «поиска будущего». «Мы строим “адронный коллайдер”. Я не могу сейчас предсказать, какие частицы получатся у нас на выходе», – говорит он.
С другой стороны, Атим признает, что его мечта – построить компьютер, работающий как в «Звездном пути» (Star Trek). Впервые это выдуманное чудо техники было представлено зрителю в одноименном сериале 60-х годов прошлого века. Как и эппловская Siri, компьютер из «Звездного пути» давал осмысленные ответы практически на любые вопросы. В отношении создаваемого Google древа знаний Сингхал говорит: «Искусственный интеллект и общие вычисления выигрывают от того, что инфраструктура построена внутри компании. Повышая качество обработки поисковых запросов, мы приближаемся к созданию компьютера как в “Звездном пути”».
Не только поиск
Раз речь зашла о «Звездном пути», стоит упомянуть еще одну передовую отрасль, которая может использовать всю мощь древа знаний Google: робототехнику. Амит Сингхал, конечно, не является экспертом в этой области, но он отмечает, что робототехника, существующая на стыке механики и сложных вычислений, сталкивается с большими трудностями, когда речь заходит о чем-то, связанном с языком. «Я думаю, что мы создаем основы для будущего общения между роботами и людьми, общения, которое будет происходить на обычном языке», – говорит Сингхал.
Картина рисуется следующая: робот, имеющий постоянную связь с основанным на сущностях поиском Google, способен понять, что вверенный ему «младенец» (как, вы не доверите своего ребенка роботу?) – маленький, хрупкий и всегда голодный. Возможно, робот даже будет знать, как кормить малыша, так как ему будет знакома сущность «всегда голодный», которая вместе с сущностью «ребенок» приведет к появлению атрибута «только жидкая пища».
200 миллионов записей – это много, но объем знаний в мире не просто огромен, его границы необозримы. Сколько сущностей надо «вбить» в древо знаний Google, чтобы получать от него ответы на все вопросы? Вместо прямого ответа и конкретной цифры, Сингхал смеется и подходит к вопросу с другой стороны: «Человеческий мозг замечателен своей способностью к оригинальности, нахождению неизбитых путей. Лучший ответ, который я могу дать, – человек будет продолжать генерировать знания, а то древо знаний, которое мы сейчас строим, является инструментом в этой генерации. Мы имеем дело с бесконечным квантитативным циклом созидания».