1 миллиард веб-страниц = 1 миллион долларов?


Казалось бы, легче, чем мы думали, выиграть «Кто хочет стать миллионером». Все, что вам нужно, — это немного интеллектуального анализа данных, доступ в Интернет и ответы на вопросы почти тривиальны.

Кто хочет стать миллионером — это викторина с несколькими вариантами ответов. Участнику задается вопрос и предлагается набор возможных ответов. Все, что нужно сделать участнику, — это выбрать правильный ответ. Есть некоторые интересные стратегические сложности, такие как возможность выбрать помощь друга или уменьшить количество альтернатив, но это более или менее общий план игры. Награды назначаются, и неправильный вопрос означает, что участник получает выигрыш на последнем «этапе», который может быть нулевым, если этапы не пройдены.

Первый вопрос: можем ли мы автоматизировать ответы на вопросы с несколькими вариантами ответов, используя все огромные объемы данных в Интернете?

Ответ, согласно Шионгу (Тони) К. Ламу, Дэвиду М. Пенноку, Дэну Косли и Стиву Лоуренсу из четырех разных университетов США, заключается в том, что это оказывается очень простым. На самом деле это даже не вопрос искусственного интеллекта — будет достаточно простого интеллектуального анализа данных в сочетании с несколькими статистическими методами. Вы можете добиться улучшения с помощью простой языковой обработки, но это не кажется большим.

Основной метод заключался в том, чтобы взять каждый вопрос, связать его с каждым возможным ответом и построить поисковый запрос. Когда этот запрос отправляется в Google, все, что вам нужно сделать, чтобы выбрать правильный ответ, — это подсчитать количество возвращенных страниц. Другими словами, вы используете количество возвращенных страниц как меру того, как вопрос возникает вместе с ответом в сети. Ответ с наибольшей корреляцией с вопросом считается правильным.

Этот удивительно простой подход позволяет правильно ответить на более 55% вопросов. Если вы добавите дополнительный этап обработки, который извлекает первые десять веб-страниц и измеряет расстояние в тексте между вопросом и ответом и использует его для взвешивания результатов, вы можете добиться большего. Но чтобы добиться разумного улучшения, вы должны провести некоторый синтаксический анализ и выяснить, насколько близки словосочетания существительных в вопросе к возможным ответам. Используя этот метод, точность достигает 69%. Использование комбинации методов обеспечивает точность 70%, что впечатляет, учитывая простоту метода.

Команда также опробовала метод с различными поисковыми системами, и вы можете узнать, что результаты были:

Я думаю, это означает, что вы, вероятно, захотите взять Google с собой на эту викторину.

Исследователи приводят примеры типов вопросов, которые метод имел тенденцию ошибаться, и они интересны, потому что дают некоторое представление о том, что ограничивает простой неинтерпретирующий интеллектуальный анализ данных:

Здравый смысл. Сколько ног у рыбы? 0, 2 или 4? Эта информация может существовать в Интернете, но, вероятно, не разглашается.

Множественные правдоподобные ответы. Что означает буква «]» в названии компьютерной компании «IBM»? Информационная, международная, промышленная или инфраструктурная? «Информация», вероятно, появляется так же часто, как и «международная» в контексте IBM.

Многозначность. Какая из этих частей дома имеет такое же название, что и область просмотра на экране компьютера? Стена, корень, окно или подвал? Слова «корень» и «компьютер» часто встречаются одновременно (например, суперпользователь Unix). Этот вопрос также предполагает, что предвзятость в содержании Интернета, исходящая от технических и компьютерно грамотных пользователей, может в некоторых случаях препятствовать использованию Интернета в качестве общей базы знаний.

Нетекстовые знания. Какой из этих городов находится в России? Киев, Минск, Одесса или Омск? Программа не умеет читать карты.

Альтернативные представления. Кто заклятый враг Флэша Гордона? Доктор Осьминог, Синестро, Мин Безжалостный или Лекс Лютор? Слово «заклятый враг» обычно появляется как два слова («заклятый враг») на страницах Флэша Гордона (и других).

Вы можете подумать, как улучшить ситуацию, чтобы эти проблемы больше не были проблемами — это непросто.

Исследователи также занялись проблемой определения оптимальной стратегии с точки зрения рисков и вознаграждений по мере развития игры. другими словами, когда вы должны уйти с тем, что у вас есть, и отказаться от поиска миллиона долларов.

В целом анализ интересен и дает некоторое представление о том, насколько эффективны простые методы, если у вас достаточно данных.


Добавить комментарий