Одна из больших проблем работы с языком заключается в том, что слово может означать более одного значения. Например, яблоко может означать фрукт или компьютерную компанию. Люди, как правило, очень хорошо разбираются в значениях слов или «устраняют неоднозначность», но теперь нам нужен ИИ, чтобы быть таким же хорошим.
Google Research только что выпустил корпус Wikilinks, содержащий более 40 миллионов однозначных «упоминаний» на более чем 10 миллионах веб-страниц. Это намного больше, более чем в 100 раз, чем было доступно до сих пор. «Упоминание» — это термин, имеющий ссылку на страницу Википедии. Якорный текст ссылки можно рассматривать как определяемый или устраняющий неоднозначность содержанием страницы Википедии.
Чтобы извлечь что-то из этой базы данных, ее нужно обработать. Например, если разные упоминания ссылаются на одну и ту же страницу Википедии, то предположительно веб-страницы говорят об одном и том же объекте. Вы также можете построить более подробное определение объекта, объединив связанные страницы. Вы даже можете напрямую справиться с устранением неоднозначности, например, обнаружив, что Apple ссылается на две отдельные страницы Википедии, одну о фруктах, а другую о компьютерной компании.
Это исходный материал, который можно использовать для создания новых приложений искусственного интеллекта. Вы можете получить данные (около 1 Гбайт в сжатом виде) в виде загрузки. Данные включают URL-адрес веб-страницы, текст привязки, цель Википедии и некоторые дополнительные сведения. Есть также некоторые инструменты, которые помогут вам приступить к его обработке из UMass Amherst.
Данные больше говорят об упоминании, чем просто устраняют неоднозначность его значения, и имеют большой потенциал, чтобы помочь в общей обработке естественного языка. Статистический подход к пониманию требует большого количества данных, и этот корпус — большой шаг в правильном направлении. Это тот вид данных, который используется в Google Translate и может со временем использоваться для преобразования поиска Google в семантический, а не специальный набор сигналов.