NLUlite — новая база данных синтаксического анализа естественного языка, которая читает английские тексты и затем может отвечать на вопросы о них, была выпущена в качестве общедоступной альфа-версии.
NLULite был создан для удобства разработчиков и состоит из сервера и клиента Python. Вы используете его, передавая ему текст. Текст помечается с использованием частот тегов, указанных в Открытом американском национальном корпусе (OANC). Затем предложения анализируются с использованием частот синтаксического анализа, извлеченных из OANC. «Расстояние» между словами определяется с помощью корпуса Wordnet (3.1). Затем синтаксический анализ улучшается путем выбора предложений, которые имеют больше смысла в соответствии с набором данных Framenet.
В качестве примера того, как это работает, если вы передадите ему текст из Википедии о змеях, он сможет ответить на такие вопросы, как:
- что умеют змеи?
- где обитает большинство змей?
- у какого животного нет конечностей?
Тексты могут включать простые правила вывода, такие как «Если у животного нет конечностей, оно не может ходить», после чего вы (или последующий пользователь) можете спросить «что не ходит» и получить ответ в виде представленного текста и правила вывода, которые вы дали.
Источники данных могут включать веб-страницы и RSS-каналы. Данные хранятся как объекты класса «мудрость». Ваш код может настраивать множество объектов Wisdom, и каждый из них представляет собой отдельную базу знаний. В настоящее время вы можете использовать NLUlite только для анализа текстов размером меньше мегабайта, хотя разработчик планирует увеличить это в будущих версиях. После анализа текста информация сохраняется в формате XML.
NLULite доступен в однопоточной бесплатной версии или в коммерческой многопоточной версии, которая намного быстрее анализирует страницы.
Хотя существует ряд проектов естественного языка, таких как Stanford Natural Language Processing Group и Natural Language Toolkit, эта область все еще развивается.