Возможно, вы не знаете, что вам нужен семантический движок, но если вы планируете продвинутую веб-разработку с использованием ИИ или какой-либо умной техники, вы, вероятно, сделаете это. Новый движок fise от Nuxeo — это HTTP-сервер с открытым исходным кодом, который можно использовать локально, а также размещать в облаке.
Семантический механизм извлекает значение документа, чтобы организовать его как частично структурированные знания. Например, вы можете отправить пакет новостей семантическому механизму и получить древовидную категоризацию в соответствии с предметами, с которыми они имеют дело.
Современные семантические движки обычно могут:
классифицировать документы (этот документ написан на английском, испанском или китайском языках? Эта статья должна быть помещена в категории «Бизнес», «Образ жизни», «Технологии»? …);
предлагать значимые теги из контролируемой таксономии и утверждать их относительную важность по отношению к текстовому содержанию документа;
найти соответствующие документы в локальной базе данных или в Интернете;
извлекать и распознавать упоминания известных сущностей, таких как известные люди, организации, места, книги, фильмы, гены, … и связывать документ с записями в базе знаний (например, биографией известного человека);
обнаруживать еще неизвестные сущности тех же вышеупомянутых типов для обогащения базы знаний;
извлеките утверждения о знаниях, которые присутствуют в тексте, чтобы заполнить базу знаний вместе со ссылкой, чтобы отследить происхождение утверждения. Примерами таких утверждений может быть тот факт, что компания покупает другую вместе с суммой сделки, датой выхода фильма, новым клубом футболиста …
Хотя существуют веб-движки, такие как Open Calais, Zemanta и Evri, новый движок fise от Nuxeo представляет собой HTTP-сервер с открытым исходным кодом, который можно использовать как локально, так и размещать в облаке. Это означает, что при необходимости вы можете хранить конфиденциальные данные внутри компании и при этом передавать их семантическому механизму для анализа.
Если вы хотите опробовать его, не скачивая и не размещая код, предоставляется демонстрационный сайт. Fise имеет интерфейс Rest и выглядит довольно простым в использовании. Вы можете отправить документ и получить обратно анализ в различных формах, включая интерфейс запросов SPARQL.
Чтобы попробовать это в браузере (на момент написания IE, похоже, не работал), просто перейдите на http://fise.demo.nuxeo.com/engines.
Если вы введете:
«Альберт Эйнштейн был умным человеком»
и щелкните Запустить механизмы, и анализ появится на веб-странице под введенным вами текстом. Фотография Эйнштейна показывает, что движок обнаружил имя великого человека, а затем XML-файл в формате RDF дает вам семантические детали. Если вы исследуете, то обнаружите, что в тегах типа сущности Эйнштейн идентифицируется как Человек-> Ученый.
Более сложные документы дают более сложные результаты, включая карту, показывающую географические отношения между людьми и местами, упомянутыми в тексте.
Это не всегда идеально. Например, при запуске нашей недавней новости о Amazon Kindle против Apple IPad была получена карта с указанием штаб-квартиры Apple и тропических лесов Амазонки. Тем не менее, подобные проблемы можно исправить, и чем больше используется двигатель, тем лучше он становится! Внутри он использует OpenNLP для идентификации сущностей, Apache Lucene для индексации и поиска сущностей и вызывает DBpedia для связывания сущностей с местоположениями.
Очевидно, что задача большинства разработчиков состоит в том, чтобы сначала научиться использовать API, а затем решить, что делать с RDF или любым другим форматом вывода, который вы выберете. Использование семантического анализа — вот где сейчас лежит тяжелая работа. Но независимо от того, как вы на это смотрите, наличие семантического движка с открытым исходным кодом, на котором можно опробовать, — это подарок.