Zalando Research только что выпустила новую версию Flair, простой библиотеки обработки естественного языка (NLP) Python. Flair построен на Python поверх фреймворка глубокого обучения PyTorch, а в обновленной версии добавлены две новые предварительно обученные фреймворки, которые вы можете использовать.
Разработчики говорят, что Flair дает компьютеру возможность понимать, маркировать и классифицировать письменные тексты:
«Чутье полезно, когда вы хотите понять значение сообщений электронной почты, ответов клиентов, комментариев на веб-сайтах или любого другого сценария, в котором пользователи отправляют текстовый отзыв, который вы хотите автоматически классифицировать или обработать иным образом».
Библиотека содержит предварительно обученные модели для задач НЛП, включая распознавание именованных сущностей (NER) для обнаружения таких вещей, как имена людей или местоположений в тексте, и теги части речи (PoS) для обнаружения синтаксических типов слов, таких как глаголы и существительные. Он также поддерживает разрешение неоднозначности и классификацию. Вы можете применить к вашему тексту предварительно обученные модели или обучить собственные модели маркировки последовательностей или классификации текста. Flair имеет простые интерфейсы, которые позволяют использовать и комбинировать различные вложения слов и документов, включая собственные вложения Flair фреймворка, а также встраивания BERT и вложения ELMo.
Разработчики говорят, что точность Flair превосходит все предыдущие лучшие методы в большом диапазоне задач НЛП. В недавней статье Zalando Research под названием «Встраивание контекстных строк для маркировки последовательностей» обсуждается подход, используемый программным обеспечением, и почему оно превосходит предыдущие лучшие методы. На диаграмме ниже показан новый подход:
Здесь предложение внизу вводится как последовательность символов в модель двунаправленного символьного языка (LM, желтый на рисунке), которая была предварительно обучена на чрезвычайно больших наборах текста без меток. Из этого LM программа извлекает контекстное вложение для каждого слова. Это достигается путем извлечения состояний ячейки первого и последнего символа. Это встраивание слов затем передается в стандартный разметчик последовательностей BiLSTM-CRF (синий на рисунке), что обеспечивает надежные современные результаты при выполнении последующих задач (NER в этом примере).
В новом выпуске добавлены две предварительно обученные модели. Это модель анализа настроений, обученная на наборе данных IMDB, и модель обнаружения оскорбительного языка, которая на данный момент ограничена распознаванием немецкого оскорбительного языка.
Модель анализа настроений можно использовать через REST api, и она дает вам службу анализа настроений, сравнимую с API Google Cloud Natural Language, но без связанных с этим затрат на использование API Google.