Вышла новая версия SpaCy, библиотеки обработки естественного языка на Python, которую разработчики называют мощной индустриальной и невероятно быстрой с простым и производительным API.
Команда разработчиков утверждает, что spaCy отлично справляется с крупномасштабными задачами извлечения информации. Он написан с нуля на Cython с управлением памятью, надмножестве Python, целью которого является обеспечение производительности, подобной C, с кодом, написанным в основном на Python. Независимое исследование, проведенное в 2015 году, показало, что spaCy является самым быстрым синтаксическим анализатором в мире. spaCy можно использовать для подготовки текста для глубокого обучения, и он взаимодействует с TensorFlow, PyTorch, scikit-learn и Gensim.
Новый выпуск описывается как более компактный, чистый и еще более удобный для пользователя, с новыми модельными пакетами и функциями для обучения, оценки и сериализации. Он улучшил производительность по сравнению с текстами с нижним регистром, чтобы преодолеть любые проблемы из-за того, что модели были обучены на хорошо сформированных данных с точки зрения регистра и формальности, а затем использовались для реальных текстов с непоследовательным регистром и пунктуацией. Разработчики преодолевают это с помощью новой системы дополнения данных, и первая функция, которая будет представлена в моделях v2.2, — это система замены слов, которая также поддерживает парные знаки препинания, такие как символы кавычек.
Новые предварительно обученные модели были добавлены для норвежского и литовского языков, хотя разработчики говорят, что точность на обоих этих языках должна улучшиться в последующих выпусках, поскольку текущие модели не используют ни предварительно обученные векторы слов, ни команду предварительного обучения SpaCy.
Добавлены новые функции интерфейса командной строки для обучения, особенно для категоризации текста. Сообщения об ошибках были улучшены, документация обновлена, а показатели оценки более подробны. Для классификатора текста в CLI была добавлена встроенная поддержка, поэтому теперь вы можете писать команды так же, как при обучении парсера, распознавателя объектов или тегировщика.