Spark получает библиотеку NLP


Для Apache Spark есть новая библиотека обработки естественного языка, которая расширяет логику машинного обучения Spark, предоставляя аннотации NLP для конвейеров машинного обучения, которые масштабируются в распределенной среде.

Apache Spark — это платформа кластерных вычислений общего назначения с встроенной поддержкой распределенного SQL, потоковой передачи, обработки графиков и машинного обучения. Логика Spark состоит из двух основных компонентов: оценщиков и преобразователей. Они объединяются с помощью конвейеров для объединения нескольких оценщиков и преобразователей в один рабочий процесс, что позволяет выполнять несколько связанных преобразований в задаче машинного обучения.

Библиотека НЛП John Snow Labs принадлежит компании по анализу больших данных, хорошо известной в сфере здравоохранения. Имеет открытый исходный код под лицензией Apache 2.0, он написан на Scala и не зависит от других библиотек NLP или ML. Фреймворк использует концепции аннотаторов и поставляется с:

Токенизатор

Нормализатор

Стеммер

Лемматизатор

Экстрактор сущностей

Дата экстрактор

Часть речевого теггера

Признание именованных сущностей

Обнаружение границы предложения

Анализ настроений

Программа проверки орфографии

Поскольку библиотека тесно интегрирована со Spark ML, вы также можете выполнять задачи, включая встраивание слов, моделирование тем, удаление стоп-слов и различные функции разработки функций, включая tf-idf, n-граммы и показатели сходства. Эти аспекты стали возможными благодаря собственному машинному обучению Spark.

Библиотека полагается на использование аннотаторов, и они бывают двух форм:

Подходы с использованием аннотаторов используются для представления оценщика машинного обучения Spark. Им нужен этап обучения, чтобы работать. Вы используете функцию под названием fit (data), которая обучает модель на основе некоторых данных. Подход аннотатора используется для создания второго типа аннотатора, который является моделью аннотатора или преобразователем.

Модель аннотатора — это модель или преобразователь Spark. Это означает, что у него есть функция преобразования (данных), которая принимает набор данных и добавляет к нему столбец с результатом аннотации. Все трансформаторы аддитивны, то есть они добавляют к текущим данным, никогда не заменяют и не удаляют предыдущую информацию.

Обе формы аннотаторов могут быть включены в конвейер и будут автоматически проходить все этапы в указанном порядке и соответствующим образом преобразовывать данные. Конвейер превращается в PipelineModel после этапа fit ().

Библиотека НЛП Джона Сноу доступна на Github.


Добавить комментарий