Google Open Sources Альберт НЛП


Google сделал ALBERT (Lite BERT) доступным в версии с открытым исходным кодом. ALBERT — это модель обработки естественного языка с глубоким обучением, которая, по словам разработчиков, использует гораздо меньше параметров, чем BERT, без ущерба для точности.

Двунаправленные представления кодировщика от Transformers или BERT — это самоконтролируемый метод, выпущенный Google в 2018 году. Он стал известен впечатляющими результатами, достигнутыми этой техникой в ряде задач НЛП, опираясь на неаннотированный текст, взятый из Интернета. . Большинство подобных систем НЛП основаны на тексте, который был помечен специально для данной задачи.
ALBERT — это обновление до BERT, которое обеспечивает повышенную производительность при выполнении 12 задач НЛП, включая конкурентоспособный набор данных ответов на вопросы Стэнфордского университета (SQuAD v2.0) и тест RACE на понимание прочитанного в стиле SAT. Albert выпускается как реализация с открытым исходным кодом поверх TensorFlow и включает ряд готовых к использованию предварительно обученных моделей представления языка.
Согласно докладу, представленному его разработчиками на Международной конференции по обучению представлений, ALBERT уменьшает размеры модели двумя способами — путем совместного использования параметров на скрытых уровнях сети и путем факторизации слоя внедрения.
Исследователи говорят, что ключом к оптимизации производительности является более эффективное распределение емкости модели. Встраиваниям на уровне ввода необходимо изучить контекстно-независимые представления, например представление слова «банк». В отличие от этого, встраивание скрытого слоя должно преобразовывать это в контекстно-зависимые представления, поэтому вам нужно представление для «банка» в контексте финансовых транзакций и другое представление для «банка» в контексте управления речным потоком.
Использование двух методов совместного использования параметров и факторизации слоя внедрения сокращает параметры для базовой модели с 108M BERT до всего 12M. Точность действительно снижается с 82,3% до 80,1%, но это небольшая величина, учитывая преимущества сокращения параметров. Одним из преимуществ сокращения параметров является возможность дальнейшего увеличения модели. Разработчики говорят, что, предполагая, что размер памяти позволяет, можно увеличить размер вложений скрытого слоя в 10-20 раз.
Исследователи пришли к выводу, что:
«Успех ALBERT демонстрирует важность выявления аспектов модели, которые приводят к мощным контекстным представлениям. Сосредоточив усилия по улучшению на этих аспектах архитектуры модели, можно значительно улучшить как эффективность модели, так и производительность в целом. спектр задач НЛП ».


Добавить комментарий