Новая статья носит название «Реорганизация Робсут Wrod через полусимвольную рекуррентную нейронную сеть», и это не опечатка. Узнайте об эффекте Cmabrigde Uinervtisy и о том, как он может сделать нейронную сеть лучше для проверки орфографии, чем любая из тех, что вы можете найти сегодня.
Хорошо известно, что язык, особенно английский, очень избыточен в письменной форме. Если вы когда-либо играли в игру, в которой вам нужно угадывать хорошо известные фразы с удаленными константами, вы знаете, что можете прочитать то, что на первый взгляд кажется последовательностью случайных букв, в мгновение ока понимания.
С другой стороны, понимание и обработка машинного языка, похоже, не «понимают» так, как мы. Если вы недавно использовали пакет проверки орфографии, то, возможно, вы были разочарованы тем фактом, что он не может предложить вам очевидного исправления вашей орфографической ошибки. Конечно, для вас это очевидно только потому, что вы применяете свое собственное очень специальное программное обеспечение для обработки языка.
Что действительно удивительно, так это то, что конкретное программное обеспечение для обработки языка, которое вы запускаете, способно читать текст, который сильно искажен перестановками букв. Рассмотрим классический пример, известный как эффект Cmabrigde Uinervtisy:
«Приходите к поиску в Cmabrigde Uinervtisy, он не может быть в курсе того, что есть в сети, единственное, что нужно сделать, — это то, что первый и он должен быть на правильном месте. может сидеть и радоваться, если это порбельм. Tihs is bcuseae the huamn mnid deos not raed ervey lteter by istlef, но wrod as a wlohe »
Если вы носитель английского языка / читаете, то вы можете быть шокированы тем, насколько легко читать этот беспорядок. Заказ письма? Кому это нужно!
Команда исследователей из Университета Джона Хопкинса решила выяснить, насколько важен порядок слов. Предыдущая работа показала, что трудности с чтением увеличиваются из-за перепутывания букв в середине слова, в конце и в начале. Другими словами, важнее всего первые буквы в слове.
Исправление путаницы слов или орфографических ошибок, другими словами, звучит как то, чему можно научить нейронную сеть, но большинство нейронных сетей, о которых мы слышим о таких огромных успехах, являются сетями прямого распространения. В сетях прямого распространения нет возможности учитывать порядок; для этого вам понадобится рекуррентная нейронная сеть, в которой некоторые выходы возвращаются как входы. Рекуррентные нейронные сети известны своей мощью, но их труднее обучать. В этом случае входными данными были первый и последний символы, а затем набор символов без первого или последнего символа и без информации о порядке.
После обучения нейронная сеть была сопоставлена с существующими программами проверки правописания на том виде беспорядка слов, который мы рассматривали. Вы могли догадаться, что это было немного лучше.
Однако это может быть не совсем честный тест, если вас просто интересуют методы создания средств проверки правописания. Традиционный подход к проверке орфографии заключается в вычислении некоторой меры расстояния между словом с ошибкой и словарными статьями. Чекер дает пользователю выбор ближайшего. Если бы мера расстояния была разработана с учетом правильности первого и последнего символов и соответствовала только внутренним буквам, то результаты могли бы сильно отличаться.
Исследователи предполагают, что тот же подход может быть полезен для нормализации идиосинкразического текста, такого как текстовый диалог — Cooooolll to Cool. Возможно, это могло бы улучшить общение между поколениями.
Это, безусловно, дает пищу для размышлений о том, как именно мы читаем. Кто-нибудь сделал что-нибудь, например, чтобы увидеть, чем отличаются дислектики? И что Google сделает из статьи с таким количеством неправильно написанных слов?