В ваших твитах указывается ваш пол


В последнее время было несколько случаев, когда люди писали в Твиттере под ложным полом, и теперь ИИ приходит на помощь с простым классификатором, который может определить, являетесь ли вы мужчиной или женщиной, по одному твиту из 140 символов или меньше.

Твиттер, похоже, становится стандартным источником для анализа данных и экспериментов с машинным обучением. Последние данные доказывают, что вы можете узнать, как решить, исходит ли твит от мужчины или женщины, только на основе слов, использованных в твите. Если вы добавите некоторую дополнительную информацию, такую как имя пользователя, то точность распознавания сильно возрастет, но что интересно, просто слов, используемых в одном твите, достаточно для определения пола с достаточно высокой точностью (66%), и если вы включаете все твиты, точность достигает 75%. Поэтому, хотя вы можете подумать, что в Интернете вы можете быть собакой, если хотите, вы не сможете обмануть ИИ, заставив его думать, что вы женщина, если это не так.

Первой проблемой, которую пришлось решить исследователям из корпорации Mitre, было определение истинного пола пользователей твиттера — в конце концов, как еще они могли бы обучить или протестировать свой классификатор? Первая проблема заключается в том, что Twitter не требует от пользователей указывать свой пол. Решение заключалось в том, чтобы просмотреть URL-адреса любых связанных веб-сайтов, которые предоставил пользователь, и выяснить, относятся ли они к каким-либо стандартным блогам, которые настаивают на гендерной идентификации. Вы можете подумать, что это приведет к небольшой выборке, но Twitter настолько велик, что даже применение этого фильтра произвело выборку из примерно 100000 женщин и 83000 мужчин — и да, по оценкам, женщин, использующих Twitter, больше, чем мужчин, и об этом соотношение.
В исследовании также не проводилось различие между языками, используемыми для твитов, и, очевидно, ограничение используемого языка, скорее всего, улучшило бы точность классификации. Для классификации использовались нограммы слов и символов (т. Е. Комбинации n слов или символов) из различных полей в твите. Помимо текста твита, классификаторы также обучались с использованием экранного имени, полного имени и описания. В результате точность распознавания составила:

Один твит 67%
Все твиты 75%
Все данные 92%

Самым информативным полем было полное имя, которое при использовании само по себе давало классификатор с точностью 89%.
В качестве классификатора использовался сбалансированный веер, который является модификацией классического алгоритма персептрона для использования обновлений мультипликативного веса. Это было проверено на других классификаторах — наивных байесовских машинах и машинах опорных векторов — и оказалось, что они лучше. Обучение также было проблемой обработки с 3 миллионами твитов, доступных для анализа. В эксперимент был включен еще один популярный ресурс — Mechanical Turk от Amazon. Пользователям было предложено выполнить одну и ту же задачу классификации, и большинство из них не справились с этим.
Теперь мы подошли к изюминке. Если вы посмотрите на слова и буквы, которые лучше всего различают мужской и женский пол, вы обнаружите, что такие фрагменты, как «любовь» и «волосы», являются сильными женскими признаками, в то время как такие фрагменты, как «http» и «Googl» — сильными мужскими признаками. Менее очевидно, что «мой», «так» и «хэнк» — сильные женские индикаторы, и женщины, кажется, используют больше смайлов и восклицательных знаков, чем мужчины!


Добавить комментарий