Два алгоритма, которые учитывают различное использование повторяющихся слов и пар слов, требуют всего 50 твитов, чтобы точно отличить обманчивые сообщения «троллей» от сообщений, опубликованных общественными деятелями. Сергей Монахов из Университета Фридриха Шиллера в Йене, Германия, представляет эти результаты в журнале открытого доступа PLOS ONE 12 августа 2020 г.
Интернет-сообщения троллей направлены на достижение определенной цели, но при этом маскируют ее. Например, в 2018 году 13 граждан России были обвинены в использовании вымышленных лиц для вмешательства в президентские выборы в США в 2016 году через сообщения в социальных сетях. В то время как в предыдущих исследованиях изучались отличительные характеристики твитов троллей, такие как время, хэштеги и географическое положение, лишь немногие исследования изучали лингвистические особенности самих твитов.
Монахов использовал социолингвистический подход, сосредоточив внимание на идее, что тролли могут передавать ограниченное количество сообщений, но должны делать это несколько раз и с достаточным разнообразием формулировок и тем, чтобы обмануть читателей. Используя библиотеку твитов русских троллей и подлинных твитов американских конгрессменов, Монахов показал, что эти специфические для троллей ограничения приводят к характерным образцам повторяющихся слов и пар слов, которые отличаются от образцов, наблюдаемых в подлинных твитах, не относящихся к троллям.
Затем Монахов протестировал алгоритм, который использует эти отличительные шаблоны, чтобы различать настоящие твиты и твиты троллей. Он обнаружил, что алгоритм требует всего 50 твитов для точной идентификации троллей и конгрессменов. Он также обнаружил, что алгоритм правильно отличал твиты троллей от твитов Дональда Трампа, которые, хотя и являются провокационными и «потенциально вводящими в заблуждение», согласно Twitter, не созданы для сокрытия его цели.
Эта новая стратегия быстрой идентификации твитов троллей может помочь в борьбе с гибридными войнами при сохранении свободы слова. Потребуются дальнейшие исследования, чтобы определить, сможет ли он точно отличить твиты троллей от других типов сообщений, которые не публикуются публичными лицами.
Монахов добавляет: «Хотя обычно считают, что письмо троллей пронизано повторяющимися сообщениями, его наиболее характерной чертой является аномальное распределение повторяющихся слов и пар слов. Используя соотношение их пропорций в качестве количественной меры, нужно как всего 50 твитов для идентификации учетных записей интернет-троллей «