В Википедии много данных, но для того, чтобы увидеть в них закономерности, требуется немного больше работы. Брендан Гриффен выполнил необходимый анализ и обработку данных, чтобы дать нам часы удовольствия, споря о том, какой язык повлиял на какой и как их создатели относятся друг к другу.
Идея очень проста. Википедия имеет стандартный формат для языков программирования, который включает в себя информационный блок, в котором языки перечислены либо в разделе «Под влиянием», либо в разделе «Под влиянием». Инфобоксы, конечно, сделаны вручную и поэтому не идеальны. В частности, кажется, что нет никакого жесткого и быстрого правила для интерпретации «влияния» между компьютерными языками. Возможно, синтаксис один и тот же, а может быть, они используют один и тот же глубокий подход к проблеме.
Даже учитывая субъективный характер данных, было бы интересно увидеть, как отношения x и y превратились в график, и это именно то, что Брендан Гриффен сделал, используя SPARQL, Python и Gephi.
Результат, как вы можете догадаться, очень интересный:
Нажмите для полноразмерной версии.
Есть некоторые интересные аномалии и некоторые признаки того, что Википедии необходимо отредактировать некоторые страницы. Например, группа основных языков слева не подключается ни к одному из основных языков справа посередине.
А самые влиятельные языки?
Хаскелл, Лисп и Java.
Была построена еще одна интересная диаграмма, показывающая, как люди сотрудничали на языках:
Нажмите для полноразмерной версии.
Вы также можете сравнить эти графики с графиками, созданными Рамио Гомесом и уже показанными в I Programmer в 2013 году.
Я думаю, что главный вывод из работы Брендана Гриффена заключается в том, что охват языков в Википедии должен быть улучшен.