1 апреля Stack Overflow сыграл шутку, из — за которой некоторые из его сообщества действительно забеспокоились- он собирался заставить нас заплатить за копирование кода. Но, как и во всех хороших шутках, была и выгода. Переполнение стека смогло количественно оценить не только степень копирования, но и дать подробную информацию о том, что копируется.
Когда мы сообщали о клавише — специально построенной клавиатуре переполнения стека, чтобы упростить операцию копирования и вставки,-мы знали о ее статусе первоапрельского дурака. Однако на этом история не закончилась. Чтобы разыграть шутку, была настроена система, реагирующая каждый раз, когда кто-то выдавал команду копирования, и это позволило собрать некоторые очень интересные данные, о которых Stack Overflow теперь сообщил в своем блоге.
Каждый четвертый пользователь, который посещает вопрос о переполнении стека, копирует что-то в течение пяти минут после перехода на страницу. Это составляет 40 623 987 копий в 7 305 042 сообщениях и комментариях в период с 26 марта по 9 апреля. Люди копируют ответы примерно в десять раз чаще, чем вопросы, и примерно в 35 раз чаще, чем комментарии. Люди копируют из блоков кода более чем в десять раз чаще, чем из окружающего текста, и удивительно, что мы видим больше копий, сделанных на вопросы без принятых ответов, чем на вопросы, которые приняты.
Да, мы знали, что копирование из переполнения стека распространено, но такая скорость копирования кажется невероятной. Однако дальнейшее изучение данных, чтобы поместить их в контекст, делает их более разумными.
Для начала, подавляющее большинство копий сделано пользователями с нулевой репутацией. Учитывая, что создание учетной записи при переполнении стека автоматически дает вам репутацию 1, это означает, что они являются случайными и анонимными посетителями, хотя они также могут быть пользователями с учетной записью, которые не вошли в систему. Если убрать эту группу, то количество копий снизится до менее чем полумиллиона и будет сосредоточено среди тех, у кого репутационный рейтинг составляет 5 или менее:
Переполнение стека также изучало, были ли принятые ответы, то есть ответы, которые были сочтены полезными человеком, который первоначально задал вопрос, чаще копировались, чем те, которые не были приняты. В результате, что кажется удивительным, было обнаружено, что было сделано больше копий ответов, которые не были приняты:
Однако в среднем принятые ответы получают семь копий на уникальное сообщение, в то время как непринятые ответы получают пять копий на уникальное сообщение, что приводит к переполнению стека, чтобы прокомментировать, что существует более высокое повторное использование знаний, т. Е. использование преимуществ того, что другие разработчики создали и доказали, из принятых ответов.
Копируются не только ответы. Вопросы и комментарии также копируются. Учитывая распределение скопированных вопросов, показывающих, что большинство копий сделаны с постов с 1-5 баллами репутации, Дэвид Гибсон, который сообщил о данных в блоге Stack Overflow, пишет::
Я подозреваю, что это связано с тем, что пользователи копируют вопрос, чтобы воспроизвести его и в конечном итоге опубликовать ответ.
Да, в этом есть смысл. И так же, как и вывод о том, что по мере того, как пост увеличивает оценку поста, увеличивается и количество копий на пост.
Как отмечает Гибсон:
Это имеет смысл, потому что по мере того, как пост набирает очки, более вероятно, что знания будут повторно использоваться нашим сообществом.
Синие точки слева от графика-это сообщения с отрицательной оценкой, чтобы здесь исследование Гибсоном данных имело смысл того, что в противном случае было бы загадкой. Он изучает ответ со счетом -2, который был скопирован 288 раз, показывая, что он оказывается более длинной версией принятого ответа со счетом 29, у которого было в общей сложности 493 копии, показывающих, что он:
идеальный пример поста » слишком долго не читал”.
Сообщение в блоге переходит в популярные теги, отмечая преобладание тегов, связанных с Python, и, наконец, раскрывается в сообщении, которое получило наибольшее количество копий. Еще раз процитирую из блога:
С результатом в 3497 и 11 829 копиями я рад сообщить, что как перебирать строки в фрейме данных в Pandas было получено наибольшее количество копий. Отвечая на этот вопрос в 2013 году, этот вопрос продолжает помогать тысячам людей каждую неделю.
Что касается клавиатуры для копирования и вставки, разработанной для первоапрельских дураков, к ней был такой большой интерес, что Stack Overflow продолжает ее производство.