Был выпущен бесплатный плагин Excel, который использует новый подход к автоматическому поиску ошибок данных в электронных таблицах. Вместо того чтобы искать ошибки в программах и формулах, CheckCell приступает к отладке базовых данных.
Инструмент под названием CheckCell создан Дэниелом Бароуи и Димитром Гочевым, докторантами по информатике в Университете Массачусетса в Амхерсте. Он был запущен на международной конференции по разработке языков программирования в этом году, OOPSLA.
В нем рассматривается проблема, связанная с тем, что ошибки в данных электронных таблиц могут быть следствием истории, о которой мы сообщали в апреле 2013 года, см. » Виноват ли Excel в нашей экономической боли?».
На своей сессии конференции Дэниел Бароуи рассказал делегатам:
«Рассмотрим случай с работой, написанной гарвардскими экономистами Кармен Рейнхарт и Кеннетом Рогоффом пару лет назад. Этот документ был влиятельным, придавая доверие правительственным мерам жесткой экономии в Европе и Соединенных Штатах. Но в 2013 году экономист UMass Amherst Томас Херндон и его коллеги обнаружили, что, просматривая данные вручную, методологические ошибки подорвали аргумент Рейнхарта и Рогоффа. В частности, Рейнхарт и Рогофф преувеличили влияние ключевых значений данных в электронной таблице.»
Группа CheckCell под руководством профессора Эмери Бергера. задался вопросом, может ли быть разработано программное обеспечение для автоматического поиска таких ошибок, и успешно разработал подход, который обнаружил ряд таких же ошибок, обнаруженных Херндоном.
В статье, представленной в OOPSLA, этот подход называется отладкой данных, которая сочетает в себе анализ программ и статистический анализ для автоматического поиска потенциальных ошибок данных путем поиска данных, которые оказывают непропорциональное влияние на вычисления.
Выражаясь более неформально, Бароуи объясняет:
«В принципе, CheckCell идентифицирует точки данных, которые оказывают большое влияние на конечный результат, даже если воздействие очень тонкое и его трудно обнаружить. CheckCell немедленно помечает точки данных, которые очень подозрительны, те, которые заслуживают второго взгляда. Это все равно, что иметь помощника, который говорит: «Обратите внимание на эти клетки, они действительно важны».»
Эта техника использует то, что Бергер называет «порогом необычности».» CheckCell отмечает точки данных с высокой степенью воздействия красным цветом и просит дизайнера электронных таблиц проверить их. Если они действительно верны, они становятся зелеными и не будут отмечены в последующих анализах.
Приведенный пример включает в себя транспонирование цифр в точке данных, поэтому, когда у учителя есть ученик “А”, который, как ожидается, получит 94 балла за тест, а в таблице указано, что ученик получил 49 баллов, CheckCell отметит это. Аналогичный пример используется в статье:
Разве это не просто проверка диапазона, которую мы всегда советовали пользователям встроить в электронные таблицы?
Я думаю, что будет справедливо сказать, что это ценное расширение идеи, которая не является такой грубозернистой, как ручные проверки, и, работая с неожиданным результатом для данных, приносит желанную степень автоматизации проблемы.
Бергер говорит, что в будущем команда планирует расширить использование CheckCell на крупномасштабные наборы данных, где трудно найти ошибки, оказывающие большое влияние. Уже показав, что CheckCell обнаружил бы некоторые недостатки в данных Рейнхарта/Рогоффа, это кажется стоящим делом.
Вы можете установить CheckCell 1.0.2 для Excel 10 и более поздних версий через GitHub, и его исходный код также доступен. gCheckCell, версия для электронной таблицы Google, также находится на GitHub.