Dogs vs Cats — это недавно запущенный конкурс Kaggle, который интересен как практически, так и теоретически, и, хотя у него есть серьезная сторона, это также шанс показать, что машинное обучение может быть увлекательным. Можете ли вы разработать алгоритм, позволяющий автоматически отличать собак от кошек?
Обычно, когда мы сообщаем новости о конкурсе, мы выигрываем денежные призы. В данном случае участники соревнуются в основном ради удовольствия. Это первый из новой категории соревнований на Kaggle, веб-сайте, на котором проводятся соревнования по прогностическому моделированию, которые проходят на игровой площадке Kaggle.
Анонсируя Детскую площадку, Уилл Цукерски, который также является администратором конкурса, чтобы автоматически различать фотографии кошек и собак, написал:
Игровая площадка станет местом для возни с ландшафтом машинного обучения, беззаботной и полной алгоритмической изюминки. Проблемы могут быть немного причудливыми, но ничто не мешает им быть серьезными. Вместо того, чтобы быть ориентированным на спрос (например, компания хочет, чтобы алгоритм решал проблему), соревнования на игровых площадках будут ориентированы на идеи.
Идея игры «Собаки против кошек», которая продлится до 1 февраля 2014 года, заключается в том, что в то время как людям (а также самим собакам и кошкам) легко определить разницу между двумя видами, компьютерам было трудно до такой степени, что фотографии кошек и собак использовались в качестве задачи HIP (Human Interactive Proof), чтобы убедиться, что посетители веб-сайтов действительно люди.
Между тем классификаторы машинного обучения уже были разработаны для решения этой задачи распознавания, и в статье изложено текущее состояние исследований в рамках деталей конкурса.
Конкурс предоставляет участникам часть набора данных Microsoft Research Asirra (Распознавание изображений видов животных для ограничения доступа), коллекцию из более чем 3 миллионов фотографий, собранных в партнерстве с благотворительной организацией по усыновлению животных Petfinder.com, хотя вам также разрешено использовать внешние данные, если вы также предоставляете достаточную информацию другим участникам для доступа к тем же фотографиям.
Если у вас возникнет искушение присоединиться, имейте в виду — конкуренция будет жесткой. Хотя еще есть четыре месяца, там уже есть оценка более 0,96 в верхней части таблицы лидеров. Но можно ли улучшить это почти идеальное (или это должно быть идеальное) решение? Таблица лидеров рассчитывается примерно на 30% тестовых данных, а остальные 70% используются для расчета окончательных результатов.
Уже стартовал второй конкурс детских площадок. С названием «Частично солнечно» с возможностью хэштегов и запуска в сотрудничестве с CrowdFlower он предоставляет набор твитов, связанных с погодой, и просит команды определить для каждого твита, имеет ли он положительное, отрицательное или нейтральное настроение, была ли погода в прошлом, настоящем или будущем и на какую погоду она ссылается. Если это звучит по-вашему весело, он продлится до 1 декабря 2013 года.
Если вы хотите создать соревнование на игровой площадке, по словам Цукерски, необходимы три ингредиента: (1) непубличная наземная правда, (2) забавная идея и (3) кто-то, кто знает, как обойти соревнование по машинному обучению.