ОБНОВЛЕНИЕ — Наука о данных правильно предсказывает обладателя Оскара


В эти выходные состоится церемония вручения 90-й церемонии вручения премии Оскар, которая вызывает ожидание и напряжение — награда за лучшую картину зависит от многих не только в Голливуде, но и по всей Америке и по всему миру. Thinkful решил использовать возможности науки о данных, чтобы выбрать победителя … и теперь мы знаем, что его прогноз The Shape of Water оказался верным.

Команда учебного онлайн-курса Thinkful использовала контролируемое обучение, чтобы искать закономерности в прошлых результатах, чтобы предсказать будущие, то есть в этом году.
В своем блоге Адам Левенсон пишет:
Мы начали свой путь к предсказанию победителя в этом году за лучший снимок со сбора и очистки большого количества данных. Мы искали любую общедоступную информацию о фильмах, номинированных на лучший фильм за последние X лет, от оценок критиков до выступлений в предшественниках. Эти данные помогут сформировать наш алгоритм, который мы будем строить с использованием SciKit Learn, одного из самых популярных учебных инструментов в мире.
SciKit Learn — это инструмент с открытым исходным кодом для машинного обучения на Python, построенный на NumPy, SciPy и matplotlib.
Левенсон продолжает:
Путем оценки нескольких моделей мы определили, что случайная классификация лесов обеспечивает наиболее точное предсказание предыдущих победителей «Оскара». Классификация случайных лесов — это метод машинного обучения, который определяет отношения между переменными посредством создания и оценки деревьев решений.
Хотя случайная классификация лесов не особенно популярна в качестве подхода машинного обучения, она выдержала испытание временем, и мы сообщили, что она использовалась для прогнозирования землетрясений, определения факторов, влияющих на их поворот, и даже однажды деанонимизации программистов на C ++ из их кода. скомпилирован в исполняемые двоичные файлы.
Для прогноза на премию Оскар 2018 были использованы следующие деревья принятия решений с применением серии вопросов «да / нет» к девяти номинациям на лучший фильм:

По словам Левенсона:
Алгоритм классификатора случайного леса учитывает, что по мере того, как деревья решений становятся более сложными, они имеют тенденцию улавливать нюансы и создают правила случайности в процессе, известном как захват шума или переобучение. Следовательно, вместо того, чтобы создавать большие сложные деревья, случайный лес создает множество маленьких деревьев с небольшими вариациями, что позволяет нам находить обобщаемые правила более высокого уровня. Применительно к обладателям и проигравшим Оскар за последние 38 лет этот подход позволил сделать правильные прогнозы на все, кроме одного года, 2017.
Как говорится, если не хочешь знать ответ, отвернись сейчас. В противном случае обратитесь к таблице для фильма, который явно лидирует с вероятностью выигрыша 0,47. Вероятность победы ближайшего соперника составляет 0,28, а дальнего поля — по одному при каждой из 0,08, 0,06, 0,05 и 0,03; два с 0,02 и один с 0,00 — это поднимает вопрос, как этот фильм вообще попал в номинацию!

Нам придется подождать до завтра, чтобы убедиться, что предсказание Thinkful было правильным — и я, например, обращу немного больше внимания, когда роковой конверт будет открыт.


Добавить комментарий