Какой образец первого размера стоит?


Мы занимаемся информационным бизнесом, и кажется очевидным, что чем больше данных, тем лучше, но насколько лучше? Вы были бы удивлены, узнав, что большая часть информации содержится в одном измерении?

Неравенство Кавер-Харта было представлено миру в 1967 году, но, похоже, мало кто знает о нем или о его последствиях. Если вы статистически ориентированный программист, занимающийся интеллектуальным анализом данных или искусственным интеллектом, то, похоже, он хочет сказать вам что-то действительно важное.

Недавняя статья Тильмана Гнейтинга из Гейдельбергского университета очень четко ставит вопрос:

«Боб предсказывает будущее наблюдение на основе выборки первого размера. Алиса может нарисовать выборку любого размера перед тем, как выдать свое предсказание. Насколько она может сделать лучше, чем Боб?»

далее он дает удивительный ответ:

«Возможно, это удивительно, но в большом классе функций потерь, который мы называем семейством Cover-Hart, лучшее, что может сделать Алиса, — это уменьшить вдвое риск Боба.

В этом смысле половина информации в бесконечной выборке содержится в выборке первого размера ».

В этот момент вы, вероятно, думаете, что в классе функций потерь в семействе Cover-Hart должно быть что-то очень странное, но это не дает выхода.

Как показано в статье, любая метрика и любое отрицательно определенное ядро принадлежат семейству Ковер-Харта. Это включает в себя квадратичную функцию потерь ошибок, поэтому оценка методом наименьших квадратов включена в теорему.

В документе приводится список ряда функций потерь, которые содержатся в семействе Cover-Hart:

Вы можете видеть, что, хотя остается вопрос о том, что составляет полное семейство Cover-Hart, большинство мер потерь, которые мы используем на практике, включены.

Теорема применима не только к точечным оценкам, но и к вероятностным прогнозам, где выборка используется для построения распределения вероятностей для оценки. В этом случае определение ожидаемых потерь сложнее, но результаты очень похожи — оценка с несколькими выборками дает не лучше, чем вдвое ожидаемые потери по сравнению с оценкой с одной выборкой.

Это имеет некоторые интересные последствия. Как отмечается в документе:

Учитывая, что при многих из наиболее распространенных функций потерь, используемых на практике, Алиса, несмотря на наличие в ее распоряжении бесконечной выборки, может как минимум вдвое снизить риск Боба, который имеет доступ только к выборке размера один, неудивительно, что эмпирически наблюдаемые различия в прогнозной эффективности конкурирующих синоптиков, как правило, невелики.

Например, это наблюдалось в конкурсе Net ix, где эффективность прогнозирования измерялась с помощью (среднеквадратической) ошибки.

«В более широкой перспективе неравенство Ковер-Харта может способствовать нашему пониманию эмпирического успеха не только методов ближайшего соседа и их разветвлений, но и рассуждений и обучения по аналогии в целом».

Другими словами, вы не сможете получить такое большое преимущество независимо от того, насколько умна ваша процедура оценки, и во многих случаях одного взгляда достаточно, чтобы сделать вывод.

Это одновременно удручает и обнадеживает.


Добавить комментарий