Инфографика выделяет основные моменты из прошлого, настоящего и будущего прогнозной аналитики. Но это большие данные или просто статистика?
Что считается большими данными?
Если вы рассматриваете это как набор данных, который слишком велик для обработки с использованием существующих методов, то наше определение всегда будет расширяться.
Ранняя история вычислительной техники была обусловлена необходимостью выполнять вычисления либо в контексте войны, либо для получения конкурентного преимущества. Еще один момент, который я бы добавил, даже левее, это то, каким образом требование Бюро переписи населения США о табличных данных привело к успеху перфокарт Германа Холлерита в конце 19 века. Затем в 1950 году Бюро переписи населения США разместило первый коммерческий заказ на компьютер — автоматизированный компьютер UNIVersal UNIVAC Мочли и Эккерта в 1946 году.
Интересно, что инфографика напомнила нам, как давно мы занимаемся веб-аналитикой, которая, как мы теперь можем видеть, относится к эпохе, когда объем создаваемых данных был крошечным по сегодняшним стандартам.
Нажмите, чтобы увидеть версию в высоком разрешении (pdf)
В верхней части инфографики показана тенденция, по которой большие данные превратились из прерогатив государственных органов и крупного бизнеса, через средние компании в малый бизнес и экспертов по аналитике сегодня, и предполагает, что в будущем любой сможет получить доступ к Это.
Аспект «большого взрыва» — это взрыв не только количества данных, но и потребности в анализе и способности анализировать его. В инфографике упоминаются R, Hadoop и обработка естественного языка, но можно было бы включить глубокие нейронные сети и машинное обучение.
Один момент, который не вызывает сомнений, заключается в том, что растет спрос на людей, способных разбираться в данных, и если вы можете называть себя специалистом по данным, вы можете рассчитывать на большие деньги, пока шумиха вокруг больших данных сохраняется.
Однако есть много опасений. В частности, часто используются методы «больших данных», когда та же проблема может быть решена с помощью всего лишь одного мощного компьютера и языка статистики, такого как R. Использование Hadoop не увеличивает объем данных. Настоящее беспокойство вызывает то, что «большие данные» идут с новыми методами, и это нормально, если только это не свидетельствует о незнании старых методов. Статистика по-прежнему является краеугольным камнем, на котором должен стоять весь анализ данных.