Аналитика Big Bang


Инфографика выделяет основные моменты из прошлого, настоящего и будущего прогнозной аналитики. Но это большие данные или просто статистика?

Что считается большими данными?

Если вы рассматриваете это как набор данных, который слишком велик для обработки с использованием существующих методов, то наше определение всегда будет расширяться.

Ранняя история вычислительной техники была обусловлена необходимостью выполнять вычисления либо в контексте войны, либо для получения конкурентного преимущества. Еще один момент, который я бы добавил, даже левее, это то, каким образом требование Бюро переписи населения США о табличных данных привело к успеху перфокарт Германа Холлерита в конце 19 века. Затем в 1950 году Бюро переписи населения США разместило первый коммерческий заказ на компьютер — автоматизированный компьютер UNIVersal UNIVAC Мочли и Эккерта в 1946 году.

Интересно, что инфографика напомнила нам, как давно мы занимаемся веб-аналитикой, которая, как мы теперь можем видеть, относится к эпохе, когда объем создаваемых данных был крошечным по сегодняшним стандартам.

Нажмите, чтобы увидеть версию в высоком разрешении (pdf)

В верхней части инфографики показана тенденция, по которой большие данные превратились из прерогатив государственных органов и крупного бизнеса, через средние компании в малый бизнес и экспертов по аналитике сегодня, и предполагает, что в будущем любой сможет получить доступ к Это.

Аспект «большого взрыва» — это взрыв не только количества данных, но и потребности в анализе и способности анализировать его. В инфографике упоминаются R, Hadoop и обработка естественного языка, но можно было бы включить глубокие нейронные сети и машинное обучение.

Один момент, который не вызывает сомнений, заключается в том, что растет спрос на людей, способных разбираться в данных, и если вы можете называть себя специалистом по данным, вы можете рассчитывать на большие деньги, пока шумиха вокруг больших данных сохраняется.

Однако есть много опасений. В частности, часто используются методы «больших данных», когда та же проблема может быть решена с помощью всего лишь одного мощного компьютера и языка статистики, такого как R. Использование Hadoop не увеличивает объем данных. Настоящее беспокойство вызывает то, что «большие данные» идут с новыми методами, и это нормально, если только это не свидетельствует о незнании старых методов. Статистика по-прежнему является краеугольным камнем, на котором должен стоять весь анализ данных.


Добавить комментарий