В настоящее время существует огромный спрос на специалистов по данным, которые являются популярной работой с привлекательными зарплатами. Но какие знания и навыки ищут работодатели?
Прошло несколько лет с тех пор, как мы спросили, кто такой специалист по данным и как мне им стать? Ответ, данный еще в 2015 году, по-прежнему актуален в качестве отправной точки:
Подобно бизнес-аналитику / аналитику данных, специалисты по обработке данных объединяют знания в области компьютерных наук и приложений, моделирования, статистики, аналитики и математики, чтобы раскрыть понимание данных.
Но что это означает с точки зрения набора навыков, которые должен приобрести специалист по данным. Вопросом, как стать более востребованным специалистом по данным, занималась исследовательская группа CV Compiler, компании, которая предоставляет рекомендации по созданию убедительного резюме разработчикам и другим специалистам в индустрии программного обеспечения. Для анализа навыков, необходимых специалистам по анализу данных, команда составителя резюме просмотрела 300 вакансий в области науки о данных на StackOverflow, AngelList и подобных сайтах. Затем, используя свой собственный инструмент текстовой аналитики, они определили наиболее часто упоминаемые термины и создали эту диаграмму:
Следует отметить, что исследование отражает предпочтения работодателей, а не специалистов по данным.
Я ожидал увидеть «Машинное обучение» в верхней части списка, потому что, глядя на описания должностей, вы обнаруживаете, что инженеры по машинному обучению работают в командах Data Science и что стажеры по Data Science могут рассчитывать «получить ценные навыки AI / ML». Возможно, эти два термина настолько взаимосвязаны, что предполагается знание машинного обучения.
Хотя R часто называют «языком науки о данных», Python, превосходящий его по количеству вакансий, имеет смысл в том, что Python является языком общего назначения и в настоящее время имеет тенденцию к популярности. Я удивлен, увидев, что Scala настолько высок и полное отсутствие Джулии как в таблице, так и в отчете блога, где обсуждаются другие навыки и инструменты, которые получают значительное количество упоминаний. Например, в то время как большие данные находятся в таблице с 221 упоминанием, используется термин Data Mining за «сбор больших данных» нет в таблице, несмотря на то, что он упоминается 128 в вакансиях.
Хотя SQL занимает первое место в списке, а ETL (извлечение, преобразование, загрузка) находится в таблице, нигде не упоминается Mongo DB или No SQL. С другой стороны, количество упоминаний об Apache Spark с открытым исходным кодом превышает количество упоминаний о Hadoop. Комментируя это, Андрей Стеценко пишет:
Согласно исследованию рынка аналитики больших данных 2018 года, внедрение больших данных на предприятиях выросло с 17% в 2015 году до 59% в 2018 году. Таким образом, популярность инструментов больших данных также выросла. [В дополнение к Spark и Haddoop] наиболее популярными являются MapReduce (36) и Redshift (29) … некоторые работодатели по-прежнему ожидают, что кандидаты будут знакомы с Apache Pig (30), HBase (32) и т. Д. технологии. HDFS (20) по-прежнему упоминается в вакансиях.
Как и в предыдущем отчете Compiler CV о навыках, необходимых разработчикам JavaScript, цифры в скобках — это количество упоминаний.
Стеценко также отмечает важность визуализации данных, упомянутых в 55 вакансиях, и отмечает:
Очень важно, чтобы вы могли представить результаты своей работы в формате, понятном любому члену команды или заказчику. Что касается инструментов визуализации данных, работодатели предпочитают Tableau (54).
Тот факт, что компьютерное зрение и NLP (обработка естественного языка) включены в таблицу, подчеркивает, что ИИ и наука о данных неразрывно связаны и что знания об инструментах ИИ, таких как Tensorflow, стоит приобрести.