Опрос Ученых По Данным Каггла


Проведенный Кагглом опрос специалистов по обработке данных показывает, что подавляющее большинство специалистов по обработке данных моложе 35 лет, две трети имеют степень магистра, а большинство имеют опыт работы в области кодирования менее 10 лет. Он также обнаружил, что Scikit-learn является самой популярной платформой машинного обучения, а JupyterLabs-предпочтительной IDE.

Kaggle позиционирует себя как крупнейшее в мире сообщество по науке о данных и машинному обучению. В настоящее время принадлежащая Google, она была основана в 2010 году как платформа для проведения конкурсов по прогнозному моделированию и аналитике и со временем превратилась в платформу для изучения и участия в машинном обучении и анализе данных. В июле 2020 года Kaggle преодолел рубеж в более чем 5 миллионов членов, а в октябре более 20 000 членов сообщества приняли участие в опросе. В исследовании Kaggle State of Data Science and Machine Learning 2020 основное внимание уделяется 13% респондентов, в общей сложности 2675, которые определили свою должность как «специалист по данным».»

Что касается демографии, то результаты Каггла отражают преобладающий гендерный разрыв в области компьютерных наук: 82% этой группы идентифицируют себя как мужчин и только 16% — как женщин. С точки зрения возраста подавляющее большинство исследователей данных моложе 35 лет с комментариями к отчету:

Есть признаки того, что цифры становятся еще более молодыми, поскольку поколение Z становится все более вовлеченным. Почти 7% исследователей данных находятся в возрасте 18-21 года, что на 5% больше, чем в прошлом году.

Менее 5% исследователей данных не имеют ученой степени, кроме диплома средней школы, в то время как более 68% имеют степень магистра или доктора. Более того, 93% из них продолжают обучение, 30% из них на «традиционных» университетских курсах, но гораздо больше с помощью онлайн-опций, причем Coursera лидирует в этой области, а 63% респондентов используют ее в качестве постоянного ресурса. Многие респонденты выбрали в опросе несколько ресурсов, в среднем было выбрано 2,8.

Когда дело доходит до опыта программирования, в отчете говорится:: 

Большинство ученых, занимающихся данными Каггла, имеют за плечами, по крайней мере, несколько лет опыта. Чуть более 8% исследователей данных занимаются программированием с 20-го века! Однако это не значит, что здесь нет новичков. Более 9% занялись программированием в прошлом году. Чуть менее 2% исследователей данных утверждают, что вообще никогда не писали код. По сравнению с глобальной аудиторией американские специалисты по обработке данных имеют значительно больший опыт программирования. В США 37% программируют 10 и более лет, по сравнению с 22% во всем мире.

С другой стороны, большинство специалистов по обработке данных Kaggle являются новичками в машинном обучении, а не в программировании. Чуть более 55% специалистов по обработке данных имеют опыт работы менее трех лет, и менее 6% профессиональных специалистов по обработке данных используют машинное обучение в течение десятилетия или более. Как и в случае с программированием, американские специалисты по обработке данных имеют больше опыта машинного обучения, чем респонденты по всему миру.

Опрос также изучил методы и инструменты, которым отдавали предпочтение респонденты, обнаружив, что наиболее часто используемыми алгоритмами были линейная и логистическая регрессия (84%), за которыми следовали деревья решений и случайные леса (78%). Из более сложных методов наиболее популярными были машины градиентного повышения (61%) и сверточные нейронные сети (43%). Генеративные состязательные сети (GANS) использовались только 7%.

Инструменты на основе Python доминируют в рамках машинного обучения. Scikit-learn, описанный в отчете как швейцарский армейский нож, применимый к большинству проектов, был самым популярным среди 83% исследователей данных, использующих его. TensorFlow и Keras, особенно используемые в сочетании для глубокого обучения, были выбраны на 50%. Библиотека градиентного бустинга xgboost заняла четвертое место (48%), а PyTorch занял 5-е место с 31%,

Был явный лидер по среде разработки — JupyterLab (74%) Однако в докладе отмечается, что это было заметное снижение с 83% в 2019 году. Код Visual Studio занял второе место с чуть более 33% .

Это первый год, когда он был отделен от Visual Studio. В этом году они составили более 43% по сравнению с менее чем 30% в 2019 году. 

Каггл также сообщил, что все больше исследователей данных используют облако в целом. В 2019 году около 25% не использовали облачные вычисления, что снизилось до 17% в 2020 году. Неудивительно, что Amazon Web Services была предпочтительной платформой (48%), за которой следовали облачная платформа Google (35%) и Microsoft Azure (29%). Что касается баз данных, то среди специалистов по обработке данных нет явного фаворита. Чаще всего упоминался MySQL (35,6%), за ним следовали PostgreSQL (28,86%) и SQL Server (24,93%).


Добавить комментарий