GitHub обновил инструмент, который определяет области для работы над проектами с открытым исходным кодом, которые относительно просты и были бы хорошим местом для начала вклада. Инструмент использует комбинацию модели машинного обучения, которая была обучена для выявления простых проблем, и связанного списка, составленного сопровождающими проекта.
Эти возможности перечислены в качестве проблем, удобных для начинающих, в разделе «вклад» для проектов на GitHub, который был впервые доступен в прошлом году в качестве рекомендаций, основанных на ярлыках, которые были применены к проблемам сопровождающими проекта. Команда GitHub проанализировала свои данные и составила список из примерно 300 имен меток, используемых популярными репозиториями с открытым исходным кодом, которые описывали либо «хорошие первые проблемы”, либо “документацию”. Этот поиск обнаружил соответствующие маркированные проблемы примерно в 40 процентах репозиториев.
Обновленная версия выявляет проблемы примерно в 70 процентах репозиториев, попадающих в категорию подходящих для начинающих. Этот больший охват был достигнут с помощью модели машинного обучения, которая автоматически выводит метки для сотен тысяч образцов-кандидатов. Обсуждая обновленную версию, GitHub Тиферет Газит сказал:
«Существует компромисс между охватом и точностью, который является типичным компромиссом между точностью и отзывом, найденным в любом продукте ML. Чтобы предотвратить засорение канала ложноположительными обнаружениями, мы стремимся к чрезвычайно высокой точности за счет отзыва. Это необходимо, потому что только крошечное меньшинство всех вопросов являются хорошими первыми вопросами.»
В дальнейшем цель состоит в том, чтобы улучшить рекомендации по проблеме, повторяя обучающие данные, обучающий конвейер и модели классификаторов, чтобы улучшить рекомендации по проблеме. Команда также добавляет лучшие сигналы в рекомендации репозитория, чтобы помочь пользователям найти и принять участие в лучших проектах, связанных с их интересами. Они также планируют добавить механизм, позволяющий сопровождающим и проверяющим утверждать или удалять рекомендации на основе ML в своих репозиториях.