Хорошие водители предвидят опасные ситуации и корректируют свое вождение до того, как все станет опасным. Исследователи из Боннского университета теперь также хотят научить этому навыку беспилотные автомобили. Соответствующий алгоритм они представят на Международной конференции по компьютерному зрению, которая состоится в пятницу, 1 ноября, в Сеуле. Они также представят набор данных, который они использовали для обучения и тестирования своего подхода. Это значительно упростит разработку и улучшение таких процессов в будущем.
Пустая улица, ряд припаркованных машин сбоку: ничто не указывает на то, что вам следует проявлять осторожность. Но подождите: разве впереди нет переулка, наполовину покрытого припаркованными машинами? Может, мне лучше убрать ногу с газа — кто знает, если кто-то идет сбоку. Мы постоянно сталкиваемся с подобными ситуациями во время вождения. Чтобы правильно их интерпретировать и сделать правильные выводы, требуется большой опыт. Напротив, беспилотные автомобили иногда ведут себя как ученик-водитель на своем первом уроке. «Наша цель — научить их более опережающему стилю вождения», — объясняет компьютерный ученый профессор д-р Юмлорген Галл. «Это позволит им гораздо быстрее реагировать на опасные ситуации».
Галл возглавляет рабочую группу «Компьютерное зрение» в Боннском университете, которая в сотрудничестве со своими университетскими коллегами из Института фотограмметрии и рабочей группы «Автономные интеллектуальные системы» занимается поиском решения этой проблемы. Теперь ученые представляют первый шаг на пути к этой цели на ведущем симпозиуме по дисциплине Галла — Международной конференции по компьютерному зрению в Сеуле. «Мы усовершенствовали алгоритм, который завершает и интерпретирует так называемые данные LiDAR», — объясняет он. «Это позволяет автомобилю заранее предвидеть потенциальные опасности».
Проблема: слишком мало данных
LiDAR — это вращающийся лазер, который устанавливается на крыше большинства беспилотных автомобилей. Луч лазера отражается от окружающей среды. Система LiDAR измеряет, когда отраженный свет падает на датчик, и использует это время для расчета расстояния. «Система определяет расстояние примерно до 120 000 точек вокруг транспортного средства за один оборот», — говорит Галл.
Проблема с этим: точки измерения становятся «размытыми» по мере увеличения расстояния — зазор между ними увеличивается. Это похоже на рисование лица на воздушном шаре: когда вы надуваете его, глаза расходятся все дальше и дальше. Поэтому даже для человека практически невозможно получить правильное представление об окружающей среде с помощью одного сканирования LiDAR (то есть измерения расстояния за один оборот). «Несколько лет назад Университет Карлсруэ (KIT) записал большие объемы данных LiDAR, в общей сложности 43 000 сканированных изображений», — объясняет доктор Йенс Бейли из Института фотограмметрии. «Мы взяли последовательности нескольких десятков сканированных изображений и наложили их». Данные, полученные таким образом, также содержат точки, которые датчик зафиксировал только тогда, когда машина уже проехала несколько десятков ярдов дальше по дороге. Проще говоря, они показывают не только настоящее, но и будущее.
«Эти наложенные облака точек содержат важную информацию, такую как геометрия сцены и пространственные размеры содержащихся в ней объектов, которые недоступны при одном сканировании», — подчеркивает Мартин Гарбаде, который в настоящее время защищает докторскую диссертацию в Институт компьютерных наук. «Кроме того, мы пометили каждую точку в них, например: тротуар, пешеход, а сзади мотоциклист». Ученые загрузили в свое программное обеспечение пару данных: одно сканирование LiDAR в качестве входных данных и связанные данные оверлея, включая семантическую информацию в качестве желаемого выхода. Они повторили этот процесс для нескольких тысяч таких пар.
«На этом этапе обучения алгоритм научился выполнять и интерпретировать отдельные сканированные изображения», — поясняет профессор Галл. «Это означало, что он мог правдоподобно добавить недостающие измерения и интерпретировать то, что было видно на сканированных изображениях». Завершение сцены уже работает относительно хорошо: процесс может правильно заполнить около половины недостающих данных. Семантическая интерпретация, то есть определение того, какие объекты скрыты за точками измерения, работает не так хорошо: здесь компьютер достигает максимальной точности 18 процентов.
Однако ученые считают, что это направление исследований все еще находится в зачаточном состоянии. «До сих пор просто не хватало обширных наборов данных для обучения соответствующим методам искусственного интеллекта», — подчеркивает Галл. «Мы закрываем пробел здесь с помощью нашей работы. Я оптимистичен, что мы сможем значительно повысить точность семантической интерпретации в ближайшие годы». Он считает, что 50 процентов вполне реально, что может иметь огромное влияние на качество автономного вождения.