Технології глибинного навчання для обробки відеокадрів при сегментації обличчя на мобільних пристроях
DOI:
https://doi.org/10.15276/hait.02.2021.7Ключові слова:
Сегментація, обробка відео, глибинні нейронні мережі, Deeplabv3Анотація
Метою дослідження є зменшення часу обробки кадрів при сегментації обличчя на відео на мобільних пристроях за допомогою технологій глибинного навчання. В роботі проведено аналіз переваг і недоліків існуючих методів сегментації, а також їх застосовності для вирішення різних завдань. Виконано порівняння існуючих реалізацій сегментації обличчя в реальному часі в найбільш популярних мобільних додатках, які надають функціонал додавання візуальних ефектів на відео. В результаті визначено, що класичні методи сегментації не володіють відповідним поєднанням точності і швидкості роботи, а також вимагають ручного налаштування під конкретну задачу, тоді як методи сегментації на базі нейронних мереж визначають глибинні ознаки автоматично і мають високу точність при прийнятному часі роботи. Для використання обрано метод на базі глибинних згорткових нейронних мереж, оскільки, крім переваг інших методів на базі нейронних мереж, він не вимагає настільки значних витрат обчислювальних ресурсів під час виконання. Проведено огляд існуючих згорткових нейронних мереж для сегментації, виходячи з якого для застосування в роботі обрано мережу DeepLabV3 + як ту, що має досить високу точність і при цьому оптимізована для роботи на мобільних пристроях. У структуру обраної мережі внесені модифікації з метою відповідності завданню сегментації на два класи і для прискорення роботи на пристроях з низькою продуктивністю. Для подальшого прискорення роботи до оброблюваних мережею значень застосована восьмібітна квантизація. Адаптація мережі під задачу сегментації обличчя виконана за допомогою перенесення навчання, проведеного на вибірці зображень з обличчями з датасета COCO. На базі зміненої і навченої моделі сегментації створено мобільний додаток для запису відео з візуальними ефектами в реальному часі, яке застосовує сегментацію для роздільного накладення ефектів на дві зони - обличчя (фільтри кольору, зміна яскравості, анімовані ефекти) і фон (розмиття, приховування, заміна на інше зображення). Проведено тестування часу обробки кадрів в додатку на мобільних пристроях з різними технічними характеристиками. Проаналізовано відмінності в показниках тестування при сегментації за допомогою отриманої моделі і з використанням сегментації методом нормального розрізу графа. В результаті порівняння виявлено зниження часу обробки кадрів на більшості пристроїв при незначному зменшенні точності сегментації