Систематизація показників ефективності методів aналізу 2d-пози людини
DOI:
https://doi.org/10.15276/hait.06.2023.2Ключові слова:
Комп'ютерний зір, нейронні мережі, глибоке навчання, метрики, обробка відео, 2D, ефективністьАнотація
Ця стаття присвячена систематизації метрик оцінки моделей для аналізу 2D поз людини. Одними з найпопулярніших завдань, які вирішуються за допомогою методів машинного навчання (ML), є виявлення, відстеження та розпізнавання дій людини для різних практичних застосувань. Існує багато різних метрик, які дозволяють оцінити моделі з того чи іншого боку. Для оцінки конкретного етапу аналізу пози людини (виявлення людини, виявлення ключових точок скелета людини, відстеження об'єктів, класифікація та оцінка пози) використовується певний набір метрик. Однак, як показує аналіз літератури, велика кількість метрик, а також використання різних термінів для представлення одних і тих самих понять, спричиняє проблеми з інтерпретацією та порівнянням різних моделей ML. Метою цієї роботи є аналіз та систематизація метрик для оцінки методів аналізу 2D поз людини, щоб полегшити подальший обґрунтований вибір метрик. Для підвищення об’єктивності оцінки результатів емпіричних досліджень існуючих і нових методів і моделей виявлення, відстеження та розпізнавання дій людини запропоновано систематизацію існуючих метрик на підгрупи залежно від того, які прикладні завдання вони оцінюють. Було введено чотири класи метрик оцінювання: метрики класифікації, виявлення ключових точок, відстеження об’єктів і загальні метрики. Показники класифікації базуються на оцінці якості та зіставленні значень із передбачених обмежувальних рамок із реальними об'єктами. Метрики виявлення ключових точок орієнтовані на якість знайдених суглобів скелета людського тіла. Метрики відстеження оцінюють виявлення об'єкта на кожному кадрі та правильність визначення його траєкторії. Загальні показники конкретно не пов’язані з жодними завданнями аналізу 2D пози людини та використовуються для оцінки швидкодії, ресурсоємності та опису особливостей навчання моделі та використаного набору даних. Розроблено прототип веб-застосунку на основі запропонованої систематизації метрик, мета якого – допомогти науковцям із обробки даних у формалізації вибору метрик для оцінки моделей залежно від розв’язуваної задачі ML та прикладної області застосування розробленої моделі. Щоб оцінити та продемонструвати метрики, які були запропоновані реалізованим прототипом, були проаналізовані та порівняні моделі виявлення об’єктів Faster R-CNN, SSD і YOLOv3 у контексті їх застосування для аналізу 2D поз людей. Результати аналізу показали, що Faster R-CNN і YOLOv3 мають найточніші відповіді, хоча вони мають недолік — високий рівень помилкових позитивних результатів. Реалізація також показала, що метрики, які базуються на справжніх від’ємних значеннях, неінформативні для застосування у контексті роботи з зображеннями через специфіку області застосування та неможливість обчислення справжніх негативних значень на даних зображення (ці значенні можуть знаходитися де завгодно на зображенні).