Шановні колеги! ХІ Міжнародна науково-практична конференція «Інформатика. Культура. Техніка» (25.09.2025 – 26.09.2025) (Детальніше)

Поліпшена модель сегментації для ідентифікації екземплярів об'єктів на основі текстових запитів

Автор(и)

  • Машталір Сергій Володимирович Харківський національний університет радіоелектроніки, проспект Науки 14. Харків, 61166, Україна
  • Ковтуненко Андрій Романович Харківський національний університет радіоелектроніки, проспект Науки 14.Харків, 61166, Україна

DOI:

https://doi.org/10.15276/hait.08.2025.4

Ключові слова:

глибоке навчання, сегментація зображень, згорткові нейронні мережі, архітектури-трансформери, контрастна мовно-образна підготовка, сегментація з нефіксованим набором класів

Анотація

Кількість мультимедійної інформації, що стрімко зросла, вимагає суттєвого розвитку методів її швидкої обробки. При цьому одним із напрямів обробки є попередній аналіз із виділенням характерних ознак зображень для скорочення інформації необхідної для подальших завдань. Одним із видів такого скорочення інформації є сегментація зображень. При цьому загальне завдання сегментації зображень часто зводиться до задачі сегментації об'єктів, що є фундаментальною задачею комп'ютерного зору, що вимагає точного піксельного розмежування об'єктів і розуміння сцени. З розвитком методів обробки природньої мови (NLP) багато підходів були успішно адаптовані до завдань комп'ютерного зору, дозволяючи більш інтуїтивно описувати сцени за допомогою природної мови. На відміну від традиційних моделей, обмежених фіксованим набором класів, підходи на основі обробки природньої мови NLP дозволяють шукати об'єкти на основі атрибутів, що розширює їх застосування. Хоча існуючі методи сегментації об'єктів зазвичай поділяються на одноетапні та двоетапні - залежно від швидкості та точності - залишається прогалина в розробці моделей, які можуть ефективно ідентифікувати та сегментувати об'єкти на основі текстових підказок. Для вирішення цієї проблеми ми пропонуємо модель сегментації екземплярів з необмеженою кількістю класів, здатну виявляти та сегментувати об'єкти за підказками. Наш підхід базується на CLIPSeg, інтегруючи архітектурні модифікації Panoptic-DeepLab та PRN (Panoptic Refinement Network) для прогнозування центрів об'єктів та попіксельних відстаней до меж. На етапі постобробки результати сегментації уточнюються для покращення розділення об'єктів. Запропонована архітектура навчалася на наборах даних LVIS і PhraseCut та оцінюється за допомогою середнього Dice score з сучасними моделями сегментації з відкритими наборами класів. Експериментальні результати показують, що хоча наша модель досягає найвищої швидкості виведення серед методів з відкритими множинами, зберігаючи при цьому якість сегментації на рівні FastSAM, постобробка залишається слабкою ланкою. Майбутні вдосконалення повинні бути спрямовані на усунення самого процесу постобробки або вдосконалення його алгоритму що може призвести до більш ефективної сегментації.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

Машталір Сергій Володимирович, Харківський національний університет радіоелектроніки, проспект Науки 14. Харків, 61166, Україна

доктор технічних наук, професор кафедри Інформатики 

Scopus Author ID: 36183980100

Ковтуненко Андрій Романович, Харківський національний університет радіоелектроніки, проспект Науки 14.Харків, 61166, Україна

аспірант кафедри Інформатики 

Scopus Author ID: 58362751200

Опубліковано

2025-04-04

Як цитувати

Mashtalir, S. . V., & Kovtunenko, A. R. (2025). Improved segmentation model to identify object instances based on textual prompts. Вісник сучасних інформаційних технологій, 8(1), 54–66. https://doi.org/10.15276/hait.08.2025.4