Від класифікації до таксономії: автоматизоване структурування назв робіт з ремонту автомобілів у багатомовних корпусах

Main Article Content

Sergii V. Mashtalir
Oleksandr V. Nikolenko

Анотація

У цьому дослідженні запропоновано й ретельно перевірено гібридний п’ятиетапний підхід до обробки природньої мови (Natural Language Processing) , який перетворює неструктуровані двомовні тексти про роботи з наряд-замовлень для ремонту автомобілів на багаторівневу ієрархічну класифікацію робіт. Підхід ліквідує розрив між класичною класифікацією за ключовими словами та бізнес-орієнтованою організацією даних. Враховуючи обмеження як традиційних, так і сучасних NLP-методів у технічних, зашумлених і галузево-специфічних датасетах, запропонована методологія об’єднує: розвинену лематизацію, ручне створення словника-ядра, семантичну фільтрацію, класифікацію на основі трансформерів і кластеризацію за векторними представленнями. Спираючись на вдосконалену українську лематизацію, динамічну семантичну фільтрацію, реченнєві вкладення та кластеризацію на основі густини, запропонований алгоритм послідовно нейтралізує шум, багатомовність і «довгий хвіст», притаманні реальним даним по автомобільним ремонтам. Підхід був випробуваний на корпусі з понад 4,3 млн сервісних записів. Він досяг понад 92 % когерентності кластерів, потребуючи лише мінімальний обсяг ручної анотації. Сформовані стандартні довідники відкривають чотири безпосередні переваги для бізнесу: аналітику та порівняння ремонтів на рівні філій, мереж і брендів; чат-боти з розумінням запитів і намірів для точного визначення заявок і автоматизованого розрахунку кошторисів; оптимізацію запасів і робочого часу завдяки деталізованій статистиці робіт; практичну стандартизацію номенклатури ремонтів, яка сприяє обміну даними в межах галузі. Показано, що поєднання мінімального експертного вкладу із сучасними техніками векторних подань і кластеризацією на основі густини, дає змогу автоматизувати створення довідників у промислових масштабах. Це встановлює новий орієнтир для проєктів цифрової трансформації, що залежать від точної структуризації даних на основі зашумлених технічних виразів.

Downloads

Download data is not yet available.

Article Details

Тематика

Розділ

Теоретичні аспекти комп’ютерних наук, програмування та аналізу даних

Автори

Біографії авторів

Sergii V. Mashtalir, Харківський національний університет радіоелектроніки, пр. Науки, 14. Харків, 61166, Україна

доктор технічних наук, професор кафедри Інформатики
Scopus Author ID: 36183980100

Oleksandr V. Nikolenko, Ужгородський національний університет», вул. Університетська, 14. Ужгород, 88000, Україна

спеціаліст за спеціальністю «Прикладна математика». Здобувач ступеня доктора філософії

Scopus Author ID: 59739709200 

Схожі статті

Ви також можете розпочати розширений пошук схожих статей для цієї статті.