Від класифікації до таксономії: автоматизоване структурування назв робіт з ремонту автомобілів у багатомовних корпусах
Main Article Content
Анотація
У цьому дослідженні запропоновано й ретельно перевірено гібридний п’ятиетапний підхід до обробки природньої мови (Natural Language Processing) , який перетворює неструктуровані двомовні тексти про роботи з наряд-замовлень для ремонту автомобілів на багаторівневу ієрархічну класифікацію робіт. Підхід ліквідує розрив між класичною класифікацією за ключовими словами та бізнес-орієнтованою організацією даних. Враховуючи обмеження як традиційних, так і сучасних NLP-методів у технічних, зашумлених і галузево-специфічних датасетах, запропонована методологія об’єднує: розвинену лематизацію, ручне створення словника-ядра, семантичну фільтрацію, класифікацію на основі трансформерів і кластеризацію за векторними представленнями. Спираючись на вдосконалену українську лематизацію, динамічну семантичну фільтрацію, реченнєві вкладення та кластеризацію на основі густини, запропонований алгоритм послідовно нейтралізує шум, багатомовність і «довгий хвіст», притаманні реальним даним по автомобільним ремонтам. Підхід був випробуваний на корпусі з понад 4,3 млн сервісних записів. Він досяг понад 92 % когерентності кластерів, потребуючи лише мінімальний обсяг ручної анотації. Сформовані стандартні довідники відкривають чотири безпосередні переваги для бізнесу: аналітику та порівняння ремонтів на рівні філій, мереж і брендів; чат-боти з розумінням запитів і намірів для точного визначення заявок і автоматизованого розрахунку кошторисів; оптимізацію запасів і робочого часу завдяки деталізованій статистиці робіт; практичну стандартизацію номенклатури ремонтів, яка сприяє обміну даними в межах галузі. Показано, що поєднання мінімального експертного вкладу із сучасними техніками векторних подань і кластеризацією на основі густини, дає змогу автоматизувати створення довідників у промислових масштабах. Це встановлює новий орієнтир для проєктів цифрової трансформації, що залежать від точної структуризації даних на основі зашумлених технічних виразів.