Оптимізація ієрархічних класифікаторів шляхом налаштування параметрів та оцінки впевненості
DOI:
https://doi.org/10.15276/hait.07.2024.15Ключові слова:
обробка природної мови (NLP), деревоподібна класифікація, машинне навчання, аналіз даних, прикладні інтелектуальні системиАнотація
Ієрархічні класифікатори відіграють вирішальну роль у вирішенні складних задач класифікації, розбиваючи їх на
менші, більш керовані підзадачі. Ця стаття продовжує серію робіт, зосереджених на ієрархічній класифікації технічних
українських текстів, зокрема класифікації ремонтних робіт та запасних частин, що використовуються в обслуговуванні та
ремонті автомобілів. Ми вирішуємо питання, пов'язані з багатомовними вхідними даними – зокрема українською,
російською та їх міксом – і відсутністю стандартних моделей попередньої обробки даних для української мови. У цій статті
описується метод навчання та оцінювання моделі ієрархічної класифікації за допомогою налаштування параметрів для
кожного вузла в деревоподібній структурі. Процес навчання включає ініціалізацію ваг для токенів у вузлах дерева класів та
вхідних рядках, після чого проводиться ітеративне налаштування параметрів для оптимізації точності класифікації.
Початкові ваги призначаються на основі наперед визначених правил, а ітеративний процес коригує ці ваги для досягнення
оптимальної продуктивності. Стаття також розглядає проблему інтерпретації множинних показників впевненості,
отриманих з процесу класифікації, пропонуючи підхід машинного навчання з використанням GradientBoostingClassifier з
бібліотеки Scikit-learn для розрахунку уніфікованого показника впевненості. Цей показник допомагає оцінити надійність
класифікації, особливо для нерозмічених даних, шляхом трансформації вхідних значень, генерації поліноміальних
параметрів та використання логарифмічних перетворень і масштабування. Класифікатор точно налаштовується за
допомогою технік оптимізації гіперпараметрів, а фінальна модель забезпечує надійний показник впевненості для задач
класифікації, дозволяючи перевіряти та оптимізувати результатів класифікації на великих наборах даних. Загальна точність
класифікації майже подвоїлася після навчання, досягнувши 92.38 %. Це дослідження не тільки просуває теоретичну основу
ієрархічних класифікаторів, але й надає практичні рішення для обробки великомасштабних, нерозмічених наборів даних в
автомобільній індустрії. Майбутні роботи будуть спрямовані на розширення цього підходу на більш складні задачі, такі як
знаходження та класифікація інформації з великих текстів, наприклад, транскрипцій телефонних дзвінків.