Оптимізація аналізу та мінімізація інформаційних втрат у text mining
DOI:
https://doi.org/10.15276/hait.01.2020.4Ключові слова:
аналіз текстової інформації, анотування, інтелектуальний аналіз текстів, алгоритм, програмний продукт, текстові дані, природна моваАнотація
Стаття присвячена вирішенню таких завдань: провести аналіз сучасних підходів до аналізу та обробки даних; вивчити основні алгоритми для аналізу та обробки даних; на основі застосування новітніх технологій створити програму, яка буде збирати дані, спроектувати архітектуру програми для більш ефективного використання; очистити дані, застосовуючи методи мінімізації інформаційних втрат; проаналізувати отримані очищені дані застосовуючи підходи до аналізу та обробки текстових даних; зробити висновки за результатами усіх вищезгаданих робіт. Існує досить велика кількість різновидів перерахованих завдань, а також методів їх вирішення Інформація є одним з найважливіших ресурсів сучасного бізнес-середовища. Для будь-якої компанії важко досягти успіху, не маючи достатньої інформації про своїх клієнтів, співробітників та інших ключових зацікавлених сторін. Щодня компанії отримують неструктурований і структурований текст з різних джерел, таких як результати опитування, твіти, нотатки до колл-центру, телефонні розсилки, онлайн-відгуки клієнтів, записані взаємодії, листи та інші документи. Ці джерела надають необроблений текст, який нелегко зрозуміти без використання правильного інструменту аналізу тексту. Можна виконувати аналітику тексту вручну, але процес вручну неефективний. Традиційні системи використовують ключові слова і не можуть читати і розуміти мову в електронних листах, твітах, веб-сторінках і текстових документах. З цих причин компанії використовують програмне забезпечення для аналізу текстів для аналізу великих обсягів текстових даних. Програмне забезпечення допомагає користувачам отримувати інформацію з текстових даних, щоб діяти відповідно В даний час найбільш поширене ручне анотування, до переваг якого можна віднести, безумовно, високу якість складання анотації та її «осмисленість». Типові недоліки ручних систем анотування, систем аналізу текстової інформації - це високі матеріальні витрати і притаманна їм низька швидкість роботи. Тому тематика цієї статті – це дослідження методів за допомогою яких можна ефективно анотувати відгуки про різноманітні товари з найбільшого торгівельного майданчику України. Це ще раз підтверджує значущість і актуальність обраної нами теми. Метою дослідження є методи та засоби за допомогою яких можна мінімізувати інформаційні втрати при аналізі та обробці текстових даних. Об’єктом дослідження є процес мінімізації інформаційних втрат при аналізі та обробці текстових даних. В ході дослідження проведено аналіз останніх досліджень з аналізу та обробки текстової інформації; проаналізовано методи обробки текстової інформації та алгоритми Data Mining