Система штучного інтелекту для ідентифікації поведінки робота на web-ресурсі
DOI:
https://doi.org/10.15276/hait.04.2019.5Ключові слова:
клікфрод, роботи, антіфрод, машинне навчання, персептрон, Java, WekaАнотація
Розглянуто архітектурна реалізація системи машинного навчання для ідентифікації робота на web- ресурсі по поведінкових факторів. У статті описано побудову програмної архітектури для системи машинного навчання, завданням якої є визначення поведінку анонімних користувачів. Поведінкові фактори для ідентифікації шкідливих роботів – це сукупність факторів, що описують різні складові, кожен з яких може бути характерним для поведінки робота. Програмне забезпечення Weka забезпечує механізм навчання по спроектованим моделям даних, що описують поводження людини і поведінки робота. Алгоритм навчання – «метод найближчих сусідів», забезпечує побудова образів на основі найбільшого кількість поєднань чинників, що описують одну з моделей. Моделі даних для навчання зберігаються в файлі на жорсткому диску у вигляді матриць ознакових описів кожного з типів поводжень. У статті розглядаються програмні та алгоритмічні рішення, які допоможуть вирішити проблеми боротьби з шахрайськими натисканнями на рекламні блоки, спамом і розподіленими багатосесійність атаками на сервер, а також зниження рівня довіри до web-сайту для пошукових систем. Велике у неліквідного і шкідливого трафіку знижує пошукові позиції і зменшує тематичний індекс цитування та пошуковий рейтинг сторінок сайту, що призводить до зниження прибутковості web-ресурсу. Результатами цієї статті є запропонована система аналізу поведінки, опис технічної оболонки реалізації і модель навчання системи. Також приведена статистика порівняння шкідливого трафіку після підключення системи на web-сайті. Мова реалізації – Java. Використання Java дозволяє кроссплатформенную інтеграцію системи, як на Linux, так і Windows. Збір даних з сайту для визначення ролі користувачів, здійснюється за допомогою JavaScript модулів, розміщених на web-ресурсі. Всі алгоритми збору даних і терміни зберігання інформації реалізовані в рамках загальноєвропейського регламенту щодо захисту даних. Також система забезпечує повну анонімність користувача. Ідентифікація здійснюється виключно за допомогою використання fingeprint-міток