Побудова графа вебсайту з використанням процедури краулінгу

Автор(и)

  • Долотов Іван Олександрович Дніпровський національний університет імені Олеся Гончара , пр. Науки, 72. Дніпро, 49010, Україна
  • Гук Наталія Анатоліївна Дніпровський національний університет імені Олеся Гончара , пр. Науки, 72. Дніпро, 49010, Україна

DOI:

https://doi.org/10.15276/hait.07.2024.27

Ключові слова:

граф, вебсайт, вебграф, краулінг, обхід в ширину, кластеризація, модулярність, транзитивність, метрика

Анотація

Розглянуто підхід до аналізу структури вебсайту. Мета роботи полягає у розробці процедури автоматичного збору даних про структуру вебсайту (процедури краулінгу), за допомогою якої здійснюється обхід сайту та будується вебграф у вигляді списків вершин та ребер або матриці суміжності, для подальшого вивчення структури через аналіз зв’язків між його елементами. Незрозуміла структура вебсайту призводить до погіршення навігації сайтом для користувача та уповільнення індексації сайту пошуковими машинами, тому розробка процедур автоматичного аналізу структури є актуальною задачею. Відомі процедури збору інформації про сайт не забезпечують можливість отримання повного набору даних та не мають налаштувань для визначення параметрів збору інформації. Враховуючи, що сучасні вебсайти мають динамічну структуру, яка призводить до відмінностей у записі URL-адрес, у роботі вдосконалюється підхід до автоматизації збору інформації про структуру сайту з врахуванням наявності динамічних сторінок та особливостей побудови їхніх URL-адрес. Методом дослідження є вивчення зовнішніх та внутрішніх посилань на вебсторінках для розуміння зв’язків між окремими частинами сайту, оцінювання якості структури через визначення метричних характеристик побудованого вебграфа, зокрема діаметру, щільності, коефіцієнту кластеризації тощо. В роботі розроблено процедуру та алгоритм краулінгу, що спираються на метод обходу графа в ширину. Для реалізації процедури краулінгу та аналізу отриманих даних розроблено програмне забезпечення із використанням бібліотек Python (requests, BeautifulSoup4, networkx). Побудовано вебграфи кількох вебсайтів різного спрямування та тематики. Зображення сайту у вигляді вебграфа дозволило дослідити його структуру. Побудовано графіки залежності середньої щільності вебграфів від кількості вершин, середнього часу формування графа від кількості вершин та середнього коефіцієнту модулярності від коефіцієнту кластеризації. Встановлено, що вебсайти з чітко вираженою тематичною структурою мають більш високі значення коефіцієнтів модулярності та кластеризації. Практична значущість роботи полягає в тому, що отримані результати можуть бути використані для оптимізації структури сайтів та розробки нових інструментів для аналізу даних.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

Долотов Іван Олександрович, Дніпровський національний університет імені Олеся Гончара , пр. Науки, 72. Дніпро, 49010, Україна

аспірант, факультет Прикладної математики

 

Гук Наталія Анатоліївна, Дніпровський національний університет імені Олеся Гончара , пр. Науки, 72. Дніпро, 49010, Україна

доктор фізико-математичних наук, професор, факультет Прикладної математики

Scopus Author ID: 54791066900

 

Опубліковано

2024-11-14

Як цитувати

Dolotov, I. O., & Guk, N. A. (2024). Constructing a website graph using the crawling procedure. Вісник сучасних інформаційних технологій, 7(4), 384–392. https://doi.org/10.15276/hait.07.2024.27