Сучасний стан методів і алгоритмів кластеризації та бікластеризації для аналізу даних експресії генів
DOI:
https://doi.org/10.15276/hait.07.2024.24Ключові слова:
інтелектуальний аналіз даних, дані експресії генів, кластеризація, бікластеризація, система прийняття рішень, методи на основі ансамблів, альтернативне голосування, персоналізована медицинаАнотація
Аналіз даних експресії генів стає дедалі складнішим через розширення високопродуктивних технологій, таких як bulk RNA-seq та одноядерне секвенування РНК (scRNA-seq). Ці набори даних створюють значні виклики для традиційних методів кластеризації, які часто не здатні справлятися з високою вимірністю, шумом та варіабельністю, властивими біологічним даним. Як результат, у біоінформатиці набувають популярності методи бікластеризації, що дозволяють одночасно групувати гени та умови. Бікластеризація є корисною для ідентифікації підмножин співрегульованих генів за певних умов, сприяючи дослідженню транскрипційних модулів та зв’язків між генами та хворобами. Цей огляд охоплює як традиційні методи кластеризації, так і методи бікластеризації для аналізу експресії генів, розглядаючи їх застосування для стратифікації пацієнтів, ідентифікації генних мереж та дослідження взаємодії між генами та ліками. Обговорено ключові алгоритми бікластеризації з акцентом на їхні сильні сторони та виклики у роботі зі складними профілями. Стаття висвітлює важливі питання, такі як оптимізація гіперпараметрів, масштабованість та необхідність біологічно інтерпретованих результатів. Розглянуто новітні тенденції, такі як консенсусна кластеризація та метрики відстані для високовимірних даних, а також обмеження поточних метрик оцінки. Розглядається потенціал цих методів у діагностичних системах для таких захворювань, як рак та нейродегенеративні розлади. Нарешті, ми окреслюємо перспективні напрями для вдосконалення алгоритмів кластеризації та бікластеризації з метою створення системи персоналізованої медицини на основі даних експресії генів.