Распознавание особых участков генома методами машинного обучения
- Авторы: Дюкова А.П.1, Дюкова Е.В.1
-
Учреждения:
- Федеральный исследовательский центр «Информатика и управление» Российской академии наук
- Выпуск: № 4 (2024)
- Страницы: 45-54
- Раздел: Вычислительный интеллект
- URL: https://bakhtiniada.ru/2071-8594/article/view/278195
- DOI: https://doi.org/10.14357/20718594240404
- EDN: https://elibrary.ru/WMCQXO
- ID: 278195
Цитировать
Полный текст
Аннотация
В статье изучаются вопросы распознавания особых структурных сегментов геномов, называемых промотерами. Для решения задачи распознавания промотера впервые применены методы машинного обучения, основанные на логическом анализе и классификации данных. Эти методы базируются на поиске информативных фрагментов в признаковых описаниях прецедентов и ориентированы на обработку целочисленной информации низкой значности. Искомые фрагменты хорошо интерпретируемы и позволяют отличать промотеры от других областей генома, однако их поиск требует больших временных затрат. Приведены результаты экспериментов на несбалансированной выборке большого объема, при этом рассмотрен как традиционный способ формирования признаков, использующий k-меры, так и методика прямого применения классификатора к исходным данным. Показано, что во втором случае качество логической классификации существенно выше и составляет 94,3% по ROC-AUC с использованием ансамблевого подхода. Наилучший результат, а именно, точность по ROC-AUC равную 95,1%, показал классификатор Catboost при прямом применении к исходной выборке. При традиционном способе формирования признаков точность Catboost равна 94,8%.
Об авторах
Анастасия Петровна Дюкова
Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Автор, ответственный за переписку.
Email: anastasia.d.95@gmail.com
Аспирант
Россия, МоскваЕлена Всеволодовна Дюкова
Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Email: edjukova@mail.ru
Доктор физико-математических наук, главный научный сотрудник
Россия, МоскваСписок литературы
- Anwar F., Baker S. M., Jabid T., Mehedi Hasan M., Shoyaib M., Khan H., Walshe R. Pol II promoter prediction using characteristic 4-mer motifs: a machine learning approach // BMC Bioinformatics. 2008. V. 9. P.414.
- Huang W. L., Tung C. W., Liaw C., Huang H. L., Ho S. Y. Rule-based knowledge acquisition method for promoter prediction in human and Drosophila species // TheScientificWorldJournal. 2014. V. 2014. P. 327306.
- Umarov R., Solovyev V. Recognition of prokaryotic and eukaryotic promoters using convolutional deep learning neural networks // Plos One. 2017. V. 12 (2). e0171410.
- Zhang M., Jia C., Li F., Li C., Zhu Y., Akutsu T., Webb G. I., Zou Q., Coin L. J. M., Song J. Critical assessment of computational tools for prokaryotic and eukaryotic promoter prediction // Briefings in bioinformatics. 2022. V. 23 (2). bbab551.
- Zhu Y., Li F., Xiang D., Akutsu T., Song J., Jia C. Computational identification of eukaryotic promoters based on cascaded deep capsule neural networks // Briefings in bioinformatics. 2021. V. 22 (4), bbaa299.
- Bishop C. M. Pattern Recognition and Machine Learning // Springer, Series: Information Sience and Statistics, 2006. P. 740.
- Breiman L., Random Forests // Machine Learning. 2001. V. 45. P. 5–32.
- Friedman J., Stochastic Gradient Boosting // Computational Statistics & Data Analysis. 2002.V. 38. P. 367–378.
- Chen T., Guestrin C., XGBoost: A Scalable Tree Boosting System. Shah, Mohak; Smola, Alexander J.; Aggarwal, Charu C.; Shen, Dou; Rastogi, Rajeev (eds.) // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Krishnapuram, Balaji. 2016. ACM. P. 785–794.
- Ke G., Meng Q., Finley T., Wang T., Chen W., Ma W., Ye Q., Liu T.-Y. LightGBM: A Highly Efficient Gradient Boosting Decision Tree // Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017. P. 3149–3157.
- Hancock J.T., Khoshgoftaar T.M. CatBoost for big data: an interdisciplinary review // Journal of Big Data. 2020. V. 7. P. 94.
- Dragunov N., Djukova E., Djukova А. Supervised classification and finding frequent elements in data // 8th Conference (International) on Information Technology and Nanotechnology Proceedings. NJ: IEEE. 2022. P. 5.
- Драгунов Н. А., Дюкова Е. В., Дюкова А. П. Логическая классификация на основе поиска правильных представительных элементарных классификаторов // Известия РАН. Теория и системы управления. 2024. № 3 (в печати).
- Баскакова Л. В., Журавлев Ю. И. Модель распознающих алгоритмов с представительными наборами и системами опорных множеств // Журнал вычислительной математики и математической физики. 1981. Т. 21. № 5. С. 1264–1275.
- Дюкова Е. В., Масляков Г. О., Дюкова А. П. Логические методы корректной классификации данных // Информатика и её применения. 2023. Т. 17. Вып. 3. С. 64–70.
- Дюкова Е.В., Масляков Г.О., Прокофьев П.А. О логическом анализе данных с частичными порядками в задаче классификации по прецедентам // Ж. вычисл. матем. и матем. физ. 2019. Т. 59. № 9. С. 1605–1616.
- Дюкова Е. В., Песков Н. В. Поиск информативных фрагментов описаний объектов в дискретных процедурах распознавания // Журнал вычислительной математики и математической физики. 2002. Т. 42. № 5. С. 741–753.
- Журавлёв Ю. И., Рязанов В. В., Сенько О. В. Распознавание. Математические методы. Программная система. Практические применения. М.: ФАЗИС, 2006. С. 159.
- Дюкова Е.В., Сизов А.В., Сотнезов Р.М. Об оптимальном корректном перекодировании целочисленных данных в распознавании // Информатика и её применения. 2012. Т. 6. Вып. 4. С.
Дополнительные файлы
