Распознавание особых участков генома методами машинного обучения

Обложка

Цитировать

Полный текст

Аннотация

В статье изучаются вопросы распознавания особых структурных сегментов геномов, называемых промотерами. Для решения задачи распознавания промотера впервые применены методы машинного обучения, основанные на логическом анализе и классификации данных. Эти методы базируются на поиске информативных фрагментов в признаковых описаниях прецедентов и ориентированы на обработку целочисленной информации низкой значности. Искомые фрагменты хорошо интерпретируемы и позволяют отличать промотеры от других областей генома, однако их поиск требует больших временных затрат. Приведены результаты экспериментов на несбалансированной выборке большого объема, при этом рассмотрен как традиционный способ формирования признаков, использующий k-меры, так и методика прямого применения классификатора к исходным данным. Показано, что во втором случае качество логической классификации существенно выше и составляет 94,3% по ROC-AUC с использованием ансамблевого подхода. Наилучший результат, а именно, точность по ROC-AUC равную 95,1%, показал классификатор Catboost при прямом применении к исходной выборке. При традиционном способе формирования признаков точность Catboost равна 94,8%.

Об авторах

Анастасия Петровна Дюкова

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Автор, ответственный за переписку.
Email: anastasia.d.95@gmail.com

Аспирант

Россия, Москва

Елена Всеволодовна Дюкова

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Email: edjukova@mail.ru

Доктор физико-математических наук, главный научный сотрудник

Россия, Москва

Список литературы

  1. Anwar F., Baker S. M., Jabid T., Mehedi Hasan M., Shoyaib M., Khan H., Walshe R. Pol II promoter prediction using characteristic 4-mer motifs: a machine learning approach // BMC Bioinformatics. 2008. V. 9. P.414.
  2. Huang W. L., Tung C. W., Liaw C., Huang H. L., Ho S. Y. Rule-based knowledge acquisition method for promoter prediction in human and Drosophila species // TheScientificWorldJournal. 2014. V. 2014. P. 327306.
  3. Umarov R., Solovyev V. Recognition of prokaryotic and eukaryotic promoters using convolutional deep learning neural networks // Plos One. 2017. V. 12 (2). e0171410.
  4. Zhang M., Jia C., Li F., Li C., Zhu Y., Akutsu T., Webb G. I., Zou Q., Coin L. J. M., Song J. Critical assessment of computational tools for prokaryotic and eukaryotic promoter prediction // Briefings in bioinformatics. 2022. V. 23 (2). bbab551.
  5. Zhu Y., Li F., Xiang D., Akutsu T., Song J., Jia C. Computational identification of eukaryotic promoters based on cascaded deep capsule neural networks // Briefings in bioinformatics. 2021. V. 22 (4), bbaa299.
  6. Bishop C. M. Pattern Recognition and Machine Learning // Springer, Series: Information Sience and Statistics, 2006. P. 740.
  7. Breiman L., Random Forests // Machine Learning. 2001. V. 45. P. 5–32.
  8. Friedman J., Stochastic Gradient Boosting // Computational Statistics & Data Analysis. 2002.V. 38. P. 367–378.
  9. Chen T., Guestrin C., XGBoost: A Scalable Tree Boosting System. Shah, Mohak; Smola, Alexander J.; Aggarwal, Charu C.; Shen, Dou; Rastogi, Rajeev (eds.) // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Krishnapuram, Balaji. 2016. ACM. P. 785–794.
  10. Ke G., Meng Q., Finley T., Wang T., Chen W., Ma W., Ye Q., Liu T.-Y. LightGBM: A Highly Efficient Gradient Boosting Decision Tree // Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017. P. 3149–3157.
  11. Hancock J.T., Khoshgoftaar T.M. CatBoost for big data: an interdisciplinary review // Journal of Big Data. 2020. V. 7. P. 94.
  12. Dragunov N., Djukova E., Djukova А. Supervised classification and finding frequent elements in data // 8th Conference (International) on Information Technology and Nanotechnology Proceedings. NJ: IEEE. 2022. P. 5.
  13. Драгунов Н. А., Дюкова Е. В., Дюкова А. П. Логическая классификация на основе поиска правильных представительных элементарных классификаторов // Известия РАН. Теория и системы управления. 2024. № 3 (в печати).
  14. Баскакова Л. В., Журавлев Ю. И. Модель распознающих алгоритмов с представительными наборами и системами опорных множеств // Журнал вычислительной математики и математической физики. 1981. Т. 21. № 5. С. 1264–1275.
  15. Дюкова Е. В., Масляков Г. О., Дюкова А. П. Логические методы корректной классификации данных // Информатика и её применения. 2023. Т. 17. Вып. 3. С. 64–70.
  16. Дюкова Е.В., Масляков Г.О., Прокофьев П.А. О логическом анализе данных с частичными порядками в задаче классификации по прецедентам // Ж. вычисл. матем. и матем. физ. 2019. Т. 59. № 9. С. 1605–1616.
  17. Дюкова Е. В., Песков Н. В. Поиск информативных фрагментов описаний объектов в дискретных процедурах распознавания // Журнал вычислительной математики и математической физики. 2002. Т. 42. № 5. С. 741–753.
  18. Журавлёв Ю. И., Рязанов В. В., Сенько О. В. Распознавание. Математические методы. Программная система. Практические применения. М.: ФАЗИС, 2006. С. 159.
  19. Дюкова Е.В., Сизов А.В., Сотнезов Р.М. Об оптимальном корректном перекодировании целочисленных данных в распознавании // Информатика и её применения. 2012. Т. 6. Вып. 4. С.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».