Метод комплексного формирования предикторов для применения алгоритмов машинного обучения в задаче предсказания структуры и функций белка

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Повышение точности предсказания структуры и функций белков в последнее время связано в основном с применением и совершенствованием методов машинного обучения. Кодирование информации, содержащейся в последовательности аминокислот, ‒ первый этап предсказания структуры, и поэтому оно играет фундаментальную роль в конечном успехе этих методов. Мы предлагаем единую методику генерации предикторов сложного вида, позволяющую формализовать предположения о факторах, которые влияют на структуру и функцию белка. Кроме того, в рамках этой задачи предложен подход к созданию и использованию баз данных структурных свойств, предоставляющих новые возможности для статистического описания и анализа структурных свойств. Предложенные методы позволяют создавать и тестировать наборы предикторов (описывающих факторы, которые влияют на структуру и функцию белка) как для конкретных задач, так и универсальных. Статистические методы построения моделей, которые мы используем, позволяют отбирать статистически значимые предикторы и улучшать таким образом предсказательные модели. На классическом примере предсказания вторичной структуры белка мы показали эффективность данного подхода, получив точность предсказания для трех классов DSSP: Q3 = 81.3%. Предложенный метод реализован в виде мультиплатформенной программы на языке С++ для командной строки. Исходный код и использованные в этой работе данные расположены по ссылке https://github.com/Milchevskiy/protein-encoding-projects

Об авторах

Ю. В. Мильчевский

Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук

Автор, ответственный за переписку.
Email: milch@eimb.ru
Россия, 119991, Москва

В. Ю. Мильчевская

Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук; Institute of Medical Statistics and Bioinformatics, Faculty of Medicine, University of Cologne

Email: milch@eimb.ru
Россия, 119991, Москва; Germany, 50931, Cologne

Ю. В. Кравацкий

Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук; Центр высокоточного редактирования и генетических технологий для биомедицины,
Институт молекулярной биологии им. В.А. Энгельгардта Российской академии наук

Email: milch@eimb.ru
Россия, 119991, Москва; Россия, 119991, Москва

Список литературы

  1. Anfinsen C.B. (1973) Principles that govern the folding of protein chains. Science. 181, 223‒230.
  2. Yang Y., Gao J., Wang J., Heffernan R., Hanson J., Paliwal K., Zhou Y. (2018) Sixty-five years of the long march in protein secondary structure prediction: the final stretch? Brief. Bioinform. 19, 482‒494.
  3. Zimmermann O., Hansmann U.H. (2008) LOCUSTRA: accurate prediction of local protein structure using a two-layer support vector machine approach. J. Chem. Inf. Model. 48, 1903‒1908.
  4. Wuyun Q., Zheng W., Peng Z., Yang J. (2018) A large-scale comparative assessment of methods for residue-residue contact prediction. Brief. Bioinform. 19, 219‒230.
  5. Zhang J., Kurgan L. (2018) Review and comparative assessment of sequence-based predictors of protein-binding residues. Brief Bioinform. 19, 821‒837.
  6. Min S., Lee B., Yoon S. (2017) Deep learning in bioinformatics. Brief. Bioinform. 18, 851‒869.
  7. Hu H.J., Pan Y., Harrison R., Tai P.C. (2004) Improved protein secondary structure prediction using support vector machine with a new encoding scheme and an advanced tertiary classifier. IEEE Trans Nanobioscience. 3, 265‒271.
  8. Yoo P.D., Sikder A.R., Zhou B.B., Zomaya A.Y. (2008) Improved general regression network for protein domain boundary prediction. BMC Bioinformatics. 9(Suppl. 1), S12.
  9. Miyazawa S., Jernigan R.L. (1999) Self-consistent estimation of inter-residue protein contact energies based on an equilibrium mixture approximation of residues. Proteins. 34, 49‒68.
  10. Lin K., May A.C., Taylor W.R. (2002) Amino acid encoding schemes from protein structure alignments: multi-dimensional vectors to describe residue types. J. Theor. Biol. 216, 361‒365.
  11. Asgari E., Mofrad M.R. (2015) Continuous distributed representation of biological sequences for deep proteomics and genomics. PLoS One. 10, e0141287.
  12. Jing X., Dong Q., Hong D., Lu R. (2020) Amino acid encoding methods for protein sequences: a comprehensive review and assessment. IEEE/ACM Trans. Comput. Biol. Bioinform. 17, 1918‒1931.
  13. Kawashima S., Pokarowski P., Pokarowska M., Kolinski A., Katayama T., Kanehisa M. (2008) AAindex: amino acid index database, progress report 2008. Nucleic Acids Res. 36, D202‒205.
  14. Milchevskaya V., Nikitin A.M., Lukshin S.A., Filatov I.V., Kravatsky Y.V., Tumanyan V.G., Esipova N.G., Milchevskiy Y.V. (2021) Structural coordinates: a novel approach to predict protein backbone conformation. PLoS One. 16, e0239793.
  15. Taha K., Yoo P.D. (2015) Predicting protein function from biomedical text. Annu. Int. Conf. IEEE Eng. Med. Biol. Soc. 2015, 3275‒3278.
  16. Dayhoff M.O. (1972) Atlas of protein sequence and structure. Silver Spring, Md.: National Biomedical Research Foundation.
  17. de Brevern A.G., Etchebest C., Hazout S. (2000) Bayesian probabilistic approach for predicting backbone structures in terms of protein blocks. Proteins. 41, 271‒287.
  18. Kabsch W., Sander C. (1983) Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers. 22, 2577‒2637.
  19. Hocking R.R. (1983) Developments in linear regression methodology: 1959‒1982. Technometrics. 25, 219‒223.
  20. Ralston A., Wilf H.S., Enslein K. (1960) Mathematical methods for digital computers. New York: Wiley.
  21. Wertz D.H., Scheraga H.A. (1978) Influence of water on protein structure. An analysis of the preferences of amino acid residues for the inside or outside and for specific conformations in a protein molecule. Macromolecules. 11, 9‒15.
  22. Wang G., Dunbrack R.L., Jr. (2005) PISCES: recent improvements to a PDB sequence culling server. Nucleic Acids Res. 33, W94‒98.
  23. Cuff J.A., Barton G.J. (1999) Evaluation and improvement of multiple sequence methods for protein secondary structure prediction. Proteins. 34, 508‒519.
  24. Rout S.B., Mishra S., Sahoo S.K. (2021) Q3 Accuracy and SOV measure analysis of application of GA in protein secondary structure prediction. Revue d’Intelligence Artificielle. 35, 403‒408.
  25. Yang Y., Heffernan R., Paliwal K., Lyons J., Dehzangi A., Sharma A., Wang J., Sattar A., Zhou Y. (2017) SPIDER2: a package to predict secondary structure, accessible surface area, and main-chain torsional angles by deep neural networks. Methods Mol. Biol. 1484, 55‒63.
  26. Drozdetskiy A., Cole C., Procter J., Barton G.J. (2015) JPred4: a protein secondary structure prediction server. Nucleic Acids Res. 43, W389‒394.
  27. Xie S., Li Z., Hu H. (2018) Protein secondary structure prediction based on the fuzzy support vector machine with the hyperplane optimization. Gene. 642, 74‒83.
  28. Magnan C.N., Baldi P. (2014) SSpro/ACCpro 5: almost perfect prediction of protein secondary structure and relative solvent accessibility using profiles, machine learning and structural similarity. Bioinformatics. 30, 2592‒2597.
  29. Ma Y., Liu Y., Cheng J. (2018) Protein secondary structure prediction based on data partition and semi-random subspace method. Sci. Rep. 8, 9856.
  30. Guo Z., Hou J., Cheng J. (2021) DNSS2: improved ab initio protein secondary structure prediction using advanced deep learning architectures. Proteins. 89, 207‒217.
  31. Wang S., Peng J., Ma J., Xu J. (2016) Protein secondary structure prediction using deep convolutional neural fields. Sci. Rep. 6, 18962.
  32. Zhang B., Li J., Lu Q. (2018) Prediction of 8-state protein secondary structures by a novel deep learning architecture. BMC Bioinformatics. 19, 293.
  33. Krieger S., Kececioglu J. (2020) Boosting the accuracy of protein secondary structure prediction through nearest neighbor search and method hybridization. Bioinformatics. 36, i317‒i325.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2.

Скачать (31KB)
3.

Скачать (44KB)
4.

Скачать (172KB)
5.


© Ю.В. Мильчевский, В.Ю. Мильчевская, Ю.В. Кравацкий, 2023

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».