Искусственный интеллект и классические методы в генетике и селекции животных

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

В настоящей статье проведены обзор и анализ основных методов популяционной генетики и селекции животных, а также математических методов машинного обучения, используемых в животноводстве. На примере двух доместицированных видов – домашняя лошадь (Equus caballus) и северный олень (Rangife rtarandus) проведено обучение моделей библиотеки CatBoost. Для обучения модели на основе данных по одомашненным и диким северным оленям, европейским и российским породам лошадей использованы результаты, полученные с помощью микросателлитных панелей, соответственно локусов 16 и 17. Для определения успешности модели были рассчитаны стандартные показатели: Accuracy, Precision, Recall и F1, построены матрицы ошибок. Показаны новые возможности идентификации породной принадлежности животных.

Полный текст

Доступ закрыт

Об авторах

А. Д. Солошенков

Институт общей генетики им. Н.И. Вавилова Российской академии наук; Российский государственный аграрный университет – МСХА имени К.А. Тимирязева

Автор, ответственный за переписку.
Email: alesol@rgau-msha.ru
Россия, 119991, Москва; 127434, Москва

Э. А. Солошенкова

Институт общей генетики им. Н.И. Вавилова Российской академии наук

Email: alesol@rgau-msha.ru
Россия, 119991, Москва

М. Т. Семина

Институт общей генетики им. Н.И. Вавилова Российской академии наук

Email: alesol@rgau-msha.ru
Россия, 119991, Москва

Н. Н. Спасская

Московский государственный университет имени М.В. Ломоносова

Email: alesol@rgau-msha.ru

Научно-исследовательский Зоологический музей

Россия, 125009, Москва

В. Н. Воронкова

Институт общей генетики им. Н.И. Вавилова Российской академии наук

Email: alesol@rgau-msha.ru
Россия, 119991, Москва

Ю. А. Столповский

Институт общей генетики им. Н.И. Вавилова Российской академии наук

Email: alesol@rgau-msha.ru
Россия, 119991, Москва

Список литературы

  1. Моисеева И.Г., Уханов С.В., Столповский Ю.А. и др. Генофонды сельскохозяйственных животных. Генетические ресурсы животноводства России. М.: Наука, 2006. 462 с.
  2. Weigel K.A., VanRaden P.M., Norman H.D., Grosu H. A 100-year review: Methods and impact of genetic selection in dairy cattle-from daughter-dam comparisons to deep learning algorithms // J. Dairy Sci. 2017. V. 100. № 12. P. 10234–10250.
  3. Храброва Л.А., Зайцев А.М., Суходольская И.В. и др. Проблемы учета и сохранения аборигенных пород лошадей // Аборигенное коневодство России: история, современность, перспективы: Сб. науч. трудов по матер. II Всеросс. научно-практ. конф. с междунар. участием. Мезень, 2018. С. 170–176.
  4. Николаева Э.А., Спасская Н.Н., Столповский Ю.А., Воронкова В.Н. Структура популяций заводских и вторично одичавших лошадей // Генетические процессы в популяциях: Материалы науч. Конф. с междунар. участием, посвященной 50-летнему юбилею лаборатории популяционной генетики им. Ю.П. Алтухова ИОГен РАН и 85-летию со дня рождения академика Юрия Петровича Алтухова. 2022. С. 45.
  5. Ashley M.V., Dow B.D. The use of microsatellite analysis in population biology: background, methods and potential applications // Mol. Ecol. Evol.: Approaches and Applications. 1994. P. 185–201.
  6. Столповский Ю.А., Пискунов А.К., Свищева Г.Р. Геномная селекция. I: Последние тенденции и возможные пути развития // Генетика. 2020. Т. 56. № 9. С. 1006–1017. https://doi.org/10.31857/S0016675820090143
  7. Николаева Э.А., Воронкова В.Н., Политова М.А. и др. Генетическая структура русской верховой породы лошадей // Генетика. 2023. Т. 59. № 9. С. 1048–1058. https://doi.org/10.31857/S0016675823090096. EDN WUWYIE.
  8. Животовский Л.А. Генетика природных популяций. Йошкар-Ола: Вертикаль, 2021. 600 с.
  9. Meirmans P.G., Hedrick P.W. Assessing population structure: FST and related measures // Mol. Ecol. Res. 2011. V. 11. № 1. P. 5–18. https://doi.org/10.1111/j.1755-0998.2010.02927.x
  10. Adamack A.T., Gruber B. Popgenreport: Simplifying basic population genetic analyses in R // Methods Ecol, Evol, 2014. V. 5. N 4. P. 384-387. https://doi.org/10.1111/2041-210X.12158
  11. Каштанов С.Н., Свищёва Г.Р., Пищулина С.Л. и др. Географическая структура генофонда соболя (Martes zibellina L.): данные анализа микросателлитных локусов // Генетика. 2015. Т. 51. №. 1. С. 78–78. https://doi.org/10.1134/S1022795415010044
  12. Väli Ü., Einarsson A., Waits L., Ellegren H. To what extent do microsatellite markers reflect genome-wide genetic diversity in natural populations? // Mol. Ecol. 2008. V. 17. № 17. P. 3808–3817.
  13. Porras-Hurtado L., Ruiz Y., Santos C. et al. An overview of STRUCTURE: Applications, parameter settings, and supporting software // Front. in Genet. 2013. V. 4. P. 98. https://doi.org/10.3389/fgene.2013.00098
  14. Gronau I., Moran S. Optimal implementations of UPGMA and other common clustering algorithms // Inform. Proc. Letters. 2007. V. 104. № 6. P. 205–210. https://doi.org/10.1016/j.ipl.2007.07.002
  15. Efron B. Bootstrap methods: Another look at the jackknife // Ann. Statist. 1979. V. 7. P. 1–26. https://doi.org/10.1214/aos/1176344552
  16. Reich D., Price A., Patterson N. Principal component analysis of genetic data // Nat. Genet. 2008. V. 40. P. 491–492. https://doi.org/10.1038/ng0508-491
  17. Sievert C. Interactive Web-based Data Visualization With R, plotly, and shiny. CRC Press, 2020.
  18. Spasskaya N.N., Voronkova V.N., Letarov A.V. et al. Features of reproduction in an isolated island population of the feral horses of the Lake Manych-Gudilo (Rostov Region, Russia) // App. An. Beh. Sci. 2022. V. 254. https://doi.org/10.1016/j.applanim.2022.105712
  19. Maloy S., Hughes K. Brenner’s Encyclopedia of Genetics. MS, Cambridge: Academic Press,. 2013.
  20. Ruzica Bruvo, Nicolaas K. Michiels, Thomas G. D’Souza, Hinrich Shulenberg. A simple method for the calculation of microsatellite genotype distances irrespective of ploidy level // Mol. Ecol. 2004. V. 13(7). P. 2101–2106.
  21. Henderson C.R. Applications of linear models in animal breeding. Guelph, Canada: Univ. Guelph Press. 1984. 462 p.
  22. Отраднов П.И., Рудиянов Д.М., Белоус А.А. Валидация оценок племенной ценности свиней породы дюрок по признакам кормового поведения // Свиноводство. 2023. № 5. С. 22–26. https://doi.org/10.37925/0039-713X-2023-5-22-26
  23. Сермягин А.А., Белоус А.А., Контэ А.Ф. и др. Валидация геномного прогноза племенной ценности быков-производителей по признакам молочной продуктивности дочерей на примере популяции черно-пестрого и голштинского скота // С.-х. биология. 2017. Т. 52. № 6. С. 1148–1156.
  24. Контэ А.Ф., Белоус А.А., Отраднов П.И. Племенная ценность кормового поведения свиней // Аграрный вестник Урала. 2022. №. 10 (225). С. 44–53.
  25. Nayeri S., Sargolzaei M., Tulpan D. A review of traditional and machine learning methods applied to animal breeding // Animal Health Res. Rev. 2019. V. 20, P. 31–46. https://doi.org/10.1017/ S1466252319000148
  26. Zhou Z.H. Machine Learning. London: Springer Nature, 2021. 460 p. https://doi.org/10.1016/S0034-4257(97)00083-7
  27. Stehman S.V. Selecting and interpreting measures of thematic classification accuracy // Remote Sensing of Environment. 1997. V. 62. № 1. P. 77–89. https://doi.org/10.1016/S0034-4257(97)00083-7
  28. Erickson B.J., Kitamura F. Magician’s corner: 9. Performance metrics for machine learning models // Radiology: Artificial Intelligence. 2021. V. 3. № 3. https://doi.org/10.1148/ryai.2021200126
  29. Powers D.M.W. Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation // arXiv preprint arXiv:2010.16061. 2020. https://doi.org/10.48550/arXiv.2010.16061
  30. Sasaki Y. The truth of the F-measure // Teach Tutor Mater. 2007. V. 1. № 5. P. 1–5.
  31. Penzar D.D., Zinkevich A.O., Vorontsov I.E. What do neighbors tell about you: The local context of cis-regulatory modules complicates prediction of regulatory variants // Front. Genet. 2019. V. 10. https://doi.org/10.3389/fgene.2019.01078
  32. Михальский А.И., Новосельцева Ж.А. Применение методов машинного обучения в задачах продуктивного животноводства // Пробл. биол. продуктивных животных. 2018. № 4. С. 98-109. https://doi.org/10.25687/1996-6733.prodanimbiol.2018.3.98-109
  33. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // arXiv preprint arXiv:1409.1556. 2014. doi: 10.48550/arXiv.1409.1556
  34. Jwade S.A., Guzzomi A., Mian A. On farm automatic sheep breed classification using deep learning // Computers and Electronics in Agriculture. 2019. V. 167. https://doi.org/10.1016/j.compag.2019.105055
  35. Batic D., Culibrk D. Identifying individual dogs in social media images // arXiv:2003.06705. 2019.
  36. Столповский Ю.А., Бабаян О.В., Каштанов С.Н. и др. Генетическая оценка пород северного оленя (Rangifer tarandus) и их дикого предка с помощью новой панели STR-маркеров // Генетика. 2020. Т. 56. № 12. С. 1409–1425. https://catboost.ai/en/docs/concepts/loss-functions-multiclassification#usage-information
  37. Южаков А.А., Мухачев А.Д., Лайшев К.А. Породы и проблемы селекции северных оленей России. М.: Наука, 2023. 165 с.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Тепловая карта частот аллелей для 54 пород лошадей. Цветом от желтого к красному обозначена частота встречаемости аллеля в популяции. Идентифицирован приват-аллель 14-го локуса HTG7 для русской верховой породы лошадей (RVP).

Скачать (457KB)
3. Рис. 2. Популяционная структура заводских пород лошадей. Оранжевый цвет - ахалтекинская, синий – буденновская, красный – одичавшие лошади о. Водный, голубой – донская, зеленый – русская тяжеловозная, розовый – русская верховая, желтый – советская тяжеловозная.

Скачать (487KB)
4. Рис. 3. Распределение верховых и тяжеловозных пород лошадей в пространстве двух главных компонент в сравнении с одичавшими лошадьми о. Водный для уточнения происхождения данной популяции. Wild – одичавшие лошади, Buden – буденновская порода; Shaelteke – ахалтекинские лошади завода “Шаэль”; Don – донская; rvp2, rvpstar, rvp3 – выборки русской верховой породы; Rustyazh – русская тяжеловозная; Sovtyazh – советская тяжеловозная порода.

Скачать (219KB)
5. Рис. 4. Построение дерева методом VPGVA. а – дихотомическая кластеризация выборок кеты; б – метод главных компонент.

Скачать (151KB)
6. Рис. 5. Матрица ошибок.

Скачать (81KB)
7. Рис. 6. Матрица ошибок примера.

Скачать (93KB)
8. Рис. 7. Архитектура VGG-16.

Скачать (275KB)
9. Рис. 8. Матрица ошибок для каждой пары исследуемых пород.

Скачать (261KB)
10. Рис. 9. Матрица ошибок модели бинарной классификации для домашних и диких оленей. 0 – домашние, 1 – дикие.

Скачать (63KB)
11. Рис. 10. Матрица ошибок модели для пород домашних оленей и их диких популяций.

Скачать (163KB)

© Российская академия наук, 2024

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».