Методы извлечения биомедицинской информации из патентов и научных публикаций (на примере химических соединений)
- Авторы: Колпаков Н.А.1, Молодченков А.И.2,3, Лукин А.В.3
-
Учреждения:
- Московский физико-технический институт
- Федеральное государственное учреждение «Федеральный исследовательский центр «Информатика и управление» Российской академии наук»
- Российский университет дружбы народов
- Выпуск: Том 73, № 1 (2023)
- Страницы: 159-166
- Раздел: Компьютерный анализ текстов
- URL: https://bakhtiniada.ru/2079-0279/article/view/286896
- DOI: https://doi.org/10.14357/20790279230118
- ID: 286896
Цитировать
Полный текст
Аннотация
В данной статье предложен алгоритм для решения задачи извлечения информации из биомедицинских патентов и научных публикаций. Предложенный алгоритм основан на методах машинного обучения. Были проведены эксперименты на патентах из базы USPTO. Эксперименты показали, что лучшее качество извлечения показала модель, построенная на основе BioBERT.
Об авторах
Николай Алексеевич Колпаков
Московский физико-технический институт
Email: kolpakov.na@phystech.edu
Бакалавр
Россия, 117303, г. Москва, ул. Керченская, д. 1А, стр. 1Алексей Игоревич Молодченков
Федеральное государственное учреждение «Федеральный исследовательский центр «Информатика и управление» Российской академии наук»;Российский университет дружбы народов
Автор, ответственный за переписку.
Email: aim@tesyan.ru
кандидат технических наук
Россия, 119333, Москва, ул. Вавилова, д. 44/2; 117198, Москва, ул. Миклухо-Маклая, д. 6Антон В. Лукин
Российский университет дружбы народов
Email: antonvlukin@gmail.com
учёная степень
Россия, 117198, Москва, ул. Миклухо-Маклая, д. 6Список литературы
- Akhondi, S., Rey, H., Schwörer, M., Maier, M., Toomey, J., Nau, H., Ilchmann, G., Sheehan, M., Irmer, M., Bobach, C., Doornenbal, M., Gregory and M., Kors, J. Automatic identification of relevant chemical compounds from patents. Database: the journal of biological databases and curation. 2019. Vol. 1. P. 1–14.
- Jessop, D., Adams, S., Willighagen, E., Hawizy, L. and Murray-Rust, P. OSCAR4: A flexible architecture for chemical textmining. Journal of cheminformatics. 2011. Vol. 3. No. 1. P. 1–12.
- Soysal, E., Wang, J., Jiang, M., Wu, Y., Pakhomov, S., Liu, H. and Qi, W. CLAMP – a toolkit for efficiently building customized clinical natural language processing pipelines. Journal of the American Medical Informatics Association: JAMIA. 2018. Vol. 25. No. 3. P. 331–336.
- Swain, M. and Cole, J. 2016. ChemDataExtractor: A Toolkit for Automated Extraction of Chemical Information from the Scientific Literature. Journal of Chemical Information and Modeling. 2016. Vol. 56. No. 10. P. 1894–1904.
- Jinhyuk, L., Wonjin, Y., Sungdong, K., Donghyeon, K., Sunkyu, K., Chan, H. S. and Jaewoo, K. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2019. Vol. 36. No. 4. P. 1234–1240.
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, L. and Polosukhin, I. Attention Is All You Need. Advances in Neural Information Processing Systems. 2017. Vol. 30. P. 5998–6008.
- Devlin, J., Chang, M.-W., Lee, K. and Toutanova, K. Bert: pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. Vol. 1. P. 4171–4186.
- The OpenNLP Project. Available at: http://opennlp. apache.org (дата обращения 20.02.2022).
- CRFsuite: a Fast Implementation of Conditional Random Fields (CRFs). Available at: http://www. chokkan.org/software/crfsuite/ (дата обращения 20.02.2022).
- Barnard, J. A comparison of different approaches to Markush structure handling. Journal of Chemical Information and Computer Sciences. 1991. Vol. 31. No. 1. P. 64–68.
- Heller, S., McNaught, A., Pletnev, I., Stein, S. and Tchekhovskoi, D. The IUPAC International Chemical Identifier. Journal of Cheminformatics. 2015. Vol. 7. P. 1–34.
- USPTO. Available at: https://www.uspto.gov/ patents (дата обращения 20.02.2022).
- Mikolov, T., Chen, K., Corrado, G. and Dean, J. Efficient Estimation of Word Representations in Vector Space. Proceedings of Workshop at ICLR. 2013. P. 1–12.
- Mikolov, T., Yih, W.-T. and Zweig, G. Linguistic regularities in continuous space word representations. Proceedings of NAACL-HLT. 2013. P. 746–751.
- Cortes, C. and Vapnik, V. Support-vector networks. Machine Learning. 1995. Vol. 20. No. 3. P. 273–297.
- Finkel, J., Grenager, T. and Manning, C. Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling. Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL 2005). 2005. P. 363–370.
- Mitchell, T. Machine Learning. Нью-Йорк: McGraw-Hill, 1997. 432 с.
Дополнительные файлы
