Application Areas of Corpus Managers in the Russian and Foreign Scientific Space

Capa

Citar

Texto integral

Resumo

The article is devoted to the review of the areas of application of corpus managers in Russian and foreign scientific publications over the past 10 years. It has been established that corpus managers and artificial intelligence-based software are used to analyze changes occurring in a language over time (desemantization, disambiguation, transterminologization), case studies of specific types of texts, compilation of terminological dictionaries and databases, and teaching a foreign language.

Sobre autores

Svetlana Romanova

Moscow State Linguistic University

Autor responsável pela correspondência
Email: s.a.romanova@linguanet.ru

Specialist of the Department of Scientific Management and Scientometrics

Rússia

Bibliografia

  1. Gorozhanov, A. I., Guseynova, I. A. (2020). Korpusanalyse der Konstituenten Grammatischer Kategorien im Literarischen Text mit Berücksichtigung der Linguoregionalen Komponente. J. Sib. Fed. Univ. Humanit. Soc. Sci., 13(12), 2035–2048. doi: 10.17516/1997-1370-0702.
  2. Paliychuk, D. A. (2022). Corpus technologies in linguistic research. Humanitarian Research. History and Philology, 6, 72–79. 10.24412/2713-0231-2022-6-72-79. (In Russ.)
  3. Gorozhanov, A. I., Guseinova, I. A., Stepanova, D. V. (2022). Standardized procedure for obtaining statistical parameters of a text (on the material of the stories by J. London “Smoke Bellew. Smoke and Shorty”). Minsk State Linguistic University Bulletin. Series 1. Philology, 4(119), 7–13. (In Russ.)
  4. Titova, S. V., Ignatova, S. D. (2024). Technology of using multimodal linguistic buildings for the development of foreign language interaction skills. Bulletin of Tambov University. Series: Humanities, 29(6), 1539–1549. doi: 10.20310/1810-0201-2024-29-6-1539-1549. (In Russ.)
  5. Baranov, V. A. (2023). Cyril-Methodian and Eastern Bulgarian Words in the Manuscripts of the 10th-15th Centuries (Text Corpus Study). Science Journal of Volgograd State University. Linguistics, 22(6), 5–20. doi: 10.15688/jvolsu2.2023.6.1. (In Russ.)
  6. Klochikhin, V. V. (2024). Corpus technologies of artificial intelligence in teaching word compatibility and research work. Foreign Languages at School, 3, 39–46. (In Russ.)
  7. Belyaeva, T. R. (2021). Attributive noun in the plural in multicomponent syntagmas of English scientific speech. Scientific Notes of the National Society of Applied Linguistics, 1(33), 57–72. (In Russ.)
  8. Belyaeva, T. R. (2022). A corpus approach to the study of the general scientific vocabulary of the English language: An adjective. Kazan Science, 3, 91–97. (In Russ.)
  9. Shpit, E. I., Kurovsky, V. N. (2022). English-language scientific writing: The difficulties of novice Russian-speaking authors. Bulletin of the Krasnoyarsk State Pedagogical University Named After V. P. Astafiev, 3(61), 193–219. doi: 10.25146/1995-0861-2022-61-3-363. (In Russ.)
  10. Bespalova, Y. E., Tastemirova, Z. K., Volkova, M. V. (2024). Corpus analysis of paraphrasing in scientific discourse: Patterns, strategies, and consequences for improving writing and communication in academic texts. Humanitarian Studies, 1(89), 23–29. (In Russ.)
  11. Uchida, S. (2024). Using early LLMs for corpus linguistics: Examining ChatGPT’s potential and limitations. Applied Corpus Linguistics, 4(1), 100089. doi: 10.1016/j.acorp.2024.100089.
  12. Gorozhanov, A. I. (2024). Architecture of a balanced linguistic corpus built automatically (experience of Moscow State Linguistic University). Vestnik of Moscow State Linguistic University. Humanities, 11(892), 24–30. EDN BCSCXQ. (In Russ.)
  13. Gorozhanov, A. I., Krasikova, E. A. (2024). Obtaining meaningful data from an unprepared text by automatically processing it with author’s linguistic tools (based on the material of electronic Chinese media). Questions of Applied Linguistics, 54, 115–138. doi: 10.25076/vpl.54.05. (In Russ.)
  14. Gorozhanov, A. I., Guseynova, I. A. (2024). Application of elements of controlled artificial intelligence technology to complete an online foreign language course. Language in the era of digital transformations and the development of artificial intelligence (pp. 26–32): Proceedings of the International scientific conference. Minsk. (In Russ.)
  15. Gorozhanov, A. I., Stepanova, D. V. (2024). Lingvodidactic potential of a balanced corpus of texts (based on the English language).Current issues of linguistics and linguodidactics of foreign language for business and professional communication (pp. 343–345): Proceedings of theXI International scientific and practical conference. Moscow. (In Russ.)
  16. Vasilyeva, T. V., Salimov, F. N. (2023). Prerequisites for creating a digital translated thesaurus-type terminological dictionary for foreign users of engineering universities. Russian Language Abroad, 1(296), 38–45. doi: 10.37632/PI.2023.296.1.006. (In Russ.)
  17. Shmeleva, O. N. (2021). A brief overview of translated dictionaries of fire vocabulary (based on the material of German and Russian languages). Culture and Safety, 4, 64–70. doi: 10.25257/KB.2021.4.64-70. (In Russ.)
  18. Musayeva, A. S., Skladenikina, Yu. V. (2024). Cognitive processing of a term in the process of transterminologization (using the example of artificial intelligence terms). Bulletin of Cherepovets State University, 6(123), 103–113. doi: 10.23859/1994-0637-2024-6-123-9.(In Russ.)
  19. Gadzhiev, A. A., Khmelev, A. K. (2019). The Leska algorithm and the Babelfy system for disambiguation. Questions of Applied Linguistics, 4(36), 54–77. doi: 10.25076/vpl.36.03. (In Russ.)
  20. Zaripova, D. A., Lukashevich, N. V. (2023). Approaches to automatic resolution of ambiguity based on the uneven distribution of word meanings in the corpus. Bulletin of the Moscow University. Episode 9: Philology, 6, 40–51. doi: 10.55959/MSU0130-0075-9-2023-47-06-4. (In Russ.)
  21. Bolshina, A. S. (2022). Methods of automatic formation of semantically marked buildings. Moscow University Bulletin. Series 9: Philology, 2, 173–183. (In Russ.)
  22. Awotunde, J. B. (2025). Word sense disambiguation in biomedical applications. In Dash, S., Pani, S. K., Dos Santos, W. P., Chen, J. Y. (Eds.), Mining Biomedical Text, Images and Visual Features for Information Retrieval (pp. 587–605). Academic Press. doi: 10.1016/B978-0-443-15452-2.00028-5.
  23. Kovrizhkin, A. A. (2022). Semanticheskie problemy mashinnogo perevoda = Semantic problems of machine translation. In The Role and Place of Linguistic and Cultural Adaptation of Literary Text in the Theory and Practice of Translation. Translation Strategies and Tactics (pp. 295–302): Proceedings of the All-Russian Scientific and Practical Conference with International Participation, Moscow, December 23, 2021. Moscow: Moscow State Regional University. (In Russ.)
  24. Alexeyevsky, D. A., Temchenko, A. V. (2016). WSD in monolingual dictionaries for Russian WordNet. In Proceedings of the 8th Global WordNet Conference (pp. 10–15), GWC 2016, Bucharest, January 27–30. Bucharest.
  25. Säily, T. et al. (2024). Changing styles of letter-writing? Evidence from 400 years of early English letters in a POS-tagged corpus. In Caon, L., Gordon, M. S., Porck, T. (Eds.), Unlocking the History of English: Pragmatics, Prescriptivism and Text Types (pp. 154–179). Amsterdam: John Benjamins Publishing Company. doi: 10.1075/cilt.364.07sai.
  26. Sadia, B., Adeeba, F., Shams, S., Javed, K. (2024). Meeting the challenge: A benchmark corpus for automated Urdu meeting summarization. Information Processing & Management, 61(4), 103734. doi: 10.1016/j.ipm.2024.103734.
  27. Hassanein, H. S. A., Moustafa, B. S. M. (2024). Sequential order of antonym pairs in Modern Standard Arabic: A corpus-based analysis. Lingua, 306, 103742. doi: 10.1016/j.lingua.2024.103742.
  28. Sene-Mongaba, B. (2015). The making of Lingala corpus: An under-resourced language and the Internet. Procedia – Social and Behavioral Sciences, 198, 442–450. doi: 10.1016/j.sbspro.2015.07.464.
  29. Aurora, F. (2015). DĀMOS (Database of Mycenaean at Oslo). Annotating a fragmentarily attested language. Procedia – Social and Behavioral Sciences, 198, 21–31. doi: 10.1016/j.sbspro.2015.07.415.
  30. Curry, N., Baker, P., Brookes, G. (2024). Generative AI for corpus approaches to discourse studies: A critical evaluation of ChatGPT. Applied Corpus Linguistics, 4(1), 100082. doi: 10.1016/j.acorp.2023.100082.
  31. Crosthwaite, P., Baisa, V. (2023). Generative AI and the end of corpus-assisted data-driven learning? Not so fast! Applied Corpus Linguistics, 3(3), 100066. doi: 10.1016/j.acorp.2023.100066.

Arquivos suplementares

Arquivos suplementares
Ação
1. JATS XML


Creative Commons License
Este artigo é disponível sob a Licença Creative Commons Atribuição 4.0 Internacional.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».