Semantic distances between microcosm concepts in physical and astronomical texts
- 作者: Mayer R.V.1
-
隶属关系:
- Korolenko Glazov State University of Engineering and Pedagogics
- 期: 卷 19, 编号 1 (2025)
- 页面: 24-29
- 栏目: PEDAGOGY
- URL: https://bakhtiniada.ru/2072-6783/article/view/290720
- DOI: https://doi.org/10.30914/2072-6783-2025-19-1-24-29
- ID: 290720
如何引用文章
全文:
详细
Introduction. The paper is devoted to the problem of studying the semantic space of texts on physics and astronomy using computer technology. The paper purpose is to: 1) determining the semantic distances between the key concepts of the microcosm in physical and astronomical educational texts; 2) constructing graphs visualizing the semantic spaces of these texts and comparing them. Materials and methods. The analysis used texts on physics and astronomy from school and university textbooks, as well as Wikipedia articles (total volume is 100 thousand words). Text processing and calculation of the cosine measure of concept proximity is carried out using computer programs written in ABCPascal and Excel spreadsheets; an online Internet resource is used to build graphs. Research results. Two files with texts on physics and astronomy are obtained, key concepts of microcosm physics are identified, and cosine proximity measures and semantic distances are determined for them. Graphs are constructed; their vertices correspond to concepts, and the edges characterize the semantic connections between them. As a result of their comparison, it was found that the semantic links between key concepts in physical and astronomical texts have fundamental differences. For each text, the average cosine proximity of some concept (for example, “atom”) with the key concepts “electron”, “proton”, “neutron”, “nucleus”, etc. can be calculated; it is one of the educational text characteristics. Conclusion. The proposed method allows to obtain objective estimates of the proximity degree of key concepts in educational texts, to study and compare semantic spaces.
全文:
Введение
Проблема изучения семантического пространства учебного текста (УТ) является актуальной [1; 2], так как определение семантической близости между ключевыми понятиями помогает упростить учебный материал, выявить важнейшие логические блоки, визуализировать связи между понятиями и теориями с помощью таблиц и рисунков, сделать материал более доступным для понимания, а также способствует развитию у обучаемых когнитивных навыков, таких как критическое мышление, анализ и синтез информации. Все это позволяет улучшить методику преподавания, так как помогает сгруппировать похожие идеи и теории, эффективнее использовать ассоциативную память, фокусировать внимание на ключевых понятиях, отсеивая второстепенные, создавать ментальные карты [3], облегчающие понимание и запоминание.
Установление степени семантической связанности понятий П1 и П2 – непростая задача [4], для решения которой используются следующие методы: 1) лексический анализ: анализируют определения П1 и П2, находят отношение числа общих слов к их суммарному количеству, – чем выше результат, тем сильнее связь; 2) структурный анализ: сравнивают структуры определений П1 и П2, если они схожи, то понятия близки; 3) семантический анализ: сравнивают графы онтологических баз знаний, учитывают типы и длины связей с другими понятиями; переходят к векторным представлениям определений, находят косинусную меру близости между ними; используют латентный семантический анализ для выявления скрытых связей в большом корпусе текстов.
Семантический анализ опирается на дистрибутивную гипотезу, согласно которой слова (термины), часто встречающиеся в одних и тех же фрагментах текста, связаны смысловыми связями. Например, если рядом с термином «протон» часто встречается слово «нейтрон», а термины «молекула» или «кристалл» – реже, понятия «протон» и «нейтрон» семантически ближе друг к другу. Чем сильнее семантическая связанность понятий, тем больше похожи их распределения в тексте, тем чаще эти понятия встречаются в одном абзаце.
Цель исследования состоит в: 1) определении семантических расстояний между ключевыми понятиями (концептами) микромира в физических и астрономических учебных текстах; 2) построении графов, визуализирующих семантические пространства этих текстов, и их сравнении.
Материалы и методы исследования
Для достижения поставленной цели были проанализированы тексты:
- по астрономии: 1) школьный учебник (А. В. Засов, В. Г. Сурдин Астрономия: 10‒11 кл., 2019), главы: 5. Солнце и звезды; 6. Строение и эволюция Вселенной; 2) школьный учебник (И. В. Галузо, В. А. Голубев, А. А. Шимбаев Астрономия: 11-го кл., 2009), главы: 6. Солнце – дневная звезда; 7. Звезды; 8. Строение и эволюция Вселенной; 3) учебник (Б. А. Воронцов-Вельяминов, Е. К. Страут Астрономия 11 кл., 2003), главы: 6. Солнце и звезды; 7. Галактики; 8. Эволюция Вселенной; 4) статья из Википедии (ru.wikipedia.org) «Звезда».
- по физике: 1) вузовский учебник (Т. И. Трофимова, 2001), параграфы 202–275 за исключением параграфов 206, 216–222, 229–250, 260; 2) вузовский учебник (С. И. Кузнецов, 2015; С. 114–264); 3) статьи из Википедии «атом», «молекула», «электрон», «протон», «нейтрон», «ион», «кварк».
Методологической основой исследования являются работы следующих ученых: С. В. Ракитина [1], А. В. Крюкова [2], С. С. Яковлева [3], C. D. Manning, P. Raghavan и H. Schütze [4], Т. В. Батура [5], С. А. Громцев [6], К. В. Крюков, Л. А. Панкова, В. А. Пронина, В. С. Суховеров и Л. Б. Шипилина [7], В. А. Яцко [8], Р. Солсо [9], Р. В. Майер [10]. Для обработки текста и вычисления косинусной меры близости понятий применяются компьютерные программы, написанные на языке ABCPascal, и электронные таблицы Excel.
Результаты исследования, их обсуждение
Перечисленные тексты используются в конце или после изучения школьного курса физики, когда у ученика (студента) уже сформированы первоначальные представления о микромире (то есть фоновые знания). Им соответствует семантическая сеть, представленная на рисунке 1, в которой реализуются связи трех типов: 1) связи, обозначающие предикаты «содержит» или «состоит» (молекула состоит из атомов, вещество состоит из частиц), изображенные стрелками с буквой «c»; 2) связи-определения («фотон – частица света» или «атом – мельчайшая частица химического элемента»), показанные стрелками с кружками; 3) связи, отвечающие предикату «характеризуется» (протон характеризуется зарядом 1,6 × 10-19 Кл и массой 1,67 × 10-27 кг), обозначенные стрелками с буквой «х». Эта сеть является упрощенной, в ней отсутствуют понятия «античастица», «антивещество», «позитрон» и не отражены факты типа: «атом может поглощать или излучать фотон» или «между нуклонами действуют ядерные силы» и т. д. В когнитивном пространстве успешного ученика представленные на рисунке 1 понятия тесно связаны друг с другом, расстояние между ними мало. При обучении новая информация «оседает» на фоновых знаниях, образуются новые узлы и связи.
Рис. 1. Упрощенная семантическая сеть фоновых знаний
Fig. 1. A simplified semantic network of background knowledge
Для изучения семантического пространства УТ по астрономии и физике перечисленные выше тексты были скопированы в два файла astro_obsh.txt и fizika_obsh.txt. После удаления знаков препинания, стоп-слов, двойных и тройных пробелов и всех слов длиной 1 или 2 буквы получились файлы объемом 49911 и 60061 слов. Далее использовался следующий метод:
- Выбирают понятия (концепты), расстояние между которыми требуется найти: Вселенная, поле (гравитационное, электромагнитное и т. д.), вещество, частица, плазма, молекула, атом, ион, фотон, электрон, протон, нейтрон, нуклон, кварк, ядерные силы, энергия связи, ядро, термоядерная реакция.
- УТ разбивают на N перекрывающихся контекстных окон по d = 20 слов со смещением s = 5. Компьютерная программа для каждого термина находит номер слова от начала текста (то есть координату x) и определяет контекстный вектор – одномерную матрицу , элементы которой равны количеству вхождений термина в k-ое окно (k = 1, 2, ..., N) [7; 8].
- Степень смысловой связанности K (A, B) понятий А и В вычисляется как косинус угла между векторами и N-мерного пространства [4; 5]. Результаты сохраняются в файле vihod.txt в виде столбцов чисел, которые позже переносятся документ Excel.
- С помощью Excel находят семантическое расстояние между понятиями: L (A, B) = 1 / K (A, B) – 1. Когда связь отсутствует, K (A, B) = 0, оно бесконечно велико; при K (A, B) = 1 расстояние L (A, B) = 0. Получают матрицу расстояний.
- С помощью онлайн-ресурса или вручную рисуют граф, визуализирующий семантические связи между понятиями. Для этого находят центральное понятие, с которым тесно связаны все остальные. Короткие ребра считаются жесткими, а длинные – эластичными и изображаются кривыми линиями.
В таблице представлены результаты вычисления косинусной меры близости (слева, под диагональю) и семантических расстояний (справа, над диагональю) между некоторыми понятиями в анализируемых текстах по физике. Аналогичная матрица близости и расстояний получена для текстов по астрономии. На рисунках 2 и 3 изображены графы, визуализирующие проекции многомерных семантических пространств этих текстов на некоторую плоскость. Они похожи на ментальные карты [3]. Для них не выполняются теоремы евклидовой геометрии, одна сторона треугольника может превышать сумму двух других сторон.
Таблица. K (A, B) и L (A, B) между понятиями в физических УТ
Table. K (A, B) and L (A, B) between concepts in physical UTs
Понятие | N | вещ-во | частица | молекула | атом | ион | фотон | электрон | протон | нейтрон | нуклон | кварк | ядро |
вещество | 160 | 1 | 6,85 | 7,21 | 13,04 | 14,48 | 26,69 | 16,36 | 48,48 | 13,75 | 40,48 | — | 30,84 |
частица | 1064 | 0,127 | 1 | 24,90 | 10,26 | 7,45 | 9,55 | 7,61 | 7,16 | 7,14 | 20,88 | 13,00 | 8,37 |
молекула | 211 | 0,122 | 0,039 | 1 | 5,81 | 15,31 | 472,93 | 13,81 | 50,26 | 49,74 | 70,38 | — | 78,30 |
атом | 912 | 0,071 | 0,089 | 0,147 | 1 | 5,24 | 25,31 | 2,00 | 7,55 | 12,33 | 30,84 | 292,26 | 4,86 |
ион | 553 | 0,065 | 0,118 | 0,061 | 0,160 | 1 | 18,96 | 6,36 | 21,93 | 37,15 | 15,28 | 7,08 | 31,99 |
фотон | 248 | 0,036 | 0,095 | 0,002 | 0,038 | 0,050 | 1 | 7,44 | 87,42 | 96,94 | 117,91 | 331,23 | 119,34 |
электрон | 1246 | 0,058 | 0,116 | 0,068 | 0,334 | 0,136 | 0,119 | 1 | 8,24 | 13,43 | 79,58 | 368,00 | 5,07 |
протон | 340 | 0,020 | 0,123 | 0,020 | 0,117 | 0,044 | 0,011 | 0,108 | 1 | 1,14 | 7,33 | 10,40 | 3,04 |
нейтрон | 342 | 0,068 | 0,123 | 0,020 | 0,075 | 0,026 | 0,010 | 0,069 | 0,467 | 1 | 9,99 | 17,90 | 3,25 |
нуклон | 103 | 0,024 | 0,046 | 0,014 | 0,031 | 0,061 | 0,008 | 0,012 | 0,120 | 0,091 | 1 | 276,01 | 1,77 |
кварк | 435 | 0,000 | 0,071 | 0,000 | 0,003 | 0,124 | 0,003 | 0,003 | 0,088 | 0,053 | 0,004 | 1 | 1959,78 |
ядро | 480 | 0,031 | 0,107 | 0,013 | 0,171 | 0,030 | 0,008 | 0,165 | 0,247 | 0,235 | 0,361 | 0,001 | 1 |
Рис. 2. Семантическое пространство физических текстов
Fig. 2. The semantic space of physical texts
Рис. 3. Семантическое пространство астрономических текстов
Fig. 3. Semantic space of astronomical texts
Полученные матрицы близости и графы отражают семантические связи между понятиями в анализируемых текстах. Видно, что семантические расстояния отличаются в десятки и сотни раз. Круги большого радиуса соответствуют часто используемым терминам. Сила связи с редко используемыми понятиями определяется с погрешностью, такие связи изображены пунктиром.
Сравнивая полученные результаты, можно обнаружить, что в физических текстах к часто используемым терминам относятся: «электрон» (доля употребления среди других терминов 0,19), «частица» (0,17), «атом» (0,14), а в астрономических: «ион» (0,22), «Вселенная» (0,16), «вещество» (0,15). УТ можно охарактеризовать средним коэффициентом связи некоторого понятия П к выбранным понятиям-маркерам (например, электрон, протон, нейтрон, ядро):
.
Для физических УТ K'ср (Вселенная) = 0,00253, K'ср (атом) = 0,174075, а для астрономических K'ср (Вселенная) = 0,017, K'ср (атом) = 0,095.
Ключевые понятия микромира в физических текстах группируются вокруг терминов: «ядро» (средний коэффициент связи с другими понятиями 0,1), «протон» (0,09), «атом» (0,08), «электрон» (0,08), «нейтрон» (0,08), «нуклон» (0,08), а в астрономических текстах – вокруг терминов: «протон» (0,07), «атом» (0,07), «электрон» (0,07), «частица» (0,06), «ион» (0,05), «вещество» (0,05).
В физических текстах «Вселенная» упоминается редко, L (Вселенная, вещество) = 27, L (Вселенная, частица) = 39, L (Вселенная, ион) = 53, L (Вселенная, электрон) = 98, L (Вселенная, атом) = 134, понятие «Вселенная» встречается nФ (Вселенная) = 22 раза. В астрономических текстах обсуждается возникновение и эволюция Вселенной, образование элементарных частиц и т. д., поэтому L (Вселенная, вещество) = 5,8, L (Вселенная, ион) = 11, L (Вселенная, атом) = 30, L (Вселенная, нейтрон) = 50, L (Вселенная, молекула) = 92, nА (Вс) = 224.
На рисунке 4 представлены графы, показывающие связи понятия «поле» (гравитационное, электромагнитное и т. д.) c другими близко расположенными к нему понятиями в физических и астрономических УТ. Видно, что множества ближайших понятий и семантические расстояния до них сильно отличаются, что объясняется особенностями учебного материала. В физических текстах концепт «поле» связано с понятием «электрон» и «плазма», а в астрономических – сильно связано с понятиями «ион», «плазма», «частица». Последнее можно записать так: поле (ион – 8; плазма – 8; частица – 10). Числа показывают расстояния L до понятия «поле». Другой пример, в физических УТ – атом (электрон – 2; ядро – 4,9; ион – 5,2; протон – 7,6), а в астрономических УТ – атом (молекула – 3,2; электрон – 4,7; частица – 4,9; вещество – 9,9; ион – 9,9).
Рис. 4. Связи с понятиями, которые близки к концепту «поле»
Fig. 4. Links to concepts that are close to the concept “field”
Заключение
В статье рассмотрена проблема изучения семантического пространства текстов по физике и астрономии с помощью компьютерных технологий. В результате анализа школьных и вузовских учебников по физике и астрономии, а также статей Википедии определены семантические расстояния между ключевыми концептами микромира. Построены графы, характеризующие смысловые связи между ними, осуществлено их сравнение. Показано, что семантические связи между ключевыми понятиями в физических и астрономических текстах имеют принципиальные различия. Для каждого текста может быть вычислена средняя косинусная близость, допустим, понятия «атом» к ключевым понятиям «электрон», «протон», «нейтрон», «ядро» и т. д., которая может рассматриваться как одна из характеристик УТ. Предлагаемый подход открывает новые возможности изучения учебных текстов.
作者简介
Robert Mayer
Korolenko Glazov State University of Engineering and Pedagogics
编辑信件的主要联系方式.
Email: robert_maier@mail.ru
ORCID iD: 0000-0001-8166-9299
Dr. Sci. (Pedagogy), Associate Professor, Professor of the Department of Physics and Didactics of Physics
俄罗斯联邦, 25, Pervomayskaya St., Glazov, 427621参考
- Rakitina S. V. Kontseptosfera i semanticheskoe prostranstvo nauchnogo teksta [Conceptosphere and semantic space of a scientific text]. Al'manakh sovremennoi nauki i obrazo-vaniya = Almanac of modern science and education, 2009, no. 8‒1, pp. 125‒126. Available at: https://elibrary.ru/owdptl (accessed 30.08.2024). (In Russ.).
- Kryukova A. V. Opredelenie semanticheskoi blizosti tekstov s ispol'zovaniem instrumenta DKPro Similarity [Computing semantic similarity of Russian texts by means of DKPro Similarity tool]. Komp'yuternaya lingvistika i vychislitel'nye ontologii = Computational linguistics and computational ontologies, 2017, no. 1, pp. 87‒97. Available at: https://www.elibrary.ru/ ywioyk (accessed 30.08.2024). (In Russ.).
- Yakovleva S. S. Ispol'zovanie mental'nykh kart v obuchenii studentov vuza [The use of mental maps in teaching students of the university]. Nauchnoe obozrenie. Pedagogicheskie nauki = Scientific Review, 2019, no. 4‒1, pp. 134‒137. Available at: https://www.elibrary.ru/nedxcl (accessed 30.08.2024). (In Russ.).
- Manning C. D., Raghavan P., Schütze H. An Introduction to Information Retrieval. Cambridge University Press, 2008, 569 p. (In Eng.).
- Batura T. V. Semanticheskii analiz i sposoby predstavleniya smysla teksta v komp'yuternoi lingvistike [Semantic analysis and ways of representing the meaning of text in computational linguistics]. Programmnye produkty i sistemy = Software and systems, 2016, no. 4, pp. 45‒57. Available at: https://www.elibrary.ru/xvigav (accessed 30.08.2024). (In Russ.).
- Gromtsev S. A. Ispol'zovanie semanticheskogo konstruktora dlya formirovaniya uchebnykh zadanii [Use of semantic constructor for the formation of training tasks]. Informatika i obrazovanie = Informatics and Education, 2017, no. 7 (286), pp. 45‒47. Available at: https://www.elibrary.ru/mgmsap (accessed 30.08.2024). (In Russ.).
- Kryukov K. V., Pankova L. A., Pronina V. A., Sukhoverov V. S., Shipilina L. B. Mery semanticheskoj blizosti v ontologii [Measures of semantic proximity in ontology]. Problemy upravleniya = Control sciences, 2010, no. 5, pp. 2‒14. Available at: https://www.elibrary.ru/muvnsp (accessed 30.08.2024). (In Russ.).
- Yatsko V. A. Effektivnost' primeneniya kosinusnoi metriki dlya opredeleniya smyslovoi blizosti dokumentov [Efficiency of the use of cosine measure to determine the degree of document similarity]. Grani poznaniya = Facets of cognition, 2020, no. 4 (69), pp. 3‒6. Available at: https://www.elibrary.ru/ftiasg (accessed 30.08.2024). (In Russ.).
