Семантические расстояния между понятиями микромира в физических и астрономических текстах
- Авторы: Майер Р.В.1
-
Учреждения:
- Глазовский инженерно-педагогический университет им. В. Г. Короленко
- Выпуск: Том 19, № 1 (2025)
- Страницы: 24-29
- Раздел: ПЕДАГОГИЧЕСКИЕ НАУКИ
- URL: https://bakhtiniada.ru/2072-6783/article/view/290720
- DOI: https://doi.org/10.30914/2072-6783-2025-19-1-24-29
- ID: 290720
Цитировать
Полный текст
Аннотация
Введение. Статья посвящена проблеме изучения семантического пространства текстов по физике и астрономии с помощью компьютерных технологий. Цель статьи заключается в: 1) определении семантических расстояний между ключевыми понятиями микромира в физических и астрономических учебных текстах; 2) построении графов, визуализирующих семантические пространства этих текстов, и их сравнении. Материалы и методы. Для анализа использовались тексты по физике и астрономии из школьных и вузовских учебников, а также статьи Википедии (всего более 100 тысяч слов). Обработка текста и вычисление косинусной меры близости понятий осуществлялись с помощью компьютерных программ, написанных в ABCPascal и электронных таблиц Excel; для построения графов использовался онлайн-ресурс Интернета. Результаты исследования. Получены два файла с текстами по физике и астрономии, выявлены ключевые понятия физики микромира, и для них определены косинусные меры близости и семантические расстояния. Построены графы, вершины которых соответствуют понятиям, а ребра характеризуют смысловые связи между ними. В результате их сравнения обнаружено, что семантические связи между ключевыми понятиями в физических и астрономических текстах имеют принципиальные различия. Для каждого текста может быть вычислена средняя косинусная близость некоторого понятия (например, «атом») c ключевыми понятиями «электрон», «протон», «нейтрон», «ядро» и т. д.; она является одной из характеристик учебного текста. Заключение. Предложенный метод позволяет получить объективные оценки степени близости ключевых понятий в учебных текстах, изучить и сравнить семантические пространства.
Ключевые слова
Полный текст
Введение
Проблема изучения семантического пространства учебного текста (УТ) является актуальной [1; 2], так как определение семантической близости между ключевыми понятиями помогает упростить учебный материал, выявить важнейшие логические блоки, визуализировать связи между понятиями и теориями с помощью таблиц и рисунков, сделать материал более доступным для понимания, а также способствует развитию у обучаемых когнитивных навыков, таких как критическое мышление, анализ и синтез информации. Все это позволяет улучшить методику преподавания, так как помогает сгруппировать похожие идеи и теории, эффективнее использовать ассоциативную память, фокусировать внимание на ключевых понятиях, отсеивая второстепенные, создавать ментальные карты [3], облегчающие понимание и запоминание.
Установление степени семантической связанности понятий П1 и П2 – непростая задача [4], для решения которой используются следующие методы: 1) лексический анализ: анализируют определения П1 и П2, находят отношение числа общих слов к их суммарному количеству, – чем выше результат, тем сильнее связь; 2) структурный анализ: сравнивают структуры определений П1 и П2, если они схожи, то понятия близки; 3) семантический анализ: сравнивают графы онтологических баз знаний, учитывают типы и длины связей с другими понятиями; переходят к векторным представлениям определений, находят косинусную меру близости между ними; используют латентный семантический анализ для выявления скрытых связей в большом корпусе текстов.
Семантический анализ опирается на дистрибутивную гипотезу, согласно которой слова (термины), часто встречающиеся в одних и тех же фрагментах текста, связаны смысловыми связями. Например, если рядом с термином «протон» часто встречается слово «нейтрон», а термины «молекула» или «кристалл» – реже, понятия «протон» и «нейтрон» семантически ближе друг к другу. Чем сильнее семантическая связанность понятий, тем больше похожи их распределения в тексте, тем чаще эти понятия встречаются в одном абзаце.
Цель исследования состоит в: 1) определении семантических расстояний между ключевыми понятиями (концептами) микромира в физических и астрономических учебных текстах; 2) построении графов, визуализирующих семантические пространства этих текстов, и их сравнении.
Материалы и методы исследования
Для достижения поставленной цели были проанализированы тексты:
- по астрономии: 1) школьный учебник (А. В. Засов, В. Г. Сурдин Астрономия: 10‒11 кл., 2019), главы: 5. Солнце и звезды; 6. Строение и эволюция Вселенной; 2) школьный учебник (И. В. Галузо, В. А. Голубев, А. А. Шимбаев Астрономия: 11-го кл., 2009), главы: 6. Солнце – дневная звезда; 7. Звезды; 8. Строение и эволюция Вселенной; 3) учебник (Б. А. Воронцов-Вельяминов, Е. К. Страут Астрономия 11 кл., 2003), главы: 6. Солнце и звезды; 7. Галактики; 8. Эволюция Вселенной; 4) статья из Википедии (ru.wikipedia.org) «Звезда».
- по физике: 1) вузовский учебник (Т. И. Трофимова, 2001), параграфы 202–275 за исключением параграфов 206, 216–222, 229–250, 260; 2) вузовский учебник (С. И. Кузнецов, 2015; С. 114–264); 3) статьи из Википедии «атом», «молекула», «электрон», «протон», «нейтрон», «ион», «кварк».
Методологической основой исследования являются работы следующих ученых: С. В. Ракитина [1], А. В. Крюкова [2], С. С. Яковлева [3], C. D. Manning, P. Raghavan и H. Schütze [4], Т. В. Батура [5], С. А. Громцев [6], К. В. Крюков, Л. А. Панкова, В. А. Пронина, В. С. Суховеров и Л. Б. Шипилина [7], В. А. Яцко [8], Р. Солсо [9], Р. В. Майер [10]. Для обработки текста и вычисления косинусной меры близости понятий применяются компьютерные программы, написанные на языке ABCPascal, и электронные таблицы Excel.
Результаты исследования, их обсуждение
Перечисленные тексты используются в конце или после изучения школьного курса физики, когда у ученика (студента) уже сформированы первоначальные представления о микромире (то есть фоновые знания). Им соответствует семантическая сеть, представленная на рисунке 1, в которой реализуются связи трех типов: 1) связи, обозначающие предикаты «содержит» или «состоит» (молекула состоит из атомов, вещество состоит из частиц), изображенные стрелками с буквой «c»; 2) связи-определения («фотон – частица света» или «атом – мельчайшая частица химического элемента»), показанные стрелками с кружками; 3) связи, отвечающие предикату «характеризуется» (протон характеризуется зарядом 1,6 × 10-19 Кл и массой 1,67 × 10-27 кг), обозначенные стрелками с буквой «х». Эта сеть является упрощенной, в ней отсутствуют понятия «античастица», «антивещество», «позитрон» и не отражены факты типа: «атом может поглощать или излучать фотон» или «между нуклонами действуют ядерные силы» и т. д. В когнитивном пространстве успешного ученика представленные на рисунке 1 понятия тесно связаны друг с другом, расстояние между ними мало. При обучении новая информация «оседает» на фоновых знаниях, образуются новые узлы и связи.
Рис. 1. Упрощенная семантическая сеть фоновых знаний
Fig. 1. A simplified semantic network of background knowledge
Для изучения семантического пространства УТ по астрономии и физике перечисленные выше тексты были скопированы в два файла astro_obsh.txt и fizika_obsh.txt. После удаления знаков препинания, стоп-слов, двойных и тройных пробелов и всех слов длиной 1 или 2 буквы получились файлы объемом 49911 и 60061 слов. Далее использовался следующий метод:
- Выбирают понятия (концепты), расстояние между которыми требуется найти: Вселенная, поле (гравитационное, электромагнитное и т. д.), вещество, частица, плазма, молекула, атом, ион, фотон, электрон, протон, нейтрон, нуклон, кварк, ядерные силы, энергия связи, ядро, термоядерная реакция.
- УТ разбивают на N перекрывающихся контекстных окон по d = 20 слов со смещением s = 5. Компьютерная программа для каждого термина находит номер слова от начала текста (то есть координату x) и определяет контекстный вектор – одномерную матрицу , элементы которой равны количеству вхождений термина в k-ое окно (k = 1, 2, ..., N) [7; 8].
- Степень смысловой связанности K (A, B) понятий А и В вычисляется как косинус угла между векторами и N-мерного пространства [4; 5]. Результаты сохраняются в файле vihod.txt в виде столбцов чисел, которые позже переносятся документ Excel.
- С помощью Excel находят семантическое расстояние между понятиями: L (A, B) = 1 / K (A, B) – 1. Когда связь отсутствует, K (A, B) = 0, оно бесконечно велико; при K (A, B) = 1 расстояние L (A, B) = 0. Получают матрицу расстояний.
- С помощью онлайн-ресурса или вручную рисуют граф, визуализирующий семантические связи между понятиями. Для этого находят центральное понятие, с которым тесно связаны все остальные. Короткие ребра считаются жесткими, а длинные – эластичными и изображаются кривыми линиями.
В таблице представлены результаты вычисления косинусной меры близости (слева, под диагональю) и семантических расстояний (справа, над диагональю) между некоторыми понятиями в анализируемых текстах по физике. Аналогичная матрица близости и расстояний получена для текстов по астрономии. На рисунках 2 и 3 изображены графы, визуализирующие проекции многомерных семантических пространств этих текстов на некоторую плоскость. Они похожи на ментальные карты [3]. Для них не выполняются теоремы евклидовой геометрии, одна сторона треугольника может превышать сумму двух других сторон.
Таблица. K (A, B) и L (A, B) между понятиями в физических УТ
Table. K (A, B) and L (A, B) between concepts in physical UTs
Понятие | N | вещ-во | частица | молекула | атом | ион | фотон | электрон | протон | нейтрон | нуклон | кварк | ядро |
вещество | 160 | 1 | 6,85 | 7,21 | 13,04 | 14,48 | 26,69 | 16,36 | 48,48 | 13,75 | 40,48 | — | 30,84 |
частица | 1064 | 0,127 | 1 | 24,90 | 10,26 | 7,45 | 9,55 | 7,61 | 7,16 | 7,14 | 20,88 | 13,00 | 8,37 |
молекула | 211 | 0,122 | 0,039 | 1 | 5,81 | 15,31 | 472,93 | 13,81 | 50,26 | 49,74 | 70,38 | — | 78,30 |
атом | 912 | 0,071 | 0,089 | 0,147 | 1 | 5,24 | 25,31 | 2,00 | 7,55 | 12,33 | 30,84 | 292,26 | 4,86 |
ион | 553 | 0,065 | 0,118 | 0,061 | 0,160 | 1 | 18,96 | 6,36 | 21,93 | 37,15 | 15,28 | 7,08 | 31,99 |
фотон | 248 | 0,036 | 0,095 | 0,002 | 0,038 | 0,050 | 1 | 7,44 | 87,42 | 96,94 | 117,91 | 331,23 | 119,34 |
электрон | 1246 | 0,058 | 0,116 | 0,068 | 0,334 | 0,136 | 0,119 | 1 | 8,24 | 13,43 | 79,58 | 368,00 | 5,07 |
протон | 340 | 0,020 | 0,123 | 0,020 | 0,117 | 0,044 | 0,011 | 0,108 | 1 | 1,14 | 7,33 | 10,40 | 3,04 |
нейтрон | 342 | 0,068 | 0,123 | 0,020 | 0,075 | 0,026 | 0,010 | 0,069 | 0,467 | 1 | 9,99 | 17,90 | 3,25 |
нуклон | 103 | 0,024 | 0,046 | 0,014 | 0,031 | 0,061 | 0,008 | 0,012 | 0,120 | 0,091 | 1 | 276,01 | 1,77 |
кварк | 435 | 0,000 | 0,071 | 0,000 | 0,003 | 0,124 | 0,003 | 0,003 | 0,088 | 0,053 | 0,004 | 1 | 1959,78 |
ядро | 480 | 0,031 | 0,107 | 0,013 | 0,171 | 0,030 | 0,008 | 0,165 | 0,247 | 0,235 | 0,361 | 0,001 | 1 |
Рис. 2. Семантическое пространство физических текстов
Fig. 2. The semantic space of physical texts
Рис. 3. Семантическое пространство астрономических текстов
Fig. 3. Semantic space of astronomical texts
Полученные матрицы близости и графы отражают семантические связи между понятиями в анализируемых текстах. Видно, что семантические расстояния отличаются в десятки и сотни раз. Круги большого радиуса соответствуют часто используемым терминам. Сила связи с редко используемыми понятиями определяется с погрешностью, такие связи изображены пунктиром.
Сравнивая полученные результаты, можно обнаружить, что в физических текстах к часто используемым терминам относятся: «электрон» (доля употребления среди других терминов 0,19), «частица» (0,17), «атом» (0,14), а в астрономических: «ион» (0,22), «Вселенная» (0,16), «вещество» (0,15). УТ можно охарактеризовать средним коэффициентом связи некоторого понятия П к выбранным понятиям-маркерам (например, электрон, протон, нейтрон, ядро):
.
Для физических УТ K'ср (Вселенная) = 0,00253, K'ср (атом) = 0,174075, а для астрономических K'ср (Вселенная) = 0,017, K'ср (атом) = 0,095.
Ключевые понятия микромира в физических текстах группируются вокруг терминов: «ядро» (средний коэффициент связи с другими понятиями 0,1), «протон» (0,09), «атом» (0,08), «электрон» (0,08), «нейтрон» (0,08), «нуклон» (0,08), а в астрономических текстах – вокруг терминов: «протон» (0,07), «атом» (0,07), «электрон» (0,07), «частица» (0,06), «ион» (0,05), «вещество» (0,05).
В физических текстах «Вселенная» упоминается редко, L (Вселенная, вещество) = 27, L (Вселенная, частица) = 39, L (Вселенная, ион) = 53, L (Вселенная, электрон) = 98, L (Вселенная, атом) = 134, понятие «Вселенная» встречается nФ (Вселенная) = 22 раза. В астрономических текстах обсуждается возникновение и эволюция Вселенной, образование элементарных частиц и т. д., поэтому L (Вселенная, вещество) = 5,8, L (Вселенная, ион) = 11, L (Вселенная, атом) = 30, L (Вселенная, нейтрон) = 50, L (Вселенная, молекула) = 92, nА (Вс) = 224.
На рисунке 4 представлены графы, показывающие связи понятия «поле» (гравитационное, электромагнитное и т. д.) c другими близко расположенными к нему понятиями в физических и астрономических УТ. Видно, что множества ближайших понятий и семантические расстояния до них сильно отличаются, что объясняется особенностями учебного материала. В физических текстах концепт «поле» связано с понятием «электрон» и «плазма», а в астрономических – сильно связано с понятиями «ион», «плазма», «частица». Последнее можно записать так: поле (ион – 8; плазма – 8; частица – 10). Числа показывают расстояния L до понятия «поле». Другой пример, в физических УТ – атом (электрон – 2; ядро – 4,9; ион – 5,2; протон – 7,6), а в астрономических УТ – атом (молекула – 3,2; электрон – 4,7; частица – 4,9; вещество – 9,9; ион – 9,9).
Рис. 4. Связи с понятиями, которые близки к концепту «поле»
Fig. 4. Links to concepts that are close to the concept “field”
Заключение
В статье рассмотрена проблема изучения семантического пространства текстов по физике и астрономии с помощью компьютерных технологий. В результате анализа школьных и вузовских учебников по физике и астрономии, а также статей Википедии определены семантические расстояния между ключевыми концептами микромира. Построены графы, характеризующие смысловые связи между ними, осуществлено их сравнение. Показано, что семантические связи между ключевыми понятиями в физических и астрономических текстах имеют принципиальные различия. Для каждого текста может быть вычислена средняя косинусная близость, допустим, понятия «атом» к ключевым понятиям «электрон», «протон», «нейтрон», «ядро» и т. д., которая может рассматриваться как одна из характеристик УТ. Предлагаемый подход открывает новые возможности изучения учебных текстов.
Об авторах
Роберт Валерьевич Майер
Глазовский инженерно-педагогический университет им. В. Г. Короленко
Автор, ответственный за переписку.
Email: robert_maier@mail.ru
ORCID iD: 0000-0001-8166-9299
доктор педагогических наук, доцент, профессор кафедры физики и дидактики физики
Россия, ул. Первомайская, 25, Глазов, 427621Список литературы
- Ракитина С. В. Концептосфера и семантическое пространство научного текста // Альманах современной науки и образования. 2009. № 8‒1. С. 125‒126. URL: https://elibrary.ru/owdptl (дата обращения 30.08.2024).
- Крюкова А. В. Определение семантической близости текстов с использованием инструмента DKPro Similarity // Компьютерная лингвистика и вычислительные онтологии. 2017. № 1. C. 87‒97. URL: https://www.elibrary.ru/ywioyk (дата обращения 30.08.2024).
- Яковлева С. С. Использование ментальных карт в обучении студентов вуза // Научное обозрение. Педагогические науки. 2019. № 4‒1. С. 134‒137. URL: https://www.elibrary.ru/nedxcl (дата обращения 30.08.2024).
- Manning C. D., Raghavan P., Schütze H. An Introduction to Information Retrieval. Cambridge University Press, 2008. 569 p.
- Батура Т. В. Семантический анализ и способы представления смысла текста в компьютерной лингвистике // Программные продукты и системы. 2016. № 4. С. 45‒57. URL: https://www.elibrary.ru/xvigav (дата обращения 30.08.2024).
- Громцев С. А. Использование семантического конструктора для формирования учебных заданий // Информатика и образование. 2017. № 7 (286). С. 45‒47. URL: https://www.elibrary.ru/mgmsap (дата обращения 30.08.2024).
- Меры семантической близости в онтологии / К. В. Крюков, Л. А. Панкова, В. А. Пронина, В. С. Суховеров, Л. Б. Шипилина // Проблемы управления. 2010. № 5. С. 2‒14. URL: https://www.elibrary.ru/muvnsp (дата обращения 30.08.2024).
- Яцко В. А. Эффективность применения косинусной метрики для определения смысловой близости документов // Грани познания. 2020. № 4 (69). С. 3‒6. URL: https://www.elibrary.ru/ftiasg (дата обращения 30.08.2024).
- Солсо Р. Когнитивная психология. СПб. : Питер, 2006. 589 с.
- Майер Р. В. Сложность учебных понятий и текстов : монография. Глазов : ГИПУ, 2024. 132 с. URL: https://elibrary.ru/item.asp?id=59763871 (дата обращения: 30.08.2024).
Дополнительные файлы
