Семантические расстояния между понятиями микромира в физических и астрономических текстах

Обложка

Цитировать

Полный текст

Аннотация

Введение. Статья посвящена проблеме изучения семантического пространства текстов по физике и астрономии с помощью компьютерных технологий. Цель статьи заключается в: 1) определении семантических расстояний между ключевыми понятиями микромира в физических и астрономических учебных текстах; 2) построении графов, визуализирующих семантические пространства этих текстов, и их сравнении. Материалы и методы. Для анализа использовались тексты по физике и астрономии из школьных и вузовских учебников, а также статьи Википедии (всего более 100 тысяч слов). Обработка текста и вычисление косинусной меры близости понятий осуществлялись с помощью компьютерных программ, написанных в ABCPascal и электронных таблиц Excel; для построения графов использовался онлайн-ресурс Интернета. Результаты исследования. Получены два файла с текстами по физике и астрономии, выявлены ключевые понятия физики микромира, и для них определены косинусные меры близости и семантические расстояния. Построены графы, вершины которых соответствуют понятиям, а ребра характеризуют смысловые связи между ними. В результате их сравнения обнаружено, что семантические связи между ключевыми понятиями в физических и астрономических текстах имеют принципиальные различия. Для каждого текста может быть вычислена средняя косинусная близость некоторого понятия (например, «атом») c ключевыми понятиями «электрон», «протон», «нейтрон», «ядро» и т. д.; она является одной из характеристик учебного текста. Заключение. Предложенный метод позволяет получить объективные оценки степени близости ключевых понятий в учебных текстах, изучить и сравнить семантические пространства.

Полный текст

Введение

Проблема изучения семантического пространства учебного текста (УТ) является актуальной [1; 2], так как определение семантической близости между ключевыми понятиями помогает упростить учебный материал, выявить важнейшие логические блоки, визуализировать связи между понятиями и теориями с помощью таблиц и рисунков, сделать материал более доступным для понимания, а также способствует развитию у обучаемых когнитивных навыков, таких как критическое мышление, анализ и синтез информации. Все это позволяет улучшить методику преподавания, так как помогает сгруппировать похожие идеи и теории, эффективнее использовать ассоциативную память, фокусировать внимание на ключевых понятиях, отсеивая второстепенные, создавать ментальные карты [3], облегчающие понимание и запоминание.

Установление степени семантической связанности понятий П1 и П2 – непростая задача [4], для решения которой используются следующие методы: 1) лексический анализ: анализируют определения П1 и П2, находят отношение числа общих слов к их суммарному количеству, – чем выше результат, тем сильнее связь; 2) структурный анализ: сравнивают структуры определений П1 и П2, если они схожи, то понятия близки; 3) семантический анализ: сравнивают графы онтологических баз знаний, учитывают типы и длины связей с другими понятиями; переходят к векторным представлениям определений, находят косинусную меру близости между ними; используют латентный семантический анализ для выявления скрытых связей в большом корпусе текстов.

Семантический анализ опирается на дистрибутивную гипотезу, согласно которой слова (термины), часто встречающиеся в одних и тех же фрагментах текста, связаны смысловыми связями. Например, если рядом с термином «протон» часто встречается слово «нейтрон», а термины «молекула» или «кристалл» – реже, понятия «протон» и «нейтрон» семантически ближе друг к другу. Чем сильнее семантическая связанность понятий, тем больше похожи их распределения в тексте, тем чаще эти понятия встречаются в одном абзаце.

Цель исследования состоит в: 1) определении семантических расстояний между ключевыми понятиями (концептами) микромира в физических и астрономических учебных текстах; 2) построении графов, визуализирующих семантические пространства этих текстов, и их сравнении.

Материалы и методы исследования

Для достижения поставленной цели были проанализированы тексты:

  • по астрономии: 1) школьный учебник (А. В. Засов, В. Г. Сурдин Астрономия: 10‒11 кл., 2019), главы: 5. Солнце и звезды; 6. Строение и эволюция Вселенной; 2) школьный учебник (И. В. Галузо, В. А. Голубев, А. А. Шимбаев Астрономия: 11-го кл., 2009), главы: 6. Солнце – дневная звезда; 7. Звезды; 8. Строение и эволюция Вселенной; 3) учебник (Б. А. Воронцов-Вельяминов, Е. К. Страут Астрономия 11 кл., 2003), главы: 6. Солнце и звезды; 7. Галактики; 8. Эволюция Вселенной; 4) статья из Википедии (ru.wikipedia.org) «Звезда».
  • по физике: 1) вузовский учебник (Т. И. Трофимова, 2001), параграфы 202–275 за исключением параграфов 206, 216–222, 229–250, 260; 2) вузовский учебник (С. И. Кузнецов, 2015; С. 114–264); 3) статьи из Википедии «атом», «молекула», «электрон», «протон», «нейтрон», «ион», «кварк».

Методологической основой исследования являются работы следующих ученых: С. В. Ракитина [1], А. В. Крюкова [2], С. С. Яковлева [3], C. D. Manning, P. Raghavan и H. Schütze [4], Т. В. Батура [5], С. А. Громцев [6], К. В. Крюков, Л. А. Панкова, В. А. Пронина, В. С. Суховеров и Л. Б. Шипилина [7], В. А. Яцко [8], Р. Солсо [9], Р. В. Майер [10]. Для обработки текста и вычисления косинусной меры близости понятий применяются компьютерные программы, написанные на языке ABCPascal, и электронные таблицы Excel.

Результаты исследования, их обсуждение

Перечисленные тексты используются в конце или после изучения школьного курса физики, когда у ученика (студента) уже сформированы первоначальные представления о микромире (то есть фоновые знания). Им соответствует семантическая сеть, представленная на рисунке 1, в которой реализуются связи трех типов: 1) связи, обозначающие предикаты «содержит» или «состоит» (молекула состоит из атомов, вещество состоит из частиц), изображенные стрелками с буквой «c»; 2) связи-определения («фотон – частица света» или «атом – мельчайшая частица химического элемента»), показанные стрелками с кружками; 3) связи, отвечающие предикату «характеризуется» (протон характеризуется зарядом 1,6 × 10-19 Кл и массой 1,67 × 10-27 кг), обозначенные стрелками с буквой «х». Эта сеть является упрощенной, в ней отсутствуют понятия «античастица», «антивещество», «позитрон» и не отражены факты типа: «атом может поглощать или излучать фотон» или «между нуклонами действуют ядерные силы» и т. д. В когнитивном пространстве успешного ученика представленные на рисунке 1 понятия тесно связаны друг с другом, расстояние между ними мало. При обучении новая информация «оседает» на фоновых знаниях, образуются новые узлы и связи.

 

Рис. 1. Упрощенная семантическая сеть фоновых знаний

Fig. 1. A simplified semantic network of background knowledge

 

Для изучения семантического пространства УТ по астрономии и физике перечисленные выше тексты были скопированы в два файла astro_obsh.txt и fizika_obsh.txt. После удаления знаков препинания, стоп-слов, двойных и тройных пробелов и всех слов длиной 1 или 2 буквы получились файлы объемом 49911 и 60061 слов. Далее использовался следующий метод:

  1. Выбирают понятия (концепты), расстояние между которыми требуется найти: Вселенная, поле (гравитационное, электромагнитное и т. д.), вещество, частица, плазма, молекула, атом, ион, фотон, электрон, протон, нейтрон, нуклон, кварк, ядерные силы, энергия связи, ядро, термоядерная реакция.
  2. УТ разбивают на N перекрывающихся контекстных окон по d = 20 слов со смещением s = 5. Компьютерная программа для каждого термина находит номер слова от начала текста (то есть координату x) и определяет контекстный вектор – одномерную матрицу a(a1, a2, ..., aN), элементы которой равны количеству вхождений термина в k-ое окно (k = 1, 2, ..., N) [7; 8].
  3. Степень смысловой связанности K (A, B) понятий А и В вычисляется как косинус угла между векторами a(a1, a2, ..., aN) и b(b1, b2, ..., bN) N-мерного пространства [4; 5]. Результаты сохраняются в файле vihod.txt в виде столбцов чисел, которые позже переносятся документ Excel.
  4. С помощью Excel находят семантическое расстояние между понятиями: L (A, B) = 1 / K (A, B) – 1. Когда связь отсутствует, K (A, B) = 0, оно бесконечно велико; при K (A, B) = 1 расстояние L (A, B) = 0. Получают матрицу расстояний.
  5. С помощью онлайн-ресурса или вручную рисуют граф, визуализирующий семантические связи между понятиями. Для этого находят центральное понятие, с которым тесно связаны все остальные. Короткие ребра считаются жесткими, а длинные – эластичными и изображаются кривыми линиями.

В таблице представлены результаты вычисления косинусной меры близости (слева, под диагональю) и семантических расстояний (справа, над диагональю) между некоторыми понятиями в анализируемых текстах по физике. Аналогичная матрица близости и расстояний получена для текстов по астрономии. На рисунках 2 и 3 изображены графы, визуализирующие проекции многомерных семантических пространств этих текстов на некоторую плоскость. Они похожи на ментальные карты [3]. Для них не выполняются теоремы евклидовой геометрии, одна сторона треугольника может превышать сумму двух других сторон.

 

Таблица. K (A, B) и L (A, B) между понятиями в физических УТ

Table. K (A, B) and L (A, B) between concepts in physical UTs

Понятие

N

вещ-во

частица

молекула

атом

ион

фотон

электрон

протон

нейтрон

нуклон

кварк

ядро

вещество

160

1

6,85

7,21

13,04

14,48

26,69

16,36

48,48

13,75

40,48

30,84

частица

1064

0,127

1

24,90

10,26

7,45

9,55

7,61

7,16

7,14

20,88

13,00

8,37

молекула

211

0,122

0,039

1

5,81

15,31

472,93

13,81

50,26

49,74

70,38

78,30

атом

912

0,071

0,089

0,147

1

5,24

25,31

2,00

7,55

12,33

30,84

292,26

4,86

ион

553

0,065

0,118

0,061

0,160

1

18,96

6,36

21,93

37,15

15,28

7,08

31,99

фотон

248

0,036

0,095

0,002

0,038

0,050

1

7,44

87,42

96,94

117,91

331,23

119,34

электрон

1246

0,058

0,116

0,068

0,334

0,136

0,119

1

8,24

13,43

79,58

368,00

5,07

протон

340

0,020

0,123

0,020

0,117

0,044

0,011

0,108

1

1,14

7,33

10,40

3,04

нейтрон

342

0,068

0,123

0,020

0,075

0,026

0,010

0,069

0,467

1

9,99

17,90

3,25

нуклон

103

0,024

0,046

0,014

0,031

0,061

0,008

0,012

0,120

0,091

1

276,01

1,77

кварк

435

0,000

0,071

0,000

0,003

0,124

0,003

0,003

0,088

0,053

0,004

1

1959,78

ядро

480

0,031

0,107

0,013

0,171

0,030

0,008

0,165

0,247

0,235

0,361

0,001

1

 

Рис. 2. Семантическое пространство физических текстов

Fig. 2. The semantic space of physical texts

 

Рис. 3. Семантическое пространство астрономических текстов

Fig. 3. Semantic space of astronomical texts

 

Полученные матрицы близости и графы отражают семантические связи между понятиями в анализируемых текстах. Видно, что семантические расстояния отличаются в десятки и сотни раз. Круги большого радиуса соответствуют часто используемым терминам. Сила связи с редко используемыми понятиями определяется с погрешностью, такие связи изображены пунктиром.

Сравнивая полученные результаты, можно обнаружить, что в физических текстах к часто используемым терминам относятся: «электрон» (доля употребления среди других терминов 0,19), «частица» (0,17), «атом» (0,14), а в астрономических: «ион» (0,22), «Вселенная» (0,16), «вещество» (0,15). УТ можно охарактеризовать средним коэффициентом связи некоторого понятия П к выбранным понятиям-маркерам (например, электрон, протон, нейтрон, ядро):

Kср'(П)=(K(П, электрон)+K(П, протон)+K(П, нейтрон)+K(П, ядро))/4.

Для физических УТ K'ср (Вселенная) = 0,00253, K'ср (атом) = 0,174075, а для астрономических K'ср (Вселенная) = 0,017, K'ср (атом) = 0,095.

Ключевые понятия микромира в физических текстах группируются вокруг терминов: «ядро» (средний коэффициент связи с другими понятиями 0,1), «протон» (0,09), «атом» (0,08), «электрон» (0,08), «нейтрон» (0,08), «нуклон» (0,08), а в астрономических текстах – вокруг терминов: «протон» (0,07), «атом» (0,07), «электрон» (0,07), «частица» (0,06), «ион» (0,05), «вещество» (0,05).

В физических текстах «Вселенная» упоминается редко, L (Вселенная, вещество) = 27, L (Вселенная, частица) = 39, L (Вселенная, ион) = 53, L (Вселенная, электрон) = 98, L (Вселенная, атом) = 134, понятие «Вселенная» встречается nФ (Вселенная) = 22 раза. В астрономических текстах обсуждается возникновение и эволюция Вселенной, образование элементарных частиц и т. д., поэтому L (Вселенная, вещество) = 5,8, L (Вселенная, ион) = 11, L (Вселенная, атом) = 30, L (Вселенная, нейтрон) = 50, L (Вселенная, молекула) = 92, nА (Вс) = 224.

На рисунке 4 представлены графы, показывающие связи понятия «поле» (гравитационное, электромагнитное и т. д.) c другими близко расположенными к нему понятиями в физических и астрономических УТ. Видно, что множества ближайших понятий и семантические расстояния до них сильно отличаются, что объясняется особенностями учебного материала. В физических текстах концепт «поле» связано с понятием «электрон» и «плазма», а в астрономических – сильно связано с понятиями «ион», «плазма», «частица». Последнее можно записать так: поле (ион – 8; плазма – 8; частица – 10). Числа показывают расстояния L до понятия «поле». Другой пример, в физических УТ – атом (электрон – 2; ядро – 4,9; ион – 5,2; протон – 7,6), а в астрономических УТ – атом (молекула – 3,2; электрон – 4,7; частица – 4,9; вещество – 9,9; ион – 9,9).

 

Рис. 4. Связи с понятиями, которые близки к концепту «поле»

Fig. 4. Links to concepts that are close to the concept “field”

 

Заключение

В статье рассмотрена проблема изучения семантического пространства текстов по физике и астрономии с помощью компьютерных технологий. В результате анализа школьных и вузовских учебников по физике и астрономии, а также статей Википедии определены семантические расстояния между ключевыми концептами микромира. Построены графы, характеризующие смысловые связи между ними, осуществлено их сравнение. Показано, что семантические связи между ключевыми понятиями в физических и астрономических текстах имеют принципиальные различия. Для каждого текста может быть вычислена средняя косинусная близость, допустим, понятия «атом» к ключевым понятиям «электрон», «протон», «нейтрон», «ядро» и т. д., которая может рассматриваться как одна из характеристик УТ. Предлагаемый подход открывает новые возможности изучения учебных текстов.

×

Об авторах

Роберт Валерьевич Майер

Глазовский инженерно-педагогический университет им. В. Г. Короленко

Автор, ответственный за переписку.
Email: robert_maier@mail.ru
ORCID iD: 0000-0001-8166-9299

доктор педагогических наук, доцент, профессор кафедры физики и дидактики физики

Россия, ул. Первомайская, 25, Глазов, 427621

Список литературы

  1. Ракитина С. В. Концептосфера и семантическое пространство научного текста // Альманах современной науки и образования. 2009. № 8‒1. С. 125‒126. URL: https://elibrary.ru/owdptl (дата обращения 30.08.2024).
  2. Крюкова А. В. Определение семантической близости текстов с использованием инструмента DKPro Similarity // Компьютерная лингвистика и вычислительные онтологии. 2017. № 1. C. 87‒97. URL: https://www.elibrary.ru/ywioyk (дата обращения 30.08.2024).
  3. Яковлева С. С. Использование ментальных карт в обучении студентов вуза // Научное обозрение. Педагогические науки. 2019. № 4‒1. С. 134‒137. URL: https://www.elibrary.ru/nedxcl (дата обращения 30.08.2024).
  4. Manning C. D., Raghavan P., Schütze H. An Introduction to Information Retrieval. Cambridge University Press, 2008. 569 p.
  5. Батура Т. В. Семантический анализ и способы представления смысла текста в компьютерной лингвистике // Программные продукты и системы. 2016. № 4. С. 45‒57. URL: https://www.elibrary.ru/xvigav (дата обращения 30.08.2024).
  6. Громцев С. А. Использование семантического конструктора для формирования учебных заданий // Информатика и образование. 2017. № 7 (286). С. 45‒47. URL: https://www.elibrary.ru/mgmsap (дата обращения 30.08.2024).
  7. Меры семантической близости в онтологии / К. В. Крюков, Л. А. Панкова, В. А. Пронина, В. С. Суховеров, Л. Б. Шипилина // Проблемы управления. 2010. № 5. С. 2‒14. URL: https://www.elibrary.ru/muvnsp (дата обращения 30.08.2024).
  8. Яцко В. А. Эффективность применения косинусной метрики для определения смысловой близости документов // Грани познания. 2020. № 4 (69). С. 3‒6. URL: https://www.elibrary.ru/ftiasg (дата обращения 30.08.2024).
  9. Солсо Р. Когнитивная психология. СПб. : Питер, 2006. 589 с.
  10. Майер Р. В. Сложность учебных понятий и текстов : монография. Глазов : ГИПУ, 2024. 132 с. URL: https://elibrary.ru/item.asp?id=59763871 (дата обращения: 30.08.2024).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Упрощенная семантическая сеть фоновых знаний

Скачать (901KB)
3. Рис. 2. Семантическое пространство физических текстов

Скачать (627KB)
4. Рис. 3. Семантическое пространство астрономических текстов

Скачать (567KB)
5. Рис. 4. Связи с понятиями, которые близки к концепту «поле»

Скачать (528KB)

© Вестник Марийского государственного университета, 2025

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».