Principles and Methods of Digital Lexicography

Yu. Yu. Makarov; Макаров Ю. Ю.

doi:10.31857/S1605788024040106

Принципы и методы цифровой лексикографии

Авторы: Макаров Ю.Ю.¹^,2^,3
Учреждения:
1. Институт русского языка им. В.В. Виноградова РАН
2. Институт языкознания РАН
3. НИУ ВШЭ
Выпуск: Том 83, № 4 (2024)
Страницы: 102-112
Раздел: Статьи
URL: https://bakhtiniada.ru/1605-7880/article/view/271047
DOI: https://doi.org/10.31857/S1605788024040106
ID: 271047

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Статистика

Аннотация

Статья описывает принципы и методы цифровой лексикографии, а также то, как они встраиваются в четыре основных этапа создания словарей: подготовку текста, редакционно-издательскую работу, публикацию и постпубликационный период. Обсуждаются преимущества онлайн-систем подготовки словарей (таких, как платформа OnLex), которые значительно упрощают все упомянутые этапы. Вводится классификация подходов к написанию текста словаря (файловый, табличный, основанный на TEI-разметке или базе данных). В заключение подчеркивается важность применения методов цифровой лексикографии, особенно в российской традиции, часто ограничивающейся малофункциональным файловым подходом.

Ключевые слова

лексикография, словари, цифровые методы, системы подготовки словарей, OnLex

Полный текст

Этапы лексикографического проекта

Традиционный путь, который проделывает лексикографический проект, состоит из четырех этапов:

Подготовка текста словаря.
Макетирование и прочая работа с издательством.
Публикация книги.
Постпубликационный период.

Вкратце охарактеризуем каждый из них.

Этап подготовки текста словаря заключается в определении концепции будущего издания, обсуждении словника, сборе корпуса примеров, написании словарных статей, а также их последующем (обычно коллегиальном) редактировании.

Следующий этап, связанный с редакционно-издательской подготовкой, обычно касается различных аспектов взаимодействия авторского коллектива с внешними редакторами, корректорами и/или наборщиками. Во многих случаях подготовка макета сопровождается массой проблем: даже если отбросить всевозможные разногласия в стилистической правке, преобразование исходного текста в издательский формат, подходящий для отправки в типографию, занимает долгое время и часто проходит через несколько итераций. Более того, уже сверстанный макет перед утверждением снова приходится вычитывать.

Название предпоследнего этапа, публикация книги, говорит само за себя. Стоит отметить, что в российской традиции основной акцент делается именно на издании бумажной версии, и лишь с недавнего времени крупные лексикографические проекты стали параллельно с физическими копиями подготавливать онлайн-версии [1]–[3].

Завершающий постпубликационный период характеризуется сбором обратной связи, отзывов о словаре, их осмыслением и, возможно, подготовкой нового издания, хотя в силу финансовых ограничений новое издание в большинстве случаев невозможно.

Цель данной статьи – описать, как каждый из перечисленных этапов преображается при использовании методов цифровой лексикографии, а также на конкретных примерах проиллюстрировать, как эти методы работают.

Подготовка текста словаря

Время, когда текст словаря подготавливался с использованием чернил и бумаги, осталось позади с приходом компьютерных технологий. Источниковые базы, представленные прежде миллионами примеров на картонных карточках, как правило¹, были заменены цифровыми инструментами наподобие Национального корпуса русского языка (ruscorpora.ru; [4]). Счет словоформ, составляющих современные онлайн-корпусы, ведется уже не на миллионы, а на миллиарды: на момент написания статьи суммарный объем подкорпусов НКРЯ составляет более двух миллиардов словоформ, а Генеральный интернет-корпус русского языка (webcorpora.ru; [5]; [6]) насчитывает больше 20 миллиардов слов. Помимо объема, важным преимуществом онлайн-формата является возможность гибких поисковых запросов, которые существенно упрощают комплексное изучение лексемы. Несмотря на то, что корпусные технологии являются примером оптимизации лексикографического процесса цифровыми методами, далее они рассматриваться не будут (они в деталях описаны среди прочего в указанных выше источниках).

Файловый подход

Если корпусы пришли на замену картонным карточкам, то что же стало альтернативой чернилам и бумаге? Можно констатировать, что наибольшее распространение в современной российской традиции имеет набор текста с помощью текстовых редакторов наподобие Microsoft Word, или файловый подход. Среди его преимуществ можно выделить легкость освоения и широкую доступность, однако нельзя не заметить существенно большее число его недостатков. Начать их рассмотрение стоит с замечания о плохой совместимости с масштабными проектами. При объеме хотя бы в несколько десятков тысяч словарных входов даже мощные компьютеры будут с трудом обрабатывать файлы формата doc и docx, наиболее распространенные среди пользователей Microsoft Word. Частым решением этой проблемы является разделение текста словаря на фрагменты, содержащиеся в разных файлах, однако стоит отметить, что такой модус работы едва ли надежен (файлы имеют свойство теряться) и удобен (обращение с десятками файлов приводит к путанице). Упомянутые неудобства становятся еще более критичными, если рассмотреть проблему версирования: сбор и хранение версий файлов для различных фрагментов излишне сближает работу лексикографа с работой архивариуса.

До сих пор рассматривались скорее проблемы с внешней стороной файлового подхода; обратимся теперь к недостаткам, связанным непосредственно с процессом подготовки текста. Даже если правила оформления различных элементов словарной статьи (заглавное слово, пометы, толкования, речения, идиомы…) были оговорены заранее, в итоговом файле все равно найдутся сотни примеров их нарушения. Отсутствующий курсив, пропущенное отточие и некорректно расставленные переносы строк, хотя и не всегда критичны с содержательной точки зрения, существенно портят восприятие издание. Среди прочих проблем можно упомянуть плохой доступ к метаинформации (кто, когда и что изменял в конкретной статье?), статистике (сколько словарных статей готовы?), невозможность удобного поиска (например, только среди значений или заглавных слов), часто блокируемого диакритиками, а также слабой конвертируемостью в издательские форматы².

Табличный подход

Проблема плохой структурированности менее выражена при табличном подходе, который отличается от файлового тем, что словарные статьи представляют собой строки таблицы, а словарные зоны – столбцы. Рисунок 1 иллюстрирует такой тип словаря.

Рис. 1. Словарь тукитинского диалекта каратинского языка (lingconlab.ru/TukitaDict/; [7])

Rice. 1. Dictionary of the Tukita dialect of the Karata language (lingconlab.ru/TukitaDict/; [7])

Преимущества табличного подхода проистекают из более строгого контроля за структурой данных (в противном случае таблица просто не будет правильно отображаться): становится доступным поиск по конкретным словарным зонам (путем фильтрации по столбцам). Экспорт файлов формата csv, tsv, xml, xls, xlsx и проч. в виде онлайн-страницы с возможностью фильтрации по столбцам (ср. рис. 1) и даже для подготовки макета книги в табличном подходе существенно упрощены (видимо, по этой причине издания в табличном формате популярны среди авторов учебных пособий).

Недостатки же проистекают, как это ни парадоксально, из той же строгости организации данных. Если для небольших словарей типа [7] табличный подход может быть достаточным, в более комплексных проектах, где требуется, например, указание массы грамматических форм, перечисление фразеологических единиц, включение обильного иллюстративного материала и т.п., табличное представление вокабулы окажется неоправданно громоздким. Представим, что в словаре регулярно дается пять форм глагола, три формы существительного, а также четыре формы прилагательного. Согласно принципам табличного подхода, каждый тип форм, каждая глосса должна быть вынесена в отдельный столбец. Таблица таким образом увеличивается на 12 столбцов, бо́льшая часть которых будет всегда пустой (у глаголов нет именных форм и т.д.). Если же вспомнить о примерах и идиомах, а также прочих потенциальных зонах, то внешний облик максимально подробного словаря-таблицы оказывается за пределами возможностей восприятия³. Помимо этого, одна таблица априори не может успешно отображать many-to-one («многие к одному») отношения, которыми пронизан типичный словарь. Чтобы проиллюстрировать этот тип отношений, достаточно вспомнить о том, как заглавная лексема (‘one’) соотносится с ее значениями (‘many’) и как, в свою очередь, каждое значение (‘one’) соотносится с примерами и речениями (‘many’). В таблице как на рис. 1 отображение подобных связей вынуждено сведено к примитивному перечислению в одной ячейке, о проблематичности которого см. выше. Иными словами, табличный подход плохо совместим с полисемией, вариативностью и прочими атрибутами любого естественного языка.

Язык разметки XML и стандарт TEI

Стоит специально остановиться на определении XML (англ. extensible markup language ‘расширяемый язык разметки’) – метязыка, с помощью которого делаются указания о том, как должен интерпретироваться тот или иной фрагмент цифрового текста (поэтому XML и называется языком разметки). Важнейший принцип организации XML – иерархичность; более того, метки, или тэги, используемые для разметки, могут быть вложены друг в друг, как показано на рис. 2а.

Рис. 2. Примеры а) TEI-разметки (слева) и б) TEI-Lex-0-разметки (справа) фрагмента словарной статьи

Fig. 2. Examples of a) TEI markup (left) and b) TEI-Lex-0 markup (right) of a fragment of a dictionary entry

TEI (tei-c.org; англ. text encoding initiative ‘инициатива по кодированию текста’) представляет собой стандарт для создания, обмена и анализа текстовой информации в цифровой форме. В частности, TEI предоставляет рекомендации по разметки разнообразных текстовых документов с использованием XML. Среди сотен модулей (т.е. наборов тэгов и правил их использования) имеется и схема описания словарей, см. рис. 2а. Помимо этого, существует проект TEI-Lex-0⁴ (рис. 2б), на большом количеством примеров показывающий, как словарные статьи разных форматов могут быть представлены с помощью более продвинутого набора тэгов (при этом не нарушающих стандарт TEI).

TEI широко используется в сфере digital humanities (~ цифровых гуманитарных наук) для создания электронных архивов, текстовых корпусов и других проектов, требующих структурированного представления текста. Одним из преимуществ этого стандарта является представление каждого элемента словарной статьи как отдельной сущности (имеется свой набор тэгов для каждой словарной зоны). Если разные словарные проекты реализуются в соответствии с TEI, лексикографические процессы существенно упрощаются: достаточно лишь один раз разработать программное обеспечение, позволяющее записывать словарные статьи в формате TEI через удобный интерфейс, а также автоматически конвертировать TEI-словарь в издательский макет. Пример проекта, использующего TEI при создании и публикации словаря, описан в [2]; [8].

База данных как основа словаря

Перед тем как перейти к рассмотрению систем подготовки словарей, стоит ввести понятие базы данных (БД). БД – это некоторая информация, которая хранится в соответствии со строгой схемой. В отличие от таблицы в табличном подходе (см. выше), где словарная статья соответствует одной строке, при использовании БД вокабула представима в виде нескольких таблиц с прописанными отношениями. БД, в отличие от табличного подхода, поддерживает many-to-one отношения между элементами словарной статьи. Предположим, что в некотором словаре имеется заглавная лексема, а также множество грамматических форм и множество значений, привязанных к заглавной лексеме; при этом у каждого значения есть множество речений и примеров. Выше было показано, что табличный подход не может эффективно отобразить подобную структуру. В БД же каждое из множеств представимо в виде отдельной таблицы, причем в этой таблице у каждой лексемы, формы, значения или примера / речения есть идентификационный номер (ID). Связи же между этими множествами могут быть прописаны в отдельных таблицах, сопоставляющих, например, одному и тому же ID заглавной лексемы множество различных ID форм и значений.

По сравнению с файловым и табличным подходами БД могут хранить огромные массивы данных, а системы управления базами данных (СУБД) – эффективно управлять информацией в БД, см. рис. 3.

Рис. 3. Снимок экрана СУБД SQLite, показывающий таблицу значений онлайн-словаря персидского языка iranic.space [1], [9]; meaning_id – ID значения, unit_id – ID заглавной лексемы, meaning – текст значения, pos_id и rank – технические индексы

Fig. 3. A screenshot of the SQLite DBMS showing the table of meanings of the online dictionary of the Persian language iranic.space [1], [9]; meaning_id is the ID of the meaning, unit_id is the ID of the capital lexeme, meaning is the text of the meaning, pos_id and rank are technical indexes

Несмотря на то, что использование БД в качестве основы словаря позволяет структурированно хранить данные с поддержкой различных типов отношений (в том числе many-to-one), а также легко конвертировать эти данные в другие форматы, обращение с (СУ)БД предполагает наличие ряда технических навыков (как минимум владение языком SQL от англ. structured query language ‘язык структурированных запросов’), что едва ли можно требовать от лексикографа. БД плохо совместима с медиафайлами (иллюстрации, аудиоприложения и проч.) и не может заменить собой публикацию словаря в интернете или в виде физического издания.

Системы подготовки словарей

Рассмотренный выше набор инструментов (TEI-разметка, БД) нельзя назвать дружелюбным по отношению к лексикографу, от которого несправедливо было бы требовать владения массой технических компетенций в дополнение к лингвистическим и филологическим. Именно поэтому с 1990-х годов разрабатываются системы, упрощающие взаимодействие авторов словарей с цифровыми методами лексикографии, ср. [10]. Эти системы подготовки словарей (СПС; англ.dictionary writing systems) можно разделить на коммерческие (доступные для широкой аудитории; например, IDM DPS⁵ или TLex⁶) и внутренние (созданные для конкретных проектов и недоступные для прочих); дополнительно стоит различать СПС, ориентированные на работу в интернете (онлайн-СПС), и офлайн-СПС, требующие установки программ на компьютер. Общими составляющими СПС является некоторая система организации и хранения данных (таблица, БД…), редакторский интерфейс, а также модули управления проектом, экспорта данных в издательских форматах и иногда веб-модуль.

Проиллюстрируем работу СПС на примере редакторского интерфейса платформы OnLex⁷, c 2020 г. разрабатываемой автором данной статьи. OnLex представляет собой онлайн-СПС, т.е. все лексикографическими процессами можно управлять, используя браузер на любом устройстве. На рис. 4 представлен фрагмент страницы, используемой для редактирования словарных входов, а именно поля для оригинального текста статьи (скопированного из источника без изменений), значений заглавной лексемы, а также для идиом и сложных глаголов. Во все эти поля возможен ввод текста в произвольном формате, в то время как в случае со списком помет (например, грамматические пометы f, m и caus, т.е. мужской и женский роды, а также каузатив) и выбором части речи необходимо сделать выбор из предварительно заданных вариантов. Такой подход к регулярно повторяющимся элементам статьи позволяет минимизировать расхождения и опечатки (ср. невозможность выбрать помету caus для существительных, доступную лишь для глаголов), а также централизованно изменять соответствующие пометы во всех местах их употребления (например, при принятии решении о переименовании). Также стоит обратить внимание на возможность добавления неограниченного количества форм и значений (достаточно нажатия на подходящую зеленую кнопку), которые впоследствии можно отсортировать с помощью системы рангов (чем выше ранг, тем раньше элемент будет отображен на экране). Наконец, отметим поддержку в рассматриваемом словаре нескольких орфографий (шугнанский, относящийся к памирским языкам, не имеет кодифицированной системы письма) – платформа OnLex может быть настроена под нужды конкретного проекта, даже весьма специфичные.

Рис. 4. Фрагмент редакторского интерфейса платформы OnLex, пример с сайта pamiri.online [11]

Fig. 4. Fragment of the editorial interface of the OnLex platform, example from the pamiri.online website [11]

На рис. 5 представлено то, как статья с рис. 4 отображается на сайте. Как видно, помимо соответствующих зон уже упомянутых элементов редакторского интерфейса, в словаре pamiri.online имеется возможность делать гиперссылки на другие статьи, присваивать таксономические метки (в данном случае kinship, т.е. термин родства) и добавлять примеры. Функционал платформы, однако, этим не ограничивается, и эта тема заслуживает подробного рассмотрения в отдельной статье. Сейчас же лишь упомянем то, что среди прочих доступных функций имеются: поисковый модуль (поддержка разных зон поиска, регулярных выражений, режим игнорирования диакритик, (не)полнословный поиск), система обратной связи для пользователей, система управления редакторскими задачами для команды проекта, медиаприложения (аудио, видео, изображения, карты), поддержка нескольких языков, система управления контентом и т.д.

Рис. 5. Статья dod из Шугнанско-русского словаря Д. Карамшоева, представленного на сайте pamiri.online [11]

Fig. 5. Article dod from the Shugnan-Russian dictionary by D. Karamshoev, presented on the website pamiri.online [11]

В завершение раздела нужно еще раз подчеркнуть, что одна из главных задач СПС – минимизировать техническую нагрузку на лексикографа (в случае с интерфейсом OnLex она сводится, грубо говоря, к заполнению полей и нажатию на кнопки выпадающих меню).

Макетирование, публикация и постпубликационный период

При использовании файлового, а также табличного подходов этапы, наступающие после подготовки текста, следуют классическому сценарию: привлекается издательство, предоставляющее услуги верстальщика, редактора, корректора и дистрибьютера выпущенной книги. Сфокусируемся на том, как эти этапы упрощаются при использовании СПС.

При наличии веб-модуля (как на платформе OnLex) весь издательский процесс сводится к нажатию кнопки «Опубликовать» в интерфейсе редактора. Несмотря на то, что достоинства бумажной книги хорошо известны, нельзя игнорировать слабые стороны этого традиционного формата, которые реже обсуждаются в русскоязычной традиции. Приведем некоторые из недостатков:

Поиск обычно возможен только среди заглавных слов.
Поиск может занимать много времени, что особенно заметно при необходимости быстро переключаться между статьями.
Не поддерживаются аудио- и видеоприложения.
Необходимо экономить место, а значит, использовать множество сокращений и часто урезать содержательную часть.
Во многих случаях отсутствует возможность поддерживать два языка (физические издания, эквивалентно предоставляющие информацию на нескольких языках, крайне редки).
Читатели не могут (или могут, но по неудобным каналам) передать свои отзывы о книге. При пользовании словарем замечания возникают не в результате постраничного чтения, а при постоянном переключении между случайными вокабулами. Возникшая в моменте необходимость сообщить об ошибке не может быть легко удовлетворена: писать письмо про каждую статью расточительно, а собирать все ошибки в один файл больше напоминает обязанности редактора, а никак не добрую волю читателя.
После публикации книгу нельзя изменить (только переиздать с исправлениями).

В онлайн-СПС типа OnLex проблемы 1 и 2 полностью решены поисковым модулем: поскольку в БД каждый элемент вокабулы представлен изолировано, возможен поиск именно среди всех представителей некоторого класса (например, только среди значений или форм – отдельных таблиц в БД). Высокая скорость поиска нужных статей определяется, во-первых, возможностью перейти к упомянутой лексеме по нажатии гиперссылки, а во-вторых, тем, что поиск выполняется не читателем, а специальным алгоритмом. Недостатки 3, 4 и 5 отсутствуют в онлайн-формате. Помимо полного отказа от сокращений, можно сопоставить каждому из них «всплывающую подсказку» с расшифровкой. Что касается поддержки нескольких языков, то в онлайн-словаре имеется возможность предусмотреть параллельный ввод данных для нескольких версий вокабулы (аналогично нескольким орфографиям на рис. 4). Наконец, пункт 6 устраняется добавлением на страницу каждой словарной статьи поля «Сообщить об ошибке», нажав на которое пользователь может моментально отправить замечание, касающееся конкретной вокабулы. Редакторы сразу получают это сообщение и могут внести исправления, опубликовав новую версию нажатием одной кнопки, тем самым разрешая проблему 7.

Если же издание книги необходимо, то большинство СПС предоставляют возможность экспорта словарных статей из БД по заданным правилам композиции и оформления (например: заглавное слово полужирным, пометы курсивом, значения на новой строке и т.п.).

Заключение

В статье были описаны методы и принципы цифровой лексикографии. В частности, были введены понятия файлового и табличного подходов к составлению словарей, описаны лексикографические форматы TEI, основные особенности баз данных, а также рассмотрены функции и цели систем подготовки словарей, проиллюстрированные платформой OnLex. Было показано, чем полезно наличие онлайн-версии, во многих аспектах представляющей собой более удобный способ представления словаря – и для пользователя, и для составителя. Преимущества использования систем подготовки словарей не должны игнорироваться лексикографическими проектами нашего времени, и хочется верить, что в ближайшие годы в русскоязычной словарной традиции частота использования продвинутых методов цифровой лексикографии будет стремительно возрастать.

¹ Исключение составляют проекты, в картотеках которых собран уникальный материал, не загруженный на платформы типа НКРЯ в цифровом виде, например Словарь русских народных говоров.

² Верстка макета с помощью Microsoft Word возможна, но не слишком распространена в профессиональной среде.

³ Следует отметить, что перечисление всех форм, примеров и прочих единиц в одной ячейке приведет к существенным потерям в организации данных, а также в возможностях поиска (так, если все именные формы перечислены через запятую, то нельзя выполнить поиск только среди, например, форм множественного числа).

⁴ https://dariah-eric.github.io/lexicalresources/pages/TEILex0/TEILex0.html

⁵ https://dps.cw.idm.fr/

⁶ https://tshwanedje.com/tshwanelex/

⁷ На платформе OnLex в данный момент функционируют три словаря: памирских (pamiri.online; [11]), персидского (iranic.space; [1]; [9]; [12]; [13]) и осетинского (ossetic.iranic.space; [2]; [8]) языков. На стадии разработки находятся словари сербского языка [3], Академического толкового словаря русского языка [14]; [15]; [16], а также другие проекты.

Об авторах

Ю. Ю. Макаров

Институт русского языка им. В.В. Виноградова РАН; Институт языкознания РАН; НИУ ВШЭ

Автор, ответственный за переписку.
Email: yurmak@iling-ran.ru

Научный сотрудник Института русского языка им. В.В. Виноградова РАН, Россия, младший научный сотрудник Института языкознания РАН, приглашенный исследователь НИУ ВШЭ

Россия, Москва; Москва; Москва

Список литературы

Беляев О.И., Макаров Ю.Ю., Новокшанов Д.А., Синицына Ю.В., Хомченкова И.А. Онлайн-словари иранских языков // 1-ая Международная научно-образовательная конференция «Пейсиковские чтения: проблемы современного академического востоковедения»: материалы конференции / ред. А. А. Маслов. М.: ИСАА МГУ имени М.В. Ломоносова, 2023. С. 7–11. [Электронный ресурс]: https://elibrary.ru/item.asp?id=58073241&pff=1
Беляев О.И., Хомченкова И.А., Синицына Ю.В., Дьячков В.В., Бызова А.А., Бадеев А.О., Алексеев Д.А., Макаров Ю.Ю. Историко-этимологический словарь осетинского языка В.И. Абаева: проблемы создания цифровой двуязычной версии // Вестн. Моск. ун-та. Серия 9. Филология. 2024. Вып. 2. С. 75–86. http://dx.doi.org/10.55959/MSU0130-0075-9-2024-47-02-4
Dragićević R., Makarov Y., Ryzhova D., Shapich Y., Yakushkina E. A new bilingual Serbian–Russian dictionary // Lexicography and Semantics: Proceedings of the XXI EURALEX International Congress / ред. K. Despot, I. Brač, A. Ostroški Anić. Zagreb: Institute for the Croatian Language, 2024. Pp. 93–100.
Плунгян В.А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. 2008. Т. 16. Вып. 2. С. 7–20.
Беликов В.И., Копылов Н.Ю., Пиперски А.Ч., Селегей В.П., Шаров С.А. Корпус как язык: от масштабируемости к дифференциальной полноте // Компьютерная лингвистика и интеллектуальные технологии. 2013. Т. 1. Вып. 12. С. 19.
Piperski A., Belikov V., Kopylov N., Morozov E., Selegey V., Monakhov S. Big and diverse is beautiful: A large corpus of Russian to study linguistic variation // Proceedings of the 8th Web as Corpus Workshop (WAC-8) @ Corpus Linguistics 2013 / ред. S. Evert, E. Stemle, P. Rayson. 2013. С. 24–28.
Magomedgazhieva P., Daniel M. Dictionary of Tukita (v2.0.0). Linguistic Convergence Laboratory, HSE University, Moscow, 2023. https://doi.org/10.5281/zenodo.7803955
Belyaev O., Khomchenkova I., Sinitsyna J., Dyachkov V. Digitizing print dictionaries using TEI: The Abaev Dictionary Project // Proceedings of the Seventh International Workshop on Computational Linguistics of Uralic Languages, Syktyvkar, Russia (Online): Association for Computational Linguistics. Сен. 2021. С. 57–64. [Электронный ресурс]: https://aclanthology.org/2021.iwclul-1.7
Иванов В.Б. Большой персидско-русский словарь. Т. 1. М.: Наука, 2020.
Abel A. Dictionary writing systems and beyond // Electronic Lexicography / ред. S. Granger, M. Paquot. Oxford University Press, 2012. С. 83–106. https://doi.org/10.1093/acprof:oso/9780199654864.003.0005
Makarov Y., Melenchenko M., Novokshanov D. Digital Resources for the Shughni Language // Proceedings of The Workshop on Resources and Technologies for Indigenous, Endangered and Lesser-resourced Languages in Eurasia within the 13th Language Resources and Evaluation Conference, Marseille, France: European Language Resources Association. Июнь 2022. С. 61–64. [Электронный ресурс]: https://aclanthology.org/2022.eurali-1.9
Иванов В.Б. Большой персидско-русский словарь. Т. 2. М.: Фонд Ибн Сины, 2023.
Иванов В.Б. Большой персидско-русский словарь. Т. 3. М.: ООО «Садра», 2024.
Крысин Л.П. (отв. ред.) Академический толковый словарь русского языка. Т. 1: А – ВИЛЯТЬ. М.: Издательский дом ЯСК, 2016.
Крысин Л.П. (отв. ред.) Академический толковый словарь русского языка. Т. 2: ВИНА – ГЯУР. М.: Издательский дом ЯСК, 2016.
Цумарев А.Э., Шестакова Л.Л., Нечаева И.В., Кулева А.С., Грунченко О.М. «Академический толковый словарь русского языка»: традиционное и новое // Известия Российской академии наук. Серия литературы и языка. 2017. Т. 76. № 5. С. 5–21.

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Том 84, № 6 (2025)

Том 84, № 6 (2025)

Принципы и методы цифровой лексикографии

Полный текст

Аннотация

Ключевые слова

Полный текст

Этапы лексикографического проекта

Подготовка текста словаря

Макетирование, публикация и постпубликационный период

Заключение

Об авторах

Ю. Ю. Макаров

Список литературы