Технология создания доменной базы знаний вопрос-ответной системы на основе крупномасштабной универсальной базы знаний

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Использование вопрос-ответных систем стало популярным способом получения доступа к базам знаний, содержащим большое количество фактов из самых различных предметных областей. Крупномасштабные открытые универсальные базы знаний, такие как Wikidata, содержат огромные коллекции фактов. И хотя они охватывают большую часть всех накопленных людьми сведений, имеется ряд причин, по которым их прямое использование в вопрос-ответных системах может быть менее предпочтительным чем создание на их основе специализированных доменных баз знаний. В работе представлена технология построения доменной базы знаний для диалоговой системы, основанная на выделении границ домена из крупномасштабной открытой универсальной базы знаний. Она основана на многошаговом процессе анализа большого числа заданных в свободной форме вопросов по указанной предметной области, собранных с помощью краудсорсинговой платформы. Технология включает корректировку онтологической структуры исходной базы знаний и ее дополнительное наполнение. Предложенная технология является универсальной по отношению к исходной базе знаний и моделируемой предметной области и была апробирована на базе знаний Wikidata для шести предметных областей.

Об авторах

Никита Алексеевич Титов

Финансовый университет при Правительстве Российской Федерации

Email: natitov@fa.ru
инженер 1 категории Москва, Российская Федерация

Сергей Вячеславович Макрушин

Финансовый университет при Правительстве Российской Федерации

Email: svmakrushin@fa.ru
кандидат экономических наук; доцент Москва, Российская Федерация

Список литературы

  1. Abu-Naser S.S., ALmurshidi H.S. A knowledge based system for neck pain diagnosis. World Wide Journal of Multidisciplinary Research and Development. 2016. Vol. 2. No. 4. Pp. 12-18.
  2. Ahmeti A. et al. Updating Wikipedia via DBpedia mappings and SPARQL. Proceedings of the 14th International European Semantic Web Conference. 2017. Pp. 485-501. doi: 10.1007/978-3-319-58068-5_30.
  3. Dong C., Zhao C. SDPedia from DBpedia to domain-micropedia.International Journal of Web Information Systems. 2018. Vol. 14. No. 2. Pp. 138-157. doi: 10.1108/IJWIS-05-2017-0040.
  4. Faraj G., Micsik A. Enriching Wikidata with cultural heritage data from the COURAGE project. Metadata and Semantic Research. 2019. Pp. 407-418. doi: 10.1007/978-3-030-36599-8_37.
  5. Font L., Zouaq A., Gagnon M. Assessing and improving domain knowledge representation in DBpedia. Open J. Semantic Web. 2017. No. 4. Pp. 1-19.
  6. Font L., Zouaq A., Gagnon M. Assessing the quality of domain concepts descriptions in DBpedia. Proceedings of the 11th International Conference on Signal-Image Technology & Internet-Based Systems (SITIS). 2015. Pp. 254-261. doi: 10.1109/SITIS.2015.104.
  7. Henselmann D., Harth A. Constructing demand-driven Wikidata Subsets. Proceedings of the 2nd Wikidata Workshop Co-located with the 20th International Semantic Web Conference. 2021.
  8. Lehmann J. et al.: DBpedia - a large-scale, multilingual knowledge base extracted from Wikipedia. Semantic Web Journal. 2013. Vol. 6. No. 2. doi: 10.3233/SW-140134.
  9. Lenat D.B. CYC a large-scale investment in knowledge infrastructure.Communications of the ACM. 1995. Vol. 38. No. 11. Pp. 33-38. doi: 10.1145/219717.219745.
  10. Levenshtein V. Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady. 1966. Vol. 10. No. 8. Pp. 707-710.
  11. Paulheim H. Knowledge graph refinement a survey of approaches and evaluation methods. Semantic Web. 2016. Vol. 8. No. 3. Pp. 489-508. doi: 10.3233/SW-160218.
  12. Paulheim H., Ponzetto S.P. Extending DBpedia with Wikipedia list pages. Proceedings of the 2013th International Conference on NLP & DBpedia. 2013. No. 1064. Pp. 85-90.
  13. seatgeek/fuzzywuzzy [Electronic resource]. URL: https://github.com/seatgeek/fuzzywuzzy (access date: 27.01.2022).
  14. Shenoy K. et al. A study of the quality of Wikidata. arXiv. 2021.
  15. Shi L., Mihalcea R. Putting pieces together combining FrameNet, VerbNet and WordNet for robust semantic parsing. Lecture Notes in Computer Science. 2005. No. 3406. Pp. 100-111. doi: 10.1007/978-3-540-30586-6_9.
  16. Suchanek F.M., Kasneci G., Weikum G. YAGO a core of semantic knowledge unifying WordNet and Wikipedia. Proceedings of the 16th International Conference on World Wide Web. 2007. Pp. 697-706. doi: 10.1145/1242572.1242667.
  17. Thornton K. et al. Modeling the domain of digital preservation in Wikidata. Proceedings of ACM International Conference on Digital Preservation. 2017.
  18. Toloka [Electronic resource]. URL: https://toloka.yandex.ru/(access date: 12.02.2022).
  19. Valle E.D., Ceri S. Querying the semantic Web SPARQL. In: Handbook of semantic Web Technologies. J. Domingue, D. Fensel, J.A. Hendler (eds). 2011. doi: 10.1007/978-3-540-92913-0_8.
  20. Vrandečić D., Krötzsch M. Wikidata a free collaborative knowledge base.Communications of the ACM 57. 2014. No. 10. Pp. 78-85. doi: 10.1145/2629489.
  21. Zaveri A. et al. Quality assessment for Linked Data: A survey. Semantic Web. 2016. No. 7. Pp. 63-93. doi: 10.3233/SW-150175.
  22. Zaveri A. et al. User-driven quality evaluation of DBpedia. Proceedings of the 9th International Conference on Semantic Systems. 2013. Pp. 97-104. doi: 10.1145/2506182.2506195.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».