УПРАВЛЕНИЕ КАЧЕСТВОМ ДАННЫХ ПРИ РЕШЕНИИ ЗАДАЧ В ИССЛЕДОВАТЕЛЬСКИХ ИНФРАСТРУКТУРАХ НАД НЕОДНОРОДНЫМИ ИСТОЧНИКАМИ ДАННЫХ

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Решение задач на основе доступных научных данных, особенно в контексте открытой науки и исследовательских инфраструктур, должно обеспечивать возможность их многократного повторного использования. Показатели качества данных являются важными характеристиками, влияющими не только на точность методов при решении исследовательских задач, но и на оценку пригодности данных, возможность решения конкретных научных задач, выбор методов работы с данными, их совместимость, возможность отождествления объектов и другие аспекты повторного использования. При этом требуется оценка различных показателей качества данных на разных уровнях агрегации – от целых наборов данных до отдельных значений. Вданном исследовании представлен подход к комплексному управлению качеством данных на основе их спецификаций, а также требований к качеству данных и метаданных. Обсуждаются различные показатели оценки качества данных, включая точность, полноту и происхождение. Разработанный подход применен на примере решения задач с использованием множественных источников данных в области звездной астрономии.

Об авторах

Н. А СКВОРЦОВ

Федеральный исследовательский центр «Информатика и управление» РАН

Email: nskv@mail.ru
Москва

Список литературы

  1. Wand Y., Wang R. Anchoring data quality dimensions in ontological foundations // Communications of the ACM. New York: ACM, 1996. V. 39. No. 11. P. 86–95.
  2. Ballou D., Pazer H. Modeling data and process quality in multi-input, multioutput information systems // Management Sci. 1985. V. 31. No. 2. P. 150–162. https://doi.org/10.1287/mnsc.31.2.150
  3. Wang R., Strong D. Beyond accuracy: What data quality means to data consumers // J. Management Inform. Syst. 1996. V. 12. No. 4. P. 5–33. URL: http://www.jstor.org/stable/40398176
  4. Batini C., Scannapieco M. Data quality: concepts, methodologies and techniques. Heidelberg: Springer, 2006. 262 p. https://doi.org/10.1007/3-540-33173-5
  5. ГОСТ Р 56214-2014. Качество данных. Часть 1. Обзор. М.: Стандартинформ, 2015.
  6. ГОСТ Р 57773-2017. Пространственные данные. Качество данных. М.: Стандартинформ, 2017.
  7. Wilkinson M., Dumontier M., Aalbersberg I., et al. The FAIR Guiding principles for scientific data management and stewardship // Sci. Data 2016. V. 3. Article 160018. https://doi.org/10.1038/sdata.2016.18
  8. FAIR data maturity model. Specification and guidelines. Version 1.0. RDA FAIR Data Maturity Model Working Group. Geneva: Zenodo, 2020. https://doi.org/10.15497/rda00050
  9. FAIRsFAIR. Fostering FAIR Data Practices in Europe. URL: https://www.fairsfair.eu/
  10. Devaraju A., Mokrane M., Cepinskas L., et al. From conceptualization to implementation: FAIR Assessment of Research Data Objects // Data Sci. J. 2021. V. 20. No. 1. Article 4. https://doi.org/10.5334/dsj-2021-004
  11. The FAIR cookbook for FAIR doers. URL: https://faircookbook.elixir-europe.org/
  12. Harrow J., Drysdale R., Smith A., et al. ELIXIR: providing a sustainable infrastructure for life science data at European scale // Bioinformatics. Oxford: Oxford University, 2021. V. 37. No. 16. P. 2506–2511. https://doi.org/10.1093/bioinformatics/btab481
  13. ELIXIR Platforms. URL: https://elixir-europe.org/platforms
  14. Recommendations from the Data Quality Working Group. NASA ES DSWG, 2019. URL: https://www.earthdata.nasa.gov/esdis/esco/standards-andpractices/recommendations-from-the-data-quality-working-group
  15. Data Quality Working Group’s comprehensive recommendations for data producers and distributors. NASA ES DSWG, 2019. URL: https://www.earthdata.nasa.gov/s3fs-public/imported/ESDS-RFC-033.pdf
  16. ESIP Information Quality Cluster. Earth Science Information Partners (ESIP). URL: http://wiki.esipfed.org/index.php/Information_Quality
  17. Peng G., Privette J., Kearns E., et al. A unified framework for measuring stewardship practices applied to digital environmental datasets // Data Sci. J. 2015. V. 13. No. 2. P. 231–253. https://doi.org/10.2481/dsj.14-049
  18. ISO 19157-1:2023 Geographic information - Data quality. Part 1. General requirements. Geneva: ISO, 2023. URL: https://www.iso.org/standard/78900.html
  19. Sirotnak C., Cook J. The total economic impact of Talend. Cost savings and business benefits enabled by Talend Solutions. Cambridge: Forrester, 2023. URL: https://www.talend.com/lp/the-total-economic-impact-of-talend/
  20. Chien M., Medd J. Magic Quadrant for Augmented Data Quality Solutions. Stamford: Gartner, 2024. URL: https://www.gartner.com/en/documents/5257863
  21. Furber C. Data quality management with semantic technologies. Thesis. Wiesbaden: Springer Gabler, 2016. https://doi.org/10.1007/978-3-658-12225-6
  22. Berners-Lee T., Hendler J., Lassila O. The Semantic Web // Scientific American 2001. V. 284. No. 5. P. 34–43. URL: https://www.jstor.org/stable/26059207
  23. Cyganiak R., Wood D., Lanthaler M. (eds.). RDF 1.1 Concepts and Abstract Syntax. W3C Recommendation. Wakefield: W3C, 2014. URL: http://www.w3.org/TR/rdf11-primer/
  24. Furber C., Hepp M. Towards a vocabulary for data quality management in Semantic Web architectures // Proceedings of the 1st International Workshop on Linked Web Data Management (LWDM2011). New York: ACM, 2011. P. 1–8. https://doi.org/10.1145/1966901.1966903
  25. Hartig O., Zhao J. Provenance Vocabulary Core Ontology Specification. San Diego: SourceForge, 2012. URL: https://trdf.sourceforge.net/provenance/ns.html
  26. Taleb I., Taleb, Serhani M., Bouhaddioui C., et al. Big data quality framework: a holistic approach to continuous quality management // J. of Big Data 2021. V. 8. Article 76. https://doi.org/10.1186/s40537-021-00468-0
  27. Gallo R. Data quality with FAIR principles, an introduction. The Hyve, 2024. URL: https://www.thehyve.nl/articles/data-quality-with-fair-principles
  28. Skvortsov N. The principles of data reuse in research infrastructures // Proceedings of the International Conference Common Digital Space of Scientific Knowledge: Problems and Solutions (CDSSK 2020). Aachen: CEUR WS, 2021. V. 2990. P. 62–74. URL: https://ceur-ws.org/Vol-2990/rpaper6.pdf
  29. PROV-Overview: An overview of the PROV family of documents. W3C Working Group Note. Wakefield: W3C, 2013. URL: http://www.w3.org/TR/prov-overview/
  30. Data on the Web Best Practices: Data quality vocabulary. W3C Working Group Note. Wakefield: W3C, 2016. URL: https://www.w3.org/TR/vocab-dqv/
  31. Albertoni R., Isaac A. (eds.). Data catalog vocabulary (DCAT), Version 3. W3C Recommendation. Wakefield: W3C, 2024. URL: https://www.w3.org/TR/vocab-dcat/
  32. Alam S., Albareti F., Prieto C., et al. The eleventh and twelfth data releases of the Sloan Digital Sky Survey: Final data from SDSS-III // Astrophys. J. Suppl. Ser. 2015. V. 219. No. 1. P. 12. https://doi.org/10.1088/0067-0049/219/1/12
  33. Lawrence A., Warren S., Almaini O., et al. The UKIRT Infrared Deep Sky Survey (UKIDSS) // Mon. Not. R. Astron. Soc. 2007. V. 379. No. 4. P. 1599–1617. https://doi.org/10.1111/j.1365-2966.2007.12040.x
  34. Bianchi L., Herald J., Efremova B., et al. GALEX catalogs of UV sources: statistical properties and sample science applications: hot white dwarfs in the Milky Way // Astrophys. Space Sci. 2011. V. 335. No. 1. P. 161–169. https://doi.org/10.1007/s10509-010-0581-x
  35. Bianchi L., Shiao B., Thilker D. Revised catalog of GALEX ultraviolet sources. I. The All-Sky Survey: GUVcat_AIS // Astrophys. J. Suppl. Ser. 2017. V. 230. No. 2. P. 24. https://doi.org/10.3847/1538-4365/aa7053
  36. Malkov O., Dluzhnevskaya O., Karpov S., et al. Cross catalogue matching with Virtual Observatory and parameterization of stars // Open Astronomy 2012. V. 21. No. 3. P. 319–330. https://doi.org/10.1515/astro-2017-0390
  37. Gray J., Szalay A., Budavari T., et al. Cross-Matching Multiple Spatial Observations and Dealing with Missing Data. Microsoft Technical Report, MSR-TR-2006-175. Redmond: Microsoft Research, 2006. https://doi.org/10.48550/arXiv.cs/0701172

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Российская академия наук, 2025

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».