Сравнительный анализ систем хранения данных HDFS и Apache Ozone

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

За последние десятилетия значительно выросло не только количество цифровых данных в мире, но и способов их использования. Пионером и долгое время синонимом платформы для хранения и обработки больших данных являлась экосистема Hadoop, которая и по сей день активно используется во множестве крупнейших компаний. Однако, за почти 20 лет, прошедших с первого релиза Hadoop, был выявлен ряд существенных недостатков, такие как «проблема маленьких файлов» и неравномерное использование ресурсов кластеров. Во многих коммерческий и исследовательских организациях встает вопрос о модернизации стека работы с данными для повышения утилизации ресурсов и расширения возможностей для эффективной работы с данными. Цель данной работы – продемонстрировать достоинства и недостатки хранилища данных нового поколения – Apache Ozone и сделать вывод о готовности технологии для полноценной замены распределенной файловой системы Hadoop (HDFS).

Об авторах

Кирилл Олегович Иевлев

Московский технический университет связи и информатики

Автор, ответственный за переписку.
Email: ievlev.k.o@yandex.ru
ORCID iD: 0009-0003-2723-3154
SPIN-код: 1380-5720
ResearcherId: IAN-1730-2023

аспирант, ассистент кафедры математической кибернетики и информационных технологий

Россия, Москва

Михаил Геннадьевич Городничев

Московский технический университет связи и информатики

Email: m.g.gorodnichev@mtuci.ru
ORCID iD: 0000-0003-1739-9831
SPIN-код: 4576-9642
Scopus Author ID: 55836031600
ResearcherId: D-3256-2019

кандидат технических наук, доцент, заведующий кафедры математической кибернетики и информационных технологий, декан факультета информационных технологий

Россия, Москва

Список литературы

  1. Aggarwal R., Verma J., Siwach M. Small files’ problem in Hadoop: A systematic literature review. Journal of King Saud University “Computer and Information Sciences”. 2022. No. 34 (10). Part A. Pp. 8658–8674. doi: 10.1016/j.jksuci.2021.09.007.
  2. Harby A.A., Zulkernine F. From data warehouse to lakehouse: A comparative review. In: IEEE International Conference on Big Data (Big Data). Osaka, 2022. Pp. 389–395. doi: 10.1109/BigData55660.2022.10020719.
  3. Jain E.P., Gupta E.A. Hadoop architecture and its issues. International Journal of Engineering Research and General Science. 2017. No. 5 (2). Pp. 211–217. doi: 10.1109/CSCI.2014.140.
  4. Niazi S., Ismail M., Haridi S. et al. HopsFS: Scaling Hierarchical File System Metadata Using NewSQL Databases. In: 15th USENIX Conference on File and Storage Technologies (FAST 17). USENIX Association, 2017. Pp. 89–104. doi: 10.48550/arXiv.1606.01588.
  5. Sharma G., Tripathi V., Srivastava A. Recent trends in Big Data ingestion tools: A study. In: Research in Intelligent and Computing in Engineering, Springer, 2021. Pp. 873–881. doi: 10.1007/978-981-15-7527-3_83.
  6. Shvachko K. HDFS scalability: The limits to growth. Login Usenix Mag. 2010. No. 35. Pp. 6–16.
  7. White T. Hadoop: The definitive guide. 4 ed. O’Reilly Media, Inc., 2015. 754 p.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Схема взаимодействия компонентов Apache Ozone

Скачать (76KB)
3. Рис. 2. Организация хранения объектов в Apache Ozone

Скачать (98KB)
4. Рис. 3. Результат тестирования скорости записи файлов размером 1 Кб (файлов/с)

Скачать (59KB)
5. Рис. 4. Результат тестирования скорости чтения файлов размером 1 Кб (файлов/с)

Скачать (77KB)
6. Рис. 5. Результат тестирования скорости записи файлов размером 20 Мб (файлов/с)

Скачать (78KB)
7. Рис. 6. Результат тестирования скорости чтения файлов размером 20 Мб (файлов/с)

Скачать (80KB)


Ссылка на описание лицензии: https://www.urvak.ru/contacts/

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».