Academic Journal

Метод збільшення продуктивності Apache Spark на основі сегментування даних і налаштувань конфігураційних параметрів

التفاصيل البيبلوغرافية
العنوان: Метод збільшення продуктивності Apache Spark на основі сегментування даних і налаштувань конфігураційних параметрів
المؤلفون: Serhii Minukhin, Nikita Koptilov
المصدر: Сучасний стан наукових досліджень та технологій в промисловості, Iss 1(27) (2024)
بيانات النشر: Kharkiv National University of Radio Electronics, 2024.
سنة النشر: 2024
المجموعة: LCC:Engineering economy
مصطلحات موضوعية: фреймворк, вхідний файл, сегментування, тестові дані, генератор даних, час виконання, конфігураційні параметри, Spark, Hadoop, MapReduce., Engineering economy, TA177.4-185
الوصف: У використанні сучасних інструментів оброблення великих даних виникає проблема підвищення продуктивності сучасних фреймворків у контексті ефективного налаштування різних конфігураційних параметрів. Об’єктом дослідження є обчислювальні процеси оброблення великих даних із застосуванням технологій надпродуктивних фреймворків. Предметом є методи та підходи до ефективного налаштування конфігураційних параметрів фреймворків в умовах обмежень середовищ віртуалізації та локального ресурсу. Мета дослідження полягає в підвищенні продуктивності режимів розгортання Apache Spark та Apache Hadoop на основі комбінованого підходу, що містить передпроцесне сегментування вхідних даних та налаштування основних та додаткових конфігураційних параметрів з огляду на обмеження віртуального середовища та локального ресурсу. Досягнення поставленої мети передбачає виконання низки завдань: 1) створити синтезований набір тестових даних WordCount для використання методів сегментування вхідної інформації; 2) визначити склад загальних та специфічних конфігураційних параметрів Apache Spark та Apache Hadoop, що найбільше впливають на продуктивність роботи фреймворків у режимах розгортання Spark Standalone та Hadoop Yarn (FIFO); 3) обґрунтувати зміни значень конфігураційних параметрів (прийняті за замовчуванням) за допомогою налаштувань рівня паралелізму, кількості розбиттів вхідного файлу відповідно до кількості ядер процесора, кількості завдань, що призначаються на кожне ядро та виконавця в системі; 4) перевірити теоретичні результати та довести їх використання на практиці. У дослідженні впроваджено такі методи: статистичний аналіз; метод генерації тестових даних за визначеними характеристиками сегментування з довільними обсягами інформації; системний підхід для комплексного оцінювання та аналізу продуктивності фреймворків на основі обраних конфігураційних параметрів. Результати. На основі запропонованого методу вибору складу параметрів для оцінювання продуктивності досліджуваних фреймворків проведено експерименти, що передбачали: застосування методу сегментування вхідної інформації на основі розділення вхідного файлу на абзаци (рядки) для різних значень діапазонів кількості слів та кількості літер у кожному слові; налаштування основних параметрів та специфічних, зокрема партиціонування та паралелізму з огляду на характеристики віртуального середовища та локального ресурсу. За досягнутими результатами детально проаналізовано запропоновані методи, впроваджені для покращення продуктивності досліджуваних фреймворків із рекомендаціями вибору оптимальних значень параметрів сегментування даних та конфігураційних параметрів. Висновки. Упровадження запропонованих методів налаштування конфігураційних параметрів Spark та Hadoop дає змогу підвищити продуктивність оброблення даних: для невеликих файлів (0,5–1 ГБ) у середньому до 25–30%; для великих (1,5–2,5 ГБ) – у середньому до 10–20 %. Водночас середнє значення часу виконання одного завдання зменшилося на 10–15 % для файлів різних розмірів та з різною кількістю слів у рядку.
نوع الوثيقة: article
وصف الملف: electronic resource
اللغة: English
Russian
Ukrainian
تدمد: 2522-9818
2524-2296
Relation: https://itssi-journal.com/index.php/ittsi/article/view/464; https://doaj.org/toc/2522-9818; https://doaj.org/toc/2524-2296
URL الوصول: https://doaj.org/article/41e6cf92a81f4193baa6e505f8dda321
رقم الانضمام: edsdoj.41e6cf92a81f4193baa6e505f8dda321
قاعدة البيانات: Directory of Open Access Journals