Academic Journal
Метод збільшення продуктивності Apache Spark на основі сегментування даних і налаштувань конфігураційних параметрів
العنوان: | Метод збільшення продуктивності Apache Spark на основі сегментування даних і налаштувань конфігураційних параметрів |
---|---|
المؤلفون: | Serhii Minukhin, Nikita Koptilov |
المصدر: | Сучасний стан наукових досліджень та технологій в промисловості, Iss 1(27) (2024) |
بيانات النشر: | Kharkiv National University of Radio Electronics, 2024. |
سنة النشر: | 2024 |
المجموعة: | LCC:Engineering economy |
مصطلحات موضوعية: | фреймворк, вхідний файл, сегментування, тестові дані, генератор даних, час виконання, конфігураційні параметри, Spark, Hadoop, MapReduce., Engineering economy, TA177.4-185 |
الوصف: | У використанні сучасних інструментів оброблення великих даних виникає проблема підвищення продуктивності сучасних фреймворків у контексті ефективного налаштування різних конфігураційних параметрів. Об’єктом дослідження є обчислювальні процеси оброблення великих даних із застосуванням технологій надпродуктивних фреймворків. Предметом є методи та підходи до ефективного налаштування конфігураційних параметрів фреймворків в умовах обмежень середовищ віртуалізації та локального ресурсу. Мета дослідження полягає в підвищенні продуктивності режимів розгортання Apache Spark та Apache Hadoop на основі комбінованого підходу, що містить передпроцесне сегментування вхідних даних та налаштування основних та додаткових конфігураційних параметрів з огляду на обмеження віртуального середовища та локального ресурсу. Досягнення поставленої мети передбачає виконання низки завдань: 1) створити синтезований набір тестових даних WordCount для використання методів сегментування вхідної інформації; 2) визначити склад загальних та специфічних конфігураційних параметрів Apache Spark та Apache Hadoop, що найбільше впливають на продуктивність роботи фреймворків у режимах розгортання Spark Standalone та Hadoop Yarn (FIFO); 3) обґрунтувати зміни значень конфігураційних параметрів (прийняті за замовчуванням) за допомогою налаштувань рівня паралелізму, кількості розбиттів вхідного файлу відповідно до кількості ядер процесора, кількості завдань, що призначаються на кожне ядро та виконавця в системі; 4) перевірити теоретичні результати та довести їх використання на практиці. У дослідженні впроваджено такі методи: статистичний аналіз; метод генерації тестових даних за визначеними характеристиками сегментування з довільними обсягами інформації; системний підхід для комплексного оцінювання та аналізу продуктивності фреймворків на основі обраних конфігураційних параметрів. Результати. На основі запропонованого методу вибору складу параметрів для оцінювання продуктивності досліджуваних фреймворків проведено експерименти, що передбачали: застосування методу сегментування вхідної інформації на основі розділення вхідного файлу на абзаци (рядки) для різних значень діапазонів кількості слів та кількості літер у кожному слові; налаштування основних параметрів та специфічних, зокрема партиціонування та паралелізму з огляду на характеристики віртуального середовища та локального ресурсу. За досягнутими результатами детально проаналізовано запропоновані методи, впроваджені для покращення продуктивності досліджуваних фреймворків із рекомендаціями вибору оптимальних значень параметрів сегментування даних та конфігураційних параметрів. Висновки. Упровадження запропонованих методів налаштування конфігураційних параметрів Spark та Hadoop дає змогу підвищити продуктивність оброблення даних: для невеликих файлів (0,5–1 ГБ) у середньому до 25–30%; для великих (1,5–2,5 ГБ) – у середньому до 10–20 %. Водночас середнє значення часу виконання одного завдання зменшилося на 10–15 % для файлів різних розмірів та з різною кількістю слів у рядку. |
نوع الوثيقة: | article |
وصف الملف: | electronic resource |
اللغة: | English Russian Ukrainian |
تدمد: | 2522-9818 2524-2296 |
Relation: | https://itssi-journal.com/index.php/ittsi/article/view/464; https://doaj.org/toc/2522-9818; https://doaj.org/toc/2524-2296 |
URL الوصول: | https://doaj.org/article/41e6cf92a81f4193baa6e505f8dda321 |
رقم الانضمام: | edsdoj.41e6cf92a81f4193baa6e505f8dda321 |
قاعدة البيانات: | Directory of Open Access Journals |
ResultId |
1 |
---|---|
Header |
edsdoj Directory of Open Access Journals edsdoj.41e6cf92a81f4193baa6e505f8dda321 1008 3 Academic Journal academicJournal 1008.00231933594 |
PLink |
https://search.ebscohost.com/login.aspx?direct=true&site=eds-live&scope=site&db=edsdoj&AN=edsdoj.41e6cf92a81f4193baa6e505f8dda321&custid=s6537998&authtype=sso |
FullText |
Array
(
[Availability] => 0
)
Array ( [0] => Array ( [Url] => https://doaj.org/article/41e6cf92a81f4193baa6e505f8dda321 [Name] => EDS - DOAJ [Category] => fullText [Text] => View record in DOAJ [MouseOverText] => View record in DOAJ ) ) |
Items |
Array
(
[Name] => Title
[Label] => Title
[Group] => Ti
[Data] => Метод збільшення продуктивності Apache Spark на основі сегментування даних і налаштувань конфігураційних параметрів
)
Array ( [Name] => Author [Label] => Authors [Group] => Au [Data] => <searchLink fieldCode="AR" term="%22Serhii+Minukhin%22">Serhii Minukhin</searchLink><br /><searchLink fieldCode="AR" term="%22Nikita+Koptilov%22">Nikita Koptilov</searchLink> ) Array ( [Name] => TitleSource [Label] => Source [Group] => Src [Data] => Сучасний стан наукових досліджень та технологій в промисловості, Iss 1(27) (2024) ) Array ( [Name] => Publisher [Label] => Publisher Information [Group] => PubInfo [Data] => Kharkiv National University of Radio Electronics, 2024. ) Array ( [Name] => DatePubCY [Label] => Publication Year [Group] => Date [Data] => 2024 ) Array ( [Name] => Subset [Label] => Collection [Group] => HoldingsInfo [Data] => LCC:Engineering economy ) Array ( [Name] => Subject [Label] => Subject Terms [Group] => Su [Data] => <searchLink fieldCode="DE" term="%22фреймворк%22">фреймворк</searchLink><br /><searchLink fieldCode="DE" term="%22вхідний+файл%22">вхідний файл</searchLink><br /><searchLink fieldCode="DE" term="%22сегментування%22">сегментування</searchLink><br /><searchLink fieldCode="DE" term="%22тестові+дані%22">тестові дані</searchLink><br /><searchLink fieldCode="DE" term="%22генератор+даних%22">генератор даних</searchLink><br /><searchLink fieldCode="DE" term="%22час+виконання%22">час виконання</searchLink><br /><searchLink fieldCode="DE" term="%22конфігураційні+параметри%22">конфігураційні параметри</searchLink><br /><searchLink fieldCode="DE" term="%22Spark%22">Spark</searchLink><br /><searchLink fieldCode="DE" term="%22Hadoop%22">Hadoop</searchLink><br /><searchLink fieldCode="DE" term="%22MapReduce%2E%22">MapReduce.</searchLink><br /><searchLink fieldCode="DE" term="%22Engineering+economy%22">Engineering economy</searchLink><br /><searchLink fieldCode="DE" term="%22TA177%2E4-185%22">TA177.4-185</searchLink> ) Array ( [Name] => Abstract [Label] => Description [Group] => Ab [Data] => У використанні сучасних інструментів оброблення великих даних виникає проблема підвищення продуктивності сучасних фреймворків у контексті ефективного налаштування різних конфігураційних параметрів. Об’єктом дослідження є обчислювальні процеси оброблення великих даних із застосуванням технологій надпродуктивних фреймворків. Предметом є методи та підходи до ефективного налаштування конфігураційних параметрів фреймворків в умовах обмежень середовищ віртуалізації та локального ресурсу. Мета дослідження полягає в підвищенні продуктивності режимів розгортання Apache Spark та Apache Hadoop на основі комбінованого підходу, що містить передпроцесне сегментування вхідних даних та налаштування основних та додаткових конфігураційних параметрів з огляду на обмеження віртуального середовища та локального ресурсу. Досягнення поставленої мети передбачає виконання низки завдань: 1) створити синтезований набір тестових даних WordCount для використання методів сегментування вхідної інформації; 2) визначити склад загальних та специфічних конфігураційних параметрів Apache Spark та Apache Hadoop, що найбільше впливають на продуктивність роботи фреймворків у режимах розгортання Spark Standalone та Hadoop Yarn (FIFO); 3) обґрунтувати зміни значень конфігураційних параметрів (прийняті за замовчуванням) за допомогою налаштувань рівня паралелізму, кількості розбиттів вхідного файлу відповідно до кількості ядер процесора, кількості завдань, що призначаються на кожне ядро та виконавця в системі; 4) перевірити теоретичні результати та довести їх використання на практиці. У дослідженні впроваджено такі методи: статистичний аналіз; метод генерації тестових даних за визначеними характеристиками сегментування з довільними обсягами інформації; системний підхід для комплексного оцінювання та аналізу продуктивності фреймворків на основі обраних конфігураційних параметрів. Результати. На основі запропонованого методу вибору складу параметрів для оцінювання продуктивності досліджуваних фреймворків проведено експерименти, що передбачали: застосування методу сегментування вхідної інформації на основі розділення вхідного файлу на абзаци (рядки) для різних значень діапазонів кількості слів та кількості літер у кожному слові; налаштування основних параметрів та специфічних, зокрема партиціонування та паралелізму з огляду на характеристики віртуального середовища та локального ресурсу. За досягнутими результатами детально проаналізовано запропоновані методи, впроваджені для покращення продуктивності досліджуваних фреймворків із рекомендаціями вибору оптимальних значень параметрів сегментування даних та конфігураційних параметрів. Висновки. Упровадження запропонованих методів налаштування конфігураційних параметрів Spark та Hadoop дає змогу підвищити продуктивність оброблення даних: для невеликих файлів (0,5–1 ГБ) у середньому до 25–30%; для великих (1,5–2,5 ГБ) – у середньому до 10–20 %. Водночас середнє значення часу виконання одного завдання зменшилося на 10–15 % для файлів різних розмірів та з різною кількістю слів у рядку. ) Array ( [Name] => TypeDocument [Label] => Document Type [Group] => TypDoc [Data] => article ) Array ( [Name] => Format [Label] => File Description [Group] => SrcInfo [Data] => electronic resource ) Array ( [Name] => Language [Label] => Language [Group] => Lang [Data] => English<br />Russian<br />Ukrainian ) Array ( [Name] => ISSN [Label] => ISSN [Group] => ISSN [Data] => 2522-9818<br />2524-2296 ) Array ( [Name] => NoteTitleSource [Label] => Relation [Group] => SrcInfo [Data] => https://itssi-journal.com/index.php/ittsi/article/view/464; https://doaj.org/toc/2522-9818; https://doaj.org/toc/2524-2296 ) Array ( [Name] => URL [Label] => Access URL [Group] => URL [Data] => <link linkTarget="URL" linkTerm="https://doaj.org/article/41e6cf92a81f4193baa6e505f8dda321" linkWindow="_blank">https://doaj.org/article/41e6cf92a81f4193baa6e505f8dda321</link> ) Array ( [Name] => AN [Label] => Accession Number [Group] => ID [Data] => edsdoj.41e6cf92a81f4193baa6e505f8dda321 ) |
RecordInfo |
Array
(
[BibEntity] => Array
(
[Languages] => Array
(
[0] => Array
(
[Text] => English
)
[1] => Array
(
[Text] => Russian
)
[2] => Array
(
[Text] => Ukrainian
)
)
[Subjects] => Array
(
[0] => Array
(
[SubjectFull] => фреймворк
[Type] => general
)
[1] => Array
(
[SubjectFull] => вхідний файл
[Type] => general
)
[2] => Array
(
[SubjectFull] => сегментування
[Type] => general
)
[3] => Array
(
[SubjectFull] => тестові дані
[Type] => general
)
[4] => Array
(
[SubjectFull] => генератор даних
[Type] => general
)
[5] => Array
(
[SubjectFull] => час виконання
[Type] => general
)
[6] => Array
(
[SubjectFull] => конфігураційні параметри
[Type] => general
)
[7] => Array
(
[SubjectFull] => Spark
[Type] => general
)
[8] => Array
(
[SubjectFull] => Hadoop
[Type] => general
)
[9] => Array
(
[SubjectFull] => MapReduce.
[Type] => general
)
[10] => Array
(
[SubjectFull] => Engineering economy
[Type] => general
)
[11] => Array
(
[SubjectFull] => TA177.4-185
[Type] => general
)
)
[Titles] => Array
(
[0] => Array
(
[TitleFull] => Метод збільшення продуктивності Apache Spark на основі сегментування даних і налаштувань конфігураційних параметрів
[Type] => main
)
)
)
[BibRelationships] => Array
(
[HasContributorRelationships] => Array
(
[0] => Array
(
[PersonEntity] => Array
(
[Name] => Array
(
[NameFull] => Serhii Minukhin
)
)
)
[1] => Array
(
[PersonEntity] => Array
(
[Name] => Array
(
[NameFull] => Nikita Koptilov
)
)
)
)
[IsPartOfRelationships] => Array
(
[0] => Array
(
[BibEntity] => Array
(
[Dates] => Array
(
[0] => Array
(
[D] => 01
[M] => 03
[Type] => published
[Y] => 2024
)
)
[Identifiers] => Array
(
[0] => Array
(
[Type] => issn-print
[Value] => 25229818
)
[1] => Array
(
[Type] => issn-print
[Value] => 25242296
)
)
[Numbering] => Array
(
[0] => Array
(
[Type] => issue
[Value] => 1(27)
)
)
[Titles] => Array
(
[0] => Array
(
[TitleFull] => Сучасний стан наукових досліджень та технологій в промисловості
[Type] => main
)
)
)
)
)
)
)
|
IllustrationInfo |