Біріктіру алгоритмі - K-way merge algorithm

Жылы Информатика, к-қосылу алгоритмдері немесе көпірлік біріктіру - бұл нақты түрі біріктіру алгоритмдері k сұрыпталған тізімдерді қабылдауға және оларды бір сұрыпталған тізімге біріктіруге мамандандырылған. Бұл біріктіру алгоритмдері, әдетте, екіден үлкен сұрыпталған тізімдерді қабылдайтын біріктіру алгоритмдеріне сілтеме жасайды. Екі жақты бірігуді екілік біріктіру деп те атайды.

2 жақты біріктіру

Екі жақты бірігу немесе екілік бірігу маңызды рөлге байланысты жан-жақты зерттелген біріктіру сұрыптау. Бұған мысалға классикалық бірігуді біріктіру сұрыптау мысалдарында жиі кездеседі. Классикалық біріктіру деректер элементін әр қадамда ең төменгі кілтпен шығарады; кейбір сұрыпталған тізімдерді ескере отырып, кез-келген кіріс тізіміндегі барлық элементтерді қамтитын сұрыпталған тізімді жасайды және оны кіріс тізімінің ұзындығының қосындысына пропорционалды түрде жасайды.

Өсу ретімен сұрыпталған екі массивті A [1..p] және B [1..q] деп белгілеңіз, бұдан әрі шығатын жиымды С [1..n] деп белгілеңіз, канондық 2-жақты біріктіру алгоритмі[1] i, j және k индекстерін сәйкесінше A, B және C-ге сақтайды.Бастапқыда бұл индекстер бірінші элементті білдіреді, яғни 1. Егер A [i]

к-қосылу

The к-way біріктіру есебі бірдей элементтері бар бір сұрыпталған массивті құру үшін k сұрыпталған массивтерді біріктіруден тұрады. элементтердің жалпы санына n-ге мән беріңіз.n шығару массивінің өлшеміне және k кіріс өлшемдерінің қосындысына тең. Қарапайымдылық үшін біз енгізу массивтерінің ешқайсысы бос емес деп санаймыз , бұл есеп берілген жұмыс уақытын жеңілдетеді, мәселені шешуге болады жұмыс уақыты Осы жұмыс уақытына жететін бірнеше алгоритмдер бар.

Итеративті 2 жақты біріктіру

Есепті k массивтерінің екеуін екі жақты біріктіруді пайдаланып, тек бір массив қалғанға дейін қайталау арқылы шешу арқылы шешуге болады. Егер массивтер ерікті тәртіпте біріктірілсе, онда жұмыс уақыты тек O (kn) құрайды. Бұл оңтайлы емес.

Жұмыс уақытын итеративті түрде біріншісін екіншісіне, үшіншісін төртіншісіне және т.б. қосу арқылы жақсартуға болады. Әр қайталану кезінде массивтер саны екі есе азайтылатын болғандықтан, тек Θ (log k) қайталаулар болады. Әр қайталану кезінде әрбір элемент дәл бір рет қозғалады. Сондықтан бір қайталану кезіндегі жұмыс уақыты Θ (n) тең болады, өйткені n - элементтер саны. Жалпы жұмыс уақыты Θ (n log k) құрайды.

Осы алгоритмді екі қысқа массивті қайталап біріктіру арқылы одан әрі жетілдіре аламыз. Бұл жұмыс уақытын барынша азайтып, алдыңғы параграфта сипатталған стратегиядан жаман болмайтыны анық. Сондықтан жұмыс уақыты O (n log k). Бақытымызға орай, шекаралық жағдайларда жұмыс уақыты жақсы болуы мүмкін. Мысалы, бір массивтен басқасында тек бір ғана элемент болатын деградациялық жағдайды қарастырайық. Алдыңғы параграфта түсіндірілген стратегияға Θ (n log k) уақыт қажет, ал жақсартылғанға Θ (n) жұмыс уақыты қажет.

Тікелей к-қосылу

Бұл жағдайда біз бір уақытта k-run-ді біріктіретін едік.

Тікелей іске асыру минимумды анықтау үшін барлық k массивтерін сканерлейді, бұл тікелей іске қосу Θ (kn) жұмыс уақытына әкеледі. Бұл тек талқылау үшін мүмкіндік ретінде айтылғанын ескеріңіз. Бұл жұмыс істейтін болса да, тиімді емес.

Мұны ең кішкентай элементті жылдамырақ есептеу арқылы жақсартуға болады үйінділер, турнир ағаштары немесе ағаштар, ең кіші элементті O (log k) уақытында анықтауға болады, нәтижесінде жұмыс уақыты O (n log k) болады.

Үйме көбінесе турнир ағашы тәжірибеде жылдамырақ болғанымен қолданылады. Үйме әр қадамда шамамен 2 * log (k) салыстыруды қолданады, өйткені ол ағашты тамырдан түбіне дейін өңдейді және әр түйіннің екі баласын да салыстыру қажет. Сонымен қатар, турнир ағашы тек журналды (k) салыстыруды қажет етеді, себебі ол ағаштың түбінен басталып, тамырына дейін жұмыс істейді, әр қабатта бір ғана салыстыру жасайды. Сондықтан, турнир ағашы ең жақсы іске асырылуы керек.

Үйме

Идеясы k тізімдерінің мин-үйіндісін сақтау болып табылады, олардың әрқайсысы олардың ең кіші ток элементімен белгіленеді. Қарапайым алгоритм үйіндіден шығатын буферді құрайды. Әр түйін тізімнің бас элементінен, ал қалғандарынан (немесе құйрығынан) тұратын мин-түйіндерді құрудан бастаңыз. Тізімдер бастапқыда сұрыпталғандықтан, бас әр тізімнің ең кіші элементі болып табылады; үйінді сипаты түбірде барлық тізімдерде ең аз элемент болатынына кепілдік береді. Түбір түйінін үйіндіден шығарып, бас элементін шығыс буферіне қосып, құйрығынан жаңа түйін жасап, оны үйіндіге салыңыз. Үйіндіде тек бір түйін қалғанша қайталаңыз, ол кезде сол қалған тізімді (бас және құйрық) шығыс буферіне қосыңыз.

Көрсеткіштерді қолдану, үйінді алгоритмі [2]Бастапқыда бұл көрсеткіштер енгізу массивінің ең кіші элементтерін көрсетеді, көрсеткіштер олар көрсеткен мән бойынша сұрыпталады, O (k) алдын-ала өңдеу сатысында үйінді көмегімен жасалады. Осыдан кейін алгоритм түбір меңзегіші көрсеткен элементті итеративті түрде тасымалдайды, осы көрсеткішті жоғарылатады және түбір элементіне стандартты төмендету батырмасының процедурасын орындайды, ұлғайту кілтінің процедурасының жұмыс уақыты O-мен шектеледі (log k N элемент болғандықтан, жалпы жұмыс уақыты O (n log k) болады.

Кілтті ауыстыру және азайту батырмасын немесе елеуді қайталау операциясына C ++ stl және Java сияқты көптеген кезек кезек кітапханалары қолдау көрсетпейтінін ескеріңіз. Экстрак-мин және кірістіру функциясын орындау онша тиімді емес.

Турнир ағашы

Турнир ағашы

Турнир ағашы [3] спорттан табуға болатын сияқты, турнирлерді жоюға негізделген. Әр ойында енгізу элементтерінің екеуі жарысады. Жеңімпаз келесі кезеңге шығарылады. Сондықтан, біз a екілік ағаш ойындар. Тізім өсу ретімен сұрыпталады, сондықтан ойынның жеңімпазы екі элементтің кішісі болып табылады.

Жоғалған ағаш

Біріктіру үшін әр ойында тек жеңілгенді сақтау тиімді (суретті қараңыз). Деректер құрылымы сондықтан ұтылған ағаш деп аталады. Ағашты тұрғызғанда немесе оның тізімінен келесі элементті ауыстырғанда, біз ойын жеңімпазын жоғары деңгейге көтереміз. Ағаш спорттық матчтағыдай толтырылған, бірақ түйіндер тек жеңілгенді сақтайды. Әдетте, түбірдің үстінен жалпы жеңімпазды білдіретін қосымша түйін қосылады. Әрбір парақ көрсеткішті енгізу массивінің біріне сақтайды. Әрбір ішкі түйін мән мен индексті сақтайды. Ішкі түйіннің индексі мән қандай кіріс массивінен шыққанын көрсетеді. Мән сәйкес кіріс жиымының бірінші элементінің көшірмесін қамтиды.

Алгоритм нәтижеге минималды элементті қайталап қосады, содан кейін элементті тиісті енгізу тізімінен алып тастайды. Ол жаңартылған жапырақтан тамырға дейінгі жолдағы түйіндерді жаңартады (ауыстыруды таңдау). Жойылған элемент - жалпы жеңімпаз. Сондықтан, ол кіріс массивтен түбірге дейінгі жолда әр ойында жеңіске жетті. Кіріс массивінен жаңа элементті таңдағанда, элемент тамырға жету жолында алдыңғы жеңілгендермен бәсекелесуі керек. Ұтылған ағашты қолданған кезде ойындарды қайта ойнауға арналған серіктес түйіндерде сақталады. Әрбір қайталанатын ойынның ұтылғаны түйінге жазылады және жеңімпаз қайталанбалы түрде жоғарыға көтеріледі. Түбірге жеткенде жаңа жалпы жеңімпаз табылды және оны келесі біріктіру кезеңінде пайдалануға болады.

Осы бөлімдегі турнир ағашы мен ұтылған ағаштың суреттері бірдей деректерді пайдаланады және оларды жоғалтқан ағаштың жұмысын түсіну үшін салыстыруға болады.

Алгоритм

Турнир ағашын тепе-теңдік екілік ағаш ретінде көрсетуге болады, бұл тізімге қарауылдарды қосу арқылы және тізімдер саны екіге тең болғанша тізімдер қосу арқылы жүзеге асырылады. Теңдестірілген ағашты бір массивте сақтауға болады. Ата-аналық элементке ағымдағы индексті екіге бөлу арқылы жетуге болады.

Жапырақтың біреуі жаңартылған кезде жапырақтан тамырға дейінгі барлық ойындар ойнатылады. Келесіде псевдокод, массивтің орнына нысанға бағытталған ағаш қолданылады, өйткені оны түсіну оңай. Сонымен қатар, біріктірілетін тізімдердің саны екінің дәрежесі ретінде қабылданады.

функциясы біріктіру (L1,…, Ln) buildTree (L1,…, Ln бастары) уақыт ағашта жеңімпаз элементтері бар: = ағаш.жеңімшінің нәтижесі жеңімпаз.мәні жаңа: = жеңімпазы.дех.кейінгі қайталауОйындар (жеңімпаз, жаңа) // Ауыстыруды таңдау
функциясы replayGames (түйін, жаңа) жеңілген, жеңімпаз: = playGame (түйін, жаңа) түйін.мән: = loser.value түйін.index: = loser.index егер түйін! = root replayGames (түйін. ата-ана, жеңімпаз)
функциясы buildTree (elements) nextLayer: = жаңа Array () уақыт элементтер бос емес el1: = elements.take () el2: = elements.take () ұтылған, жеңімпаз: = playGame (el1, el2) parent: = new node (el1, el2, loser) nextLayer.add (parent) егер nextLayer.size == 1 қайту nextLayer // тек түбір басқа        қайту buildTree (nextLayer)
Жүгіру уақыты

Басында ағаш алдымен Θ (k) уақытында жасалады. Біріктірудің әр сатысында жаңа элементтен тамырға дейінгі жолдағы ойындарды ғана қайта ойнату қажет. Әр қабатта тек бір ғана салыстыру қажет. Ағаш теңдестірілген болғандықтан, енгізу массивтерінің бірінен түбірге дейінгі жол тек Θ (log k) элементтерден тұрады. Барлығы тасымалдау қажет n элемент бар. Алынған жалпы жұмыс уақыты Θ (n log k) құрайды. [3]

Мысал

Келесі бөлімде ауыстыруды таңдау қадамына арналған егжей-тегжейлі мысал және бірнеше ауыстыруды таңдаудан тұратын толық біріктіруге арналған мысал келтірілген.

Ауыстыруды таңдау

Ойындар төменнен жоғарыға қарай қайта ойнатылады. Ағаштың әр қабатында түйіннің қазіргі сақталған элементі және төмендегі қабаттан берілген элемент бәсекелеседі. Жеңімпаз біз жаңа жалпы жеңімпаз тапқанға дейін жоғарылатылады. Жеңілген ағаштың түйінінде сақталады.

Ауыстыруды таңдау мысалы
ҚадамӘрекет
1Жапырақ 1 (жалпы жеңімпаз) енгізу тізімінен келесі элемент 9-ға ауыстырылады.
29 мен 7 ойынын қайталау (алдыңғы жеңілген). 7 ұтады, себебі ол кішірек. Демек, 7 жоғарғы деңгейге көтеріледі, ал 9 түйінде сақталады.
37 мен 3 ойынын қайталау (алдыңғы жеңілген). 3 ұтады, себебі ол кішірек. Сондықтан 3 жоғарғы деңгейге көтеріледі, ал 7 түйінде сақталады.
43-тен 2-ге дейінгі ойынды қайталау (алдыңғы жеңілген). 2 ұтады, себебі ол кішірек. Сондықтан, 2 жоғарыға көтеріледі, ал 3 түйінде сақталады.
5Жаңа жеңімпаз 2 түбірден жоғары сақталады.
Біріктіру

Біріктіруді орындау үшін жалпы ең кіші элемент келесі енгізу элементімен бірнеше рет ауыстырылады. Осыдан кейін шыңға ойындар қайта ойнатылады.

Бұл мысалда кіріс ретінде төрт сұрыпталған массив қолданылады.

{2, 7, 16}{5, 10, 20}{3, 6, 21}{4, 8, 9}

Алгоритм әр енгізу тізімінің бастарынан басталады. Осы элементтерді қолданып, жеңілгендердің екілік ағашы салынады. Біріктіру үшін ең төменгі тізім элементі 2 ағаштың жоғарғы жағындағы жалпы минималды элементті қарап анықталады. Содан кейін бұл мән алынып тасталады және оның парағы кіріс тізіміндегі келесі мәнмен 7-ге толтырылады. Шыңға шығатын ойындар ауыстыру таңдау туралы алдыңғы бөлімдегідей қайталанады. Алынған келесі элемент - 3. Тізімдегі келесі мәннен бастап, 6, ойындар түбірге дейін қайта ойнатылады. Бұл ағаштың минимумы шексіздікке тең болғанша қайталанады.

Бүкіл алгоритм бойынша көрнекілік

Төменгі жұмыс уақыты

Бірде-бір салыстыруға негізделген емес екенін көрсетуге болады к-way біріктіру алгоритмі O (nf (k)) жұмыс уақытында болады, мұнда f логарифмге қарағанда асимптотикалық түрде баяу өседі. (Дизайндық диапазондар сияқты қалаулы үлестірімдері бар мәліметтерді қоспағанда) .Салыстыру негізінде сұрыптаудан тура қысқарту дәлелі болып табылады. Осындай алгоритм болған делік, біз салыстыру негізінде сұрыптау алгоритмін O (nf (n)) жұмыс уақытымен құра аламыз делік: Енгізілген жиымды 1 өлшемді n жиымға кесіңіз. Осы n массивтерді к-way біріктіру алгоритмі. Нәтижесінде жиым сұрыпталған және алгоритмнің O (nf (n)) жұмыс уақыты бар.Бұл белгілі нәтижеге қайшылық, бұл салыстыру негізінде сұрыптау алгоритмі нашар жұмыс уақыты төмен болады O (n log n) бар.

Сыртқы сұрыптау

к-way бірігу сыртқы сұрыптау процедураларында қолданылады.[4] Сыртқы сұрыптау алгоритмдері үлкен көлемдегі мәліметтерді өңдей алатын сұрыптау алгоритмдерінің класы. Сыртқы сұрыптау сұрыпталатын мәліметтер есептеу құрылғысының негізгі жадына сыймаған кезде қажет (көбінесе жедел жады) және оның орнына олар баяу сыртқы жадта орналасуы керек (әдетте қатты диск). к-қосылу алгоритмдері, әдетте, сыртқы сұрыптау алгоритмдерінің екінші сатысында жүреді, мысалы, біріктіру сұрыптауы сияқты.

Көп жолды біріктіру жадтан тыс файлдарды екілік біріктіруге қарағанда аз өтуде біріктіруге мүмкіндік береді. Егер біріктіруді қажет ететін 6 жүгіру болса, екілік біріктіру үшін 6 біріктірудің жалғыз біріктіру өтуінен айырмашылығы 3 біріктіру өтуі керек. Біріктірудің төмендеуі, әдетте, бірінші кезекте сұрыпталатын ақпараттың үлкен көлемін ескере отырып, өте үлкен жылдамдықты арттыруға мүмкіндік береді, сонымен қатар баяу жадқа қол жетімділікті азайтады.

Әдебиеттер тізімі

  1. ^ Томас Х. Кормен; Чарльз Э. Лейсерсон; Роналд Л. Ривест; Клиффорд Штайн (2001). Алгоритмдерге кіріспе. MIT түймесін басыңыз. 28-29 бет. ISBN  978-0-262-03293-3.
  2. ^ Бентли, Джон Луи (2000). Бағдарламалау маржандары (2-ші басылым). Аддисон Уэсли. 147–162 бет. ISBN  0201657880.
  3. ^ а б Кнут, Дональд (1998). «5.4.1 тарау. Көпірлікті біріктіру және ауыстыруды таңдау». Сұрыптау және іздеу. Компьютерлік бағдарламалау өнері. 3 (2-ші басылым). Аддисон-Уэсли. 252-255 бет. ISBN  0-201-89685-0.CS1 maint: ref = harv (сілтеме)
  4. ^ Шаффер, Клиффорд А. (2012-07-26). Мәліметтер құрылымы және алгоритмді талдау C ++, үшінші басылым. Courier Corporation. ISBN  9780486172620.