Linux進(jìn)程調(diào)度時機(jī)
作者:李智敏,華清遠(yuǎn)見嵌入式學(xué)院上海中心講師。
Linux的調(diào)度程序是一個叫Schedule()的函數(shù),由它來決定是否要進(jìn)行進(jìn)程的切換。而所謂的調(diào)度時機(jī)則是在什么情況下執(zhí)行調(diào)度程序。
主要有一下幾種狀況:
1、進(jìn)程狀態(tài)轉(zhuǎn)換的時刻:進(jìn)程終止、進(jìn)程睡眠;
2、當(dāng)前進(jìn)程的時間片用完時(current->counter=0);
3、設(shè)備驅(qū)動程序
4、進(jìn)程從中斷、異常及系統(tǒng)調(diào)用返回到用戶態(tài)時;
時機(jī)1,進(jìn)程要調(diào)用sleep()或exit()等函數(shù)進(jìn)行狀態(tài)轉(zhuǎn)換,這些函數(shù)會主動調(diào)用調(diào)度程序進(jìn)行進(jìn)程調(diào)度;
時機(jī)2,由于進(jìn)程的時間片是由時鐘中斷來更新的,因此,這種情況和時機(jī)4是一樣的。
時機(jī)3,當(dāng)設(shè)備驅(qū)動程序執(zhí)行長而重復(fù)的任務(wù)時,直接調(diào)用調(diào)度程序。在每次反復(fù)循環(huán)中,驅(qū)動程序都檢查need_resched的值,如果必要,則調(diào)用調(diào)度程序schedule()主動放棄CPU。
時機(jī)4,如前所述,不管是從中斷、異常還是系統(tǒng)調(diào)用返回,最終都調(diào)用ret_from_sys_call(),由這個函數(shù)進(jìn)行調(diào)度標(biāo)志的檢測,如果必要,則調(diào)用調(diào)用調(diào)度程序。那么,為什么從系統(tǒng)調(diào)用返回時要調(diào)用調(diào)度程序呢?這當(dāng)然是從效率考慮。從系統(tǒng)調(diào)用返回意味著要離開內(nèi)核態(tài)而返回到用戶態(tài),而狀態(tài)的轉(zhuǎn)換要花費一定的時間,因此,在返回到用戶態(tài)前,系統(tǒng)把在內(nèi)核態(tài)該處理的事全部做完。
下面簡單看一下每個時鐘中斷發(fā)生時內(nèi)核要做的工作,首先對這個最頻繁的調(diào)度時機(jī)有一個大體了解,然后再詳細(xì)討論調(diào)度程序的具體工作過程。
每個時鐘中斷(timer interrupt)發(fā)生時,由三個函數(shù)協(xié)同工作,共同完成進(jìn)程的選擇和切換,它們是:schedule()、do_timer()及ret_form_sys_call()。
schedule():進(jìn)程調(diào)度函數(shù),由它來完成進(jìn)程的選擇(調(diào)度);
do_timer():暫且稱之為時鐘函數(shù),該函數(shù)在時鐘中斷服務(wù)程序中被調(diào)用,是時鐘中斷服務(wù)程序的主要組成部分,該函數(shù)被調(diào)用的頻率就是時鐘中斷的頻率即每秒鐘100次(簡稱100赫茲或100Hz);
ret_from_sys_call():系統(tǒng)調(diào)用返回函數(shù)。當(dāng)一個系統(tǒng)調(diào)用或中斷完成時,該函數(shù)被調(diào)用,用于處理一些收尾工作,例如信號處理、核心任務(wù)等等。
這三個函數(shù)是如何協(xié)調(diào)工作的呢?
時鐘中斷是一個中斷服務(wù)程序,它的主要組成部分就是時鐘函數(shù)do_timer(),由這個函數(shù)完成系統(tǒng)時間的更新、進(jìn)程時間片的更新等工作,更新后的進(jìn)程時間片counter作為調(diào)度的主要依據(jù)。
在時鐘中斷返回時,要調(diào)用函數(shù)ret_from_sys_call(),
在這個函數(shù)中有如下幾行:
cmpl $0, _need_resched
jne reschedule
……
reSTore_all:
RESTORE_ALL
reschedule:
call SYMBOL_NAME(schedule)
jmp ret_from_sys_call
這幾行的意思很明顯:檢測 need_resched 標(biāo)志,如果此標(biāo)志為非0,那么就轉(zhuǎn)到reschedule處調(diào)用調(diào)度程序schedule()進(jìn)行進(jìn)程的選擇。調(diào)度程序schedule()會根據(jù)具體的標(biāo)準(zhǔn)在運行隊列中選擇下一個應(yīng)該運行的進(jìn)程。當(dāng)從調(diào)度程序返回時,如果發(fā)現(xiàn)又有調(diào)度標(biāo)志被設(shè)置,則又調(diào)用調(diào)度程序,直到調(diào)度標(biāo)志為0,這時,從調(diào)度程序返回時由RESTORE_ALL恢復(fù)被選定進(jìn)程的環(huán)境,返回到被選定進(jìn)程的用戶空間,使之得到運行。
以上就是時鐘中斷這個最頻繁的調(diào)度時機(jī)。討論這個的主要目的是為了對時機(jī)4有個大致的了解。
最后要說明的是,系統(tǒng)調(diào)用返回函數(shù)ret_from_sys_call()是從系統(tǒng)調(diào)用、異常及中斷返回函數(shù)通常要調(diào)用的函數(shù),但并不是非得調(diào)用,對于那些要經(jīng)常被響應(yīng)的和要被盡快處理的中斷請求信號,為了減少系統(tǒng)開銷,處理完成后并不調(diào)用 ret_from_sys_call()(因為很顯然的,從這些中斷處理程序返回到的用戶空間肯定是那個被中斷的進(jìn)程,無需重新選擇),并且,它們作的工作要盡可能少,因為響應(yīng)的頻率太高了。
Linux 調(diào)度程序和其他的UNIX調(diào)度程序不同,尤其是在“nice level”優(yōu)先級的處理上,與優(yōu)先權(quán)調(diào)度(priority高的進(jìn)程最先運行)不同,Linux用的是時間片輪轉(zhuǎn)調(diào)度(Round Robing),但同時又保證了高優(yōu)先級的進(jìn)程運行的既快、時間又長(both sooner and longer)。而標(biāo)準(zhǔn)的UNIX調(diào)度程序都用到了多級進(jìn)程隊列。大多數(shù)的實現(xiàn)都用到了二級優(yōu)先隊列:一個標(biāo)準(zhǔn)隊列和一個實時(“real time”)隊列。一般情況下,如果實時隊列中的進(jìn)程未被阻塞,它們都要在標(biāo)準(zhǔn)隊列中的進(jìn)程之前被執(zhí)行,并且,每個隊列中,“nice level”高的進(jìn)程先被執(zhí)行。
總體上,Linux 調(diào)度序程在交互性方面表現(xiàn)很出色,當(dāng)然了,這是以犧牲一部分“吞吐量”為代價的。
“本文由華清遠(yuǎn)見http://www.embedu.org/index.htm提供”
華清遠(yuǎn)見





