在Linux的源代碼中,有很多C語言的函數(shù)中嵌入一段匯編語言程序段,這就是gcc提供的“asm”功能,例如在include/asm-i386/system.h中定義的,讀控制寄存器CR0的一個宏read_cr0():
#define read_cr0() ({ \
unsigned int __dummy; \
__asm__(\
"movl %%cr0,%0\n\t"\
:"=r" (__dummy));\
__dummy; \
})
這種形式看起來比較陌生,這是因為這不是標準C所定義的形式,而是gcc 對C語言的擴充。其中__dummy為C函數(shù)所定義的變量;關(guān)鍵詞__asm__表示匯編代碼的開始。括弧中第一個引號中為匯編指令movl,緊接著有一個冒號,這種形式閱讀起來比較復雜。
一般而言,嵌入式匯編語言片段比單純的匯編語言代碼要復雜得多,因為這里存在怎樣分配和使用寄存器,以及把C代碼中的變量應該存放在哪個寄存器中。為了達到這個目的,就必須對一般的C語言進行擴充,增加對編譯器的指導作用,因此,嵌入式匯編看起來晦澀而難以讀懂。
1. 嵌入式匯編的一般形式:
__asm__ __volatile__("<asm routine>" : output : input : modify);
其中,__asm__表示匯編代碼的開始,其后可以跟__volatile__(這是可選項),其含義是避免“asm”指令被刪除、移動或組合;然后就是小括弧,括弧中的內(nèi)容是我們介紹的重點:
· "<asm routine>"為匯編指令部分,例如,"movl%%cr0,%0\n\t"。數(shù)字前加前綴“%“,如%1,%2等表示使用寄存器的樣板操作數(shù)??梢允褂玫牟僮鲾?shù)總數(shù)取決于具體CPU中通用寄存器的數(shù)量,如Intel可以有8個。指令中有幾個操作數(shù),就說明有幾個變量需要與寄存器結(jié)合,由gcc在編譯時根據(jù)后面輸出部分和輸入部分的約束條件進行相應的處理。由于這些樣板操作數(shù)的前綴使用了”%“,因此,在用到具體的寄存器時就在前面加兩個“%”,如%%cr0。
· 輸出部分(output),用以規(guī)定對輸出變量(目標操作數(shù))如何與寄存器結(jié)合的約束(constraint),輸出部分可以有多個約束,互相以逗號分開。每個約束以“=”開頭,接著用一個字母來表示操作數(shù)的類型,然后是關(guān)于變量結(jié)合的約束。例如,上例中:
:"=r" (__dummy)
“=r”表示相應的目標操作數(shù)(指令部分的%0)可以使用任何一個通用寄存器,并且變量__dummy 存放在這個寄存器中,但如果是:
:“=m”(__dummy)
“=m”就表示相應的目標操作數(shù)是存放在內(nèi)存單元__dummy中。
表示約束條件的字母很多,表 2-5 給出幾個主要的約束字母及其含義:
表2.5 主要的約束字母及其含義
字母
含義
m, v,o
表示內(nèi)存單元
R
表示任何通用寄存器
Q
表示寄存器eax, ebx, ecx,edx之一
I, h
表示直接操作數(shù)
E, F
表示浮點數(shù)
G
表示“任意”
a, b.c d
表示要求使用寄存器eax/ax/al, ebx/bx/bl, ecx/cx/cl或edx/dx/dl
S, D
表示要求使用寄存器esi或edi
I
表示常數(shù)(0~31)
· 輸入部分(Input):輸入部分與輸出部分相似,但沒有“=”。如果輸入部分一個操作數(shù)所要求使用的寄存器,與前面輸出部分某個約束所要求的是同一個寄存器,那就把對應操作數(shù)的編號(如“1”,“2”等)放在約束條件中,在后面的例子中,我們會看到這種情況。
· 修改部分(modify):這部分常常以“memory”為約束條件,以表示操作完成后內(nèi)存中的內(nèi)容已有改變,如果原來某個寄存器的內(nèi)容來自內(nèi)存,那么現(xiàn)在內(nèi)存中這個單元的內(nèi)容已經(jīng)改變。
注意,指令部分為必選項,而輸入部分、輸出部分及修改部分為可選項,當輸入部分存在,而輸出部分不存在時,分號“:“要保留,當“memory”存在時,三個分號都要保留,例如system.h中的宏定義__cli():
#define __cli() __asm____volatile__("cli": : :"memory")
2. Linux源代碼中嵌入式匯編舉例
Linux源代碼中,在arch目錄下的.h和.c文件中,很多文件都涉及嵌入式匯編,下面以system.h中的C函數(shù)為例,說明嵌入式匯編的應用。
(1)簡單應用
#define __save_flags(x) __asm__ __volatile__("pushfl ;popl %0":"=g" (x): /* no input */)
#define__restore_flags(x) __asm____volatile__("pushl %0 ; popfl": /* no output */
:"g" (x):"memory","cc")
第一個宏是保存標志寄存器的值,第二個宏是恢復標志寄存器的值。第一個宏中的pushfl指令是把標志寄存器的值壓棧。而popl是把棧頂?shù)闹担▌倝喝霔5膄lags)彈出到x變量中,這個變量可以存放在一個寄存器或內(nèi)存中。這樣,你可以很容易地讀懂第二個宏。
(2) 較復雜應用
static inline unsigned longget_limit(unsigned long segment)
{
unsigned long __limit;
__asm__("lsll %1,%0"
:"=r"(__limit):"r" (segment));
return __limit+1;
}
這是一個設(shè)置段界限的函數(shù),匯編代碼段中的輸出參數(shù)為__limit(即%0),輸入?yún)?shù)為segment(即%1)。Lsll是加載段界限的指令,即把segment段描述符中的段界限字段裝入某個寄存器(這個寄存器與__limit結(jié)合),函數(shù)返回__limit加1,即段長。
(3)復雜應用
在Linux內(nèi)核代碼中,有關(guān)字符串操作的函數(shù)都是通過嵌入式匯編完成的,因為內(nèi)核及用戶程序?qū)ψ址瘮?shù)的調(diào)用非常頻繁,因此,用匯編代碼實現(xiàn)主要是為了提高效率(當然是以犧牲可讀性和可維護性為代價的)。在此,我們僅列舉一個字符串比較函數(shù)strcmp,其代碼在arch/i386/string.h中。
static inline intstrcmp(const char * cs,const char * ct)
{
int d0, d1;
register int __res;
__asm____volatile__(
"1:\tlodsb\n\t"
"scasb\n\t"
"jne 2f\n\t"
"testb %%al,%%al\n\t"
"jne 1b\n\t"
"xorl %%eax,%%eax\n\t"
"jmp 3f\n"
"2:\tsbbl %%eax,%%eax\n\t"
"orb $1,%%al\n"
"3:"
:"=a" (__res), "=&S"(d0), "=&D" (d1)
:"1"(cs),"2" (ct));
return __res;
}
其中的“\n”是換行符,“\t”是tab符,在每條命令的結(jié)束加這兩個符號,是為了讓gcc把嵌入式匯編代碼翻譯成一般的匯編代碼時能夠保證換行和留有一定的空格。例如,上面的嵌入式匯編會被翻譯成:
1: lodsb //裝入串操作數(shù),即從[esi]傳送到al寄存器,然后esi指向串中下一個元素
scasb //掃描串操作數(shù),即從al中減去es:[edi],不保留結(jié)果,只改變標志
jne2f //如果兩個字符不相等,則轉(zhuǎn)到標號2
testb %al %al
jne 1b
xorl %eax %eax
jmp 3f
2: sbbl %eax %eax
orb $1 %al
3:
這段代碼看起來非常熟悉,讀起來也不困難。其中1f 表示往前(forword)找到第一個標號為1的那一行,相應地,1b表示往后找。其中嵌入式匯編代碼中輸出和輸入部分的結(jié)合情況為:
· 返回值__res,放在al寄存器中,與%0相結(jié)合;
· 局部變量d0,與%1相結(jié)合,也與輸入部分的cs參數(shù)相對應,也存放在寄存器ESI中,即ESI中存放源字符串的起始地址。
· 局部變量d1, 與%2相結(jié)合,也與輸入部分的ct參數(shù)相對應,也存放在寄存器EDI中,即EDI中存放目的字符串的起始地址。
通過對這段代碼的分析我們應當體會到,萬變不利其本,嵌入式匯編與一般匯編的區(qū)別僅僅是形式,本質(zhì)依然不變。因此,全面掌握Intel 386 匯編指令乃突破閱讀低層代碼之根本。