閱讀(6.7k) 書簽贊(0) 我要糾錯

Assembly 結(jié)構(gòu)體

2018-12-04 17:43 更新

在C語言中的結(jié)構(gòu)體用來將相關(guān)的數(shù)據(jù)集合到一個組合變量中。這項技術(shù)有幾個優(yōu)點：

1. 通過展示定義在結(jié)構(gòu)體內(nèi)的數(shù)據(jù)是緊密相聯(lián)的來使代碼變得清晰明了。

2. 它使傳遞數(shù)據(jù)給函數(shù)變得簡單。代替單獨地傳遞多個變量，它通過傳遞一個單元來傳遞多個變量。

3. 它增加了代碼的局部性。

從匯編語言的觀點看，結(jié)構(gòu)體可以認(rèn)為是擁有不同大小的元素的數(shù)組。而真正的數(shù)組的元素的大小和類型總是一樣的。如果你知道數(shù)組的起始地址，每個元素的大小和需要的元素的下標(biāo)，有這個特性就能計算出這個元素的地址。

結(jié)構(gòu)體中的元素的大小并不一定要是一樣的(而且通常情況下是不一樣的)。因為這個原因，結(jié)構(gòu)體中的每個元素必須清楚地指定而且需要給每個元素一個標(biāo)號(或者名稱)，而不是給一個數(shù)字下標(biāo)。

在匯編語言中，結(jié)構(gòu)體中的元素可以通過和訪問數(shù)組中的元素一樣的方法來訪問。為了訪問一個元素，你必須知道結(jié)構(gòu)體的起始地址和這個元素相對于結(jié)構(gòu)體的相對偏移地址。但是，和數(shù)組不一樣的是：不可以通過元素的下標(biāo)來計算該偏移地址，結(jié)構(gòu)體的元素的地址需要通過編譯器來賦值。

例如，考慮下面的結(jié)構(gòu)體：

struct S {
short int x; /* 2個字節(jié)的整形 */
int y; /* 4個字節(jié)的整形 */
double z; /* 8個字節(jié)的浮點數(shù) */
};

圖7.1展示了一個S結(jié)構(gòu)體變量在電腦內(nèi)存中是如何儲存的。ANSIC標(biāo)準(zhǔn)規(guī)定結(jié)構(gòu)體中的元素在內(nèi)存中儲存的順序和在struct定義中的順序是一樣的。它同樣規(guī)定第一個元素需恰好在結(jié)構(gòu)體的起始地址中(也
就是說偏移地址為0)。它同樣在stddef.h頭文件中定義了另一個有用的宏offsetof()。這個宏用來計算和返回結(jié)構(gòu)體中任意元素的偏移地址。這個宏攜帶兩個參數(shù)，第一個是結(jié)構(gòu)體類型的變量名，第二個是需要得到偏移地址的元素名。因此，圖7.1中的，offsetof(S, y)的結(jié)果將是2。

結(jié)構(gòu)體s

內(nèi)存地址對齊

如果在gcc編譯器中你使用offsetof宏來得到y(tǒng)的偏移地址，那么它們將找到并返回4，而不是2！為回想一下一個地址如果除什么呢？因此gcc(和其它許多編譯器)，在缺省情況下，變量是對齊在雙字界上的。在32位保護模式下，如果數(shù)據(jù)是從雙字界開始儲存的，那么CPU能快速地讀取內(nèi)存。圖7.2展示了如果使
用gcc，那么S結(jié)構(gòu)體在內(nèi)存中是如何儲存的。編譯器在結(jié)構(gòu)體中插入了兩個沒有使用的字節(jié)，用來將y(和z)對齊在雙字界上。這就表明了在C中定義的結(jié)構(gòu)體，使用offsetof計算偏移來代替元素自己來計算自己的偏移為什么是一個好的想法。

當(dāng)然，如果只是在匯編程序中使用結(jié)構(gòu)體，程序員可以自己決定偏移地址。但是，如果你需要使用C和匯編的接口技術(shù)，那么在匯編代碼和C代碼中約定好如何計算結(jié)構(gòu)體元素的偏移地址是非常重要的！一個麻煩的地方是不同的C編譯器給出的元素的偏移地址是不同的。例如：就像我們已經(jīng)知道的，gcc編譯器創(chuàng)建結(jié)構(gòu)體S如圖7.2；但是，Borland的編譯器將創(chuàng)建結(jié)構(gòu)體如圖7.1。C編譯器提供了指定數(shù)據(jù)對齊的方法。但是，ANSI C標(biāo)準(zhǔn)并沒有指定它們該如何完成，因此不同的編譯器使用不同的方法來完成內(nèi)存地址對齊。

gcc編譯器有一個靈活但是復(fù)雜的方法來指定地址對齊。它允許你使用特殊的語法來指定任意類型的地址對齊。例如，下面一行：

typedef short int unaligned _int _attribute_ (( aligned (1)));

定義了一個名為unaligned_int的新類型，它采用的是字節(jié)界對齊方式。(是的，所以在__attribute__ 后面的括號都是需要的！)aligned的參數(shù)1可以用其它的2的乘方值來替代，用來表示采用的是其它對齊方式。(2為字邊界，4表示雙字界，等等。)如果結(jié)構(gòu)體里的y元素改為unaligned_int類型，那么gcc給出的y的偏移地址為2.但是，z依然處在偏移地址8的位置，因為雙精度類型的缺省對齊方式為雙字對齊。要想z的偏移地址為6，那么還要改變它的類型定義。

gcc編譯器同樣允許你壓縮一個結(jié)構(gòu)體。它告訴編譯器使用盡可能小的空間來儲存這個結(jié)構(gòu)體。圖7.3展示了S如何以這種方法來定義。這種形式下的S將使用可能的最少的字節(jié)數(shù)，14個字節(jié)。

Microsoft和Borland的編譯器都支持使用#pragma指示符的方法來指定對齊方式。

#pragma pack(1)

上面的指示符告訴編譯器采用字節(jié)界的對齊方式來壓縮結(jié)構(gòu)體中的元素。(也就是說，沒有額外的填充空間)。其中的1可以用2，4，8或16代替，分別用來指定對齊方式為字邊界，雙字界，四字界和節(jié)邊界。這個指示符在被另一個指示符置為無效之前保持有效。這就可能會導(dǎo)致一些問題，因為這些指示符通常使用在頭文件中。如果這個頭文件在包含結(jié)構(gòu)體的其它頭文件之前被包含到程序中，那么這些結(jié)構(gòu)體的放置方式將和它們?nèi)笔〉姆胖梅绞讲煌?。這將導(dǎo)致非常嚴(yán)重的查找錯誤。程序中的不同模塊將會將結(jié)構(gòu)體元素放置在不同的地方。

有一個方法來避免這個問題。Microsoft和Borland都支持這個方法：保存當(dāng)前對齊方式狀態(tài)值和隨后恢復(fù)它。圖7.4展示了如何使用這種方法。

位域s

位域允許你指定結(jié)構(gòu)體中的成員的大小為只使用指定的比特位數(shù)。比特位數(shù)的大小并不一定要是8的倍數(shù)。一個位域成員的定義和unsigned int或int的成員定義是一樣，只是在定義的后面增加了冒號和位數(shù)的大小。圖7.5展示了一個例子。它定義了一個32位的變量，它由下面的幾部分組成：

第一個位域被指定到此雙字的最低有效位處。

但是，如果你看了這些比特位實際上在內(nèi)存中是如何儲存的，你就會發(fā)現(xiàn)格式并不是如此簡單。難點發(fā)生在當(dāng)位域跨越字節(jié)界時。因為在little endian處理器上的字節(jié)將以相反的順序儲存到內(nèi)存中。例如，S結(jié)構(gòu)體在內(nèi)存中將如下所示：

f2l變量表示f2 位域的末尾五個比特位(也就是，五個最低有效位)。f2m變量表示f2 的五個最高有效位。雙垂直線的地方表示字節(jié)界。如果你將所有的字節(jié)反向，f2 和f3 位域?qū)⒅匦陆Y(jié)合到正確的位置。

物理內(nèi)存的放置方式通常并不是很重要，除非有數(shù)據(jù)需要傳送到程序中或從程序中傳出(實際上這和位域是非常相同的)。硬件設(shè)備的接口使用奇數(shù)的比特位是非常普遍的，此時使用位域來描述是非常有用的。

SCSI就是一個例子。SCSI設(shè)備的直接讀命令被指定為傳送一個六個字節(jié)的信息到設(shè)備，格式指定為圖7.6中的格式。使用位域來描述這個的難點是邏輯區(qū)塊地址(logical block address)，它在此命令中跨越了三個不同的字節(jié)。從圖7.6中，你可以看到數(shù)據(jù)是以big endian的格式儲存的。

圖7.7展示了一個試圖在所有編譯器中工作的定義。前兩行定義了一個宏，如何代碼是由Microsoft或Borland編譯器來編譯時，則它就為真。可能比較混亂的部分是11行到14行。首先，你可能會想為什么lba_ mid和lba_lsb 位域要分開被定義，而不是定義成一個16位的域？原因是數(shù)據(jù)是以big en-dian順序儲存的。而編譯器將把一個16位的域以little endian順序來儲存。

其次，lba_msb和logical_unit 位域看起來似乎方向反了；但是，情況并不是這樣。它們必須得以這樣的順序來擺放。圖7.8展示了作為一個48位的實體，它的位域圖是怎樣的。(字節(jié)界同樣是以雙垂直線來表示。)當(dāng)它在內(nèi)存中是以little endian的格式來儲存，那么比特位將以要求的格式來排列。(圖7.6)

考慮得復(fù)雜一點，我們知道SCSI_read cmd的定義在Microsoft C編譯器中不能完全正確工作。如果sizeof (SCSI read cmd)表達(dá)式被賦值了，MicrosoftC將返回8,而不是6！這是因為Microsoft編譯器使用位域的類型來決定如何繪制比特圖。因為所有的位域都被定義為unsigned類型，所以編譯器在結(jié)構(gòu)體的末尾加了兩個字節(jié)使得它成為一個雙字類型的整數(shù)。這個問題可以通過用unsignedshort替代所有的位域定義類型來修正。現(xiàn)在，Microsoft編譯器不需要增加任何的填充字節(jié)，因為六個字節(jié)是兩個字節(jié)字類型的整數(shù)。4有了這個改變，其它的編譯器也能正確工作。圖7.9展示了另外一種定義，能在所有的三種編譯器上工作。它通過使用unsignedchar避免了除2位的域以外的所有位域的問題。

如果發(fā)現(xiàn)前面的討論非?；靵y的讀者，請不要氣餒。它本來就是混亂的！通過經(jīng)常完全地避免使用位域而采用位操作來手動地檢查和修改比特位，作者發(fā)現(xiàn)能避免一些混亂。

在匯編語言中使用結(jié)構(gòu)體

在匯編語言中訪問結(jié)構(gòu)體就類似于訪問數(shù)組。作為一個簡單的例子，考慮一下你如何寫這樣一個匯編程序：將0寫入到S結(jié)構(gòu)體的y中。假定這個程序的原型是這樣的：

void zero_y( S * s_p );

匯編程序如下：

匯編程序

C語言允許你把一個結(jié)構(gòu)體當(dāng)作數(shù)值傳遞給函數(shù)；但是，通常這都是一個壞主意。當(dāng)以數(shù)值來傳遞時，在結(jié)構(gòu)體中的所有數(shù)據(jù)都必須復(fù)制到堆棧中，然后在程序中再拿出來使用。用一個結(jié)構(gòu)體指針來替代能有更高的效率。

C語言同樣允許一個結(jié)構(gòu)體類型作為一個函數(shù)的返回值。很明顯，一個結(jié)構(gòu)體不能通過儲存到EAX寄存器中來返回。不同的編譯器處理這種情況的方法也不同。一個編譯器普遍使用的解決方法是在內(nèi)部重寫函數(shù)，讓它攜帶一個結(jié)構(gòu)體指針參數(shù)。這個指針用來將返回值放入到結(jié)構(gòu)體中，這個結(jié)構(gòu)體是在調(diào)用的程序外面定義的。

大多數(shù)匯編器(包括NASM)都有在你的匯編代碼中定義結(jié)構(gòu)體的內(nèi)置支持。查閱你的資料來得到更詳細(xì)的信息。

帶一個結(jié)構(gòu)體指針參數(shù)。這個指針用來將返回值放入到結(jié)構(gòu)體中，這個結(jié)構(gòu)體是在調(diào)用的程序外面定義的。
大多數(shù)匯編器(包括NASM)都有在你的匯編代碼中定義結(jié)構(gòu)體的內(nèi)置支持。查閱你的資料來得到更詳細(xì)的信息。

以上內(nèi)容是否對您有幫助：

← Assembly 數(shù)字協(xié)處理器

Assembly 重載函數(shù)和名字改編 →

寫筆記

我要補充

Assembly 結(jié)構(gòu)體

內(nèi)存地址對齊

位域s

在匯編語言中使用結(jié)構(gòu)體

推薦文章

推薦教程

推薦課程