棧區內存申請與釋放
毫無疑問,從堆棧中分配內存更快,因為從堆棧中分配內存只是堆棧指針的移動。這意味著什么?什么是“堆棧指針移動”?以x86平臺為例,棧上的內存分配是如何實現的?很簡單,只有一行指令:
sub?$0x40,%rsp
這行代碼被稱為“堆棧指針移動”,其本質就是這張圖:

這很簡單。寄存器esp存放當前棧頂地址。由于堆棧的增長方向是從高地址到低地址,所以當增加堆棧時,需要將堆棧指針向下移動,這就是sub指令的作用。該指令將堆棧指針向下移動 64 個字節(0x40),因此可以說在堆棧上分配了 64 個字節。
可以看到,在棧上分配內存其實非常非常簡單,簡單到只是一條機器指令。
棧區的內存釋放也很簡單,只需要一條機器指令:
leave
leave指令的作用是將?;刂焚x給esp,使棧指針指向上一個棧幀的棧頂,然后彈出ebp,使ebp指向棧底前一個堆棧幀的:

你看,執行leave指令后,ebp和esp都指向了上一個棧幀,相當于彈出棧幀。這樣,棧1占用的內存就無效了,沒有任何用處。顯然這就是我們經常提到的內存回收,所以一條簡單的leave指令就可以回收棧區的內存。

關于棧、棧幀和棧區,更詳細的解釋可以參考我寫的這篇文章。
接下來我們看堆區的內存申請和釋放。
堆區內存申請與釋放
與在堆棧區域分配內存相反的是堆內存分配。在堆區分配內存有多復雜?太復雜了,我用了兩篇文章來講解“堆內存分配”的實現原理? 》。
在堆區域申請和釋放內存是一個相對復雜的過程,因為堆本身需要程序員(內存分配器實現者)來管理,而堆棧則由編譯器維護。堆區的維護也涉及到內存。分配和釋放,但是這里的內存分配和釋放顯然不會像棧區那么簡單。一句話leave是什么意思?怎么讀leave是什么意思?怎么讀,這里就是內存的按需分配和釋放。本質是堆區中每塊分配的內存的生命周期都是No,這是由程序員決定的。我傾向于將動態內存分配和釋放視為去停車場尋找停車位。

這顯然會使問題變得復雜。我們必須仔細維護哪些內存已分配,哪些是空閑的,如何找到空閑內存,如何回收程序員不需要的內存塊,同時不能造成嚴重后果。在棧區分配和釋放內存時無需擔心內存碎片問題。同時,當堆區內存空間不足時貝語網校,需要對堆區進行擴展等,這些使得在堆區申請內存比在棧區分配內存更加復雜。還有很多,具體可以參考我寫的這兩篇文章“””。
說了這么多,在堆上申請內存比在棧上申請內存慢多少呢?
接下來,我們來寫一些代碼來實驗一下。
顯示代碼
void?test_on_stack()?{
??int?a?=?10;
}
void?test_on_heap()?{
??int*?a?=?(int*)malloc(sizeof(int));
??*a?=?10;
??free(a);
}
void?test()?{
??auto?begin?=?GetTimeStampInUs();
??for?(int?i?=?0;?i?100000000;?++i)?{
????test_on_stack();
??}
??cout<<"test?on?stack?"<<((GetTimeStampInUs()?-?begin)?/?1000000.0)<
??begin?=?GetTimeStampInUs();
??for?(int?i?=?0;?i?100000000;?++i)?{
????test_on_heap();
??}
??cout<<"test?on?heap?"<<((GetTimeStampInUs()?-?begin)?/?1000000.0)<}
這段代碼很簡單,這里有兩個函數:
然后我們在測試函數中分別調用這兩個函數,每個函數被調用一億次,并記錄其運行時間。得到的測試結果為:
test?on?stack?0.191008
test?on?heap?20.0215
可以看到,在棧上總共花費的時間只有0.2s左右,而在堆上分配的時間卻是20s,相差一百倍。
值得注意的是,編譯程序時并沒有開啟編譯優化。開啟編譯優化后的時間消耗如下:
test?on?stack?0.033521
test?on?heap?0.039294
可以看到它們幾乎是一樣的,但是這是為什么呢?顯然從常識來看,在棧上分配速度更快。問題是什么?
現在我們開啟了編譯優化,優化后的代碼運行速度是不是更快了呢?我們看一下編譯優化后生成的指令:
test_on_stackv:
??400f85:???????55??????????????????????push???%rbp
??400f86:???????48?89?e5????????????????mov????%rsp,%rbp
??400f89:???????5d??????????????????????pop????%rbp
??400f8a:???????c3??????????????????????retq
test_on_heapv:
??400f8b:???????55??????????????????????push???%rbp
??400f8c:???????48?89?e5????????????????mov????%rsp,%rbp
??400f8f:???????5d??????????????????????pop????%rbp
??400f90:???????c3??????????????????????retq
啊哈,編譯器太聰明了。很明顯注意到這兩個函數中的代碼實際上什么也沒做。盡管我們專門將變量a的值賦值為10,但后來我們根本沒有使用變量a。 ,所以編譯器為我們生成了一個空函數,而上面的機器指令實際上對應了一個空函數。
小風哥在這里反復添加代碼,沒有騙過編譯器。我試圖增加分配變量a的復雜性,但編譯器仍然巧妙地生成了一個空函數。反正我沒嘗試過。可以看出,現代編譯器足夠智能,生成的機器指令非常高效。關于如何編寫更好的基準測試,以便我們可以看到打開編譯優化時這兩種內存分配方法的比較。任何對此有任何疑問的人都歡迎。請各位有經驗或者有編譯優化經驗的同學留言。
最后我們看一下這兩種內存分配方式的定位。
棧內存和堆內存的區別
首先,我們必須認識到堆棧是先進后出的結構。堆棧區域會隨著函數調用級別的增加而增加,并隨著函數調用的完成而減少。因此,棧不需要任何“管理”;同時,由于棧的性質,棧上申請的內存的生命周期與函數是綁定的。當函數調用完成后,其所占用的棧幀內存將失效,并且棧的大小是有限的。你不能在堆棧上申請太多的內存,就像這段C代碼:
void?test()?{
??int?b[10000000];
??b[1000000]?=?10;
}
這段代碼運行后會核心出來。原因是堆棧區域的大小非常有限。在堆棧上分配大塊數據會使堆棧爆裂。這就是所謂的堆棧溢出:

前額。 。 。抱歉,圖片放錯地方了,應該是這個Stack Overflow:

抱歉,我又搞錯了,不過你明白的。
堆不同。堆上分配的內存的生命周期由程序員控制。程序員決定何時申請內存、何時釋放內存。因此,必須對堆進行管理。堆區域非常廣闊。區,當堆區不足時,會請求操作系統擴展堆區以獲得更多的地址空間。
當然,雖然堆區給了程序員更大的靈活性,但是程序員需要保證內存在不使用的時候被釋放,否則就會出現內存泄漏。在棧上申請內存就不存在這個問題。
總結
棧區是自動管理的,堆區是手動管理的。顯然,在堆棧區域上分配內存比在堆區域上分配內存要快。當棧區申請的內存使用場景有限時,程序員在申請內存時就得更加小心。大多數都是依賴堆區,但是如果棧區申請的內存滿足要求的話,我個人更傾向于使用棧區內存。
希望這篇文章能夠幫助大家了解堆區和棧區。