眾所周知,Python 是一門(mén)面向對(duì)象語(yǔ)言,在 Python 的世界一切皆對(duì)象。所以一切變量的本質(zhì)都是對(duì)象的一個(gè)指針而已。
Python 運(yùn)行過(guò)程中會(huì)不停的創(chuàng)建各種變量,而這些變量是需要存儲(chǔ)在內(nèi)存中的,隨著程序的不斷運(yùn)行,變量數(shù)量越來(lái)越多,所占用的空間勢(shì)必越來(lái)越大,如果對(duì)變量所占用的內(nèi)存空間管理不當(dāng)?shù)脑?,那么肯定?huì)出現(xiàn) out of memory。程序大概率會(huì)被異常終止。
因此,對(duì)于內(nèi)存空間的有效合理管理變得尤為重要,那么 Python 是怎么解決這個(gè)問(wèn)題的呢。其實(shí)很簡(jiǎn)單,對(duì)不不可能再使用到的內(nèi)存進(jìn)行回收即可,像 C 語(yǔ)言中需要程序員手動(dòng)釋放內(nèi)存就是這個(gè)道理。但問(wèn)題是如何確定哪些內(nèi)存不再會(huì)被使用到呢?這就是我們今天要說(shuō)的垃圾回收了。
目前垃圾回收比較通用的解決辦法有三種,引用計(jì)數(shù),標(biāo)記清除以及分代回收。
引用計(jì)數(shù)
引用計(jì)數(shù)也是一種最直觀,最簡(jiǎn)單的垃圾收集技術(shù)。在 Python 中,大多數(shù)對(duì)象的生命周期都是通過(guò)對(duì)象的引用計(jì)數(shù)來(lái)管理的。其原理非常簡(jiǎn)單,我們?yōu)槊總€(gè)對(duì)象維護(hù)一個(gè) ref 的字段用來(lái)記錄對(duì)象被引用的次數(shù),每當(dāng)對(duì)象被創(chuàng)建或者被引用時(shí)將該對(duì)象的引用次數(shù)加一,當(dāng)對(duì)象的引用被銷毀時(shí)該對(duì)象的引用次數(shù)減一,當(dāng)對(duì)象的引用次數(shù)減到零時(shí)說(shuō)明程序中已經(jīng)沒(méi)有任何對(duì)象持有該對(duì)象的引用,換言之就是在以后的程序運(yùn)行中不會(huì)再次使用到該對(duì)象了,那么其所占用的空間也就可以被釋放了了。
我們來(lái)看看下面的例子。
import osimport psutil# 打印當(dāng)前程序占用的內(nèi)存大小def print_memory_info(name): pid = os.getpid() p = psutil.Process(pid) info = p.memory_full_info() MB = 1024 * 1024 memory = info.uss / MB print(‘%s used %d MB’ % (name, memory))# 測(cè)試函數(shù)def foo(): print_memory_info(“foo start”) length = 1000 * 1000 list = [i for i in range(length)] print_memory_info(“foo end”)foo()print_memory_info(“main end”)### 輸出結(jié)果foo start used 6 MBfoo end used 55 MBmain end used 10 MB
函數(shù) print_memory_info 用來(lái)獲取程序占用的內(nèi)存空間大小,在 foo 函數(shù)中創(chuàng)建一個(gè)包含一百萬(wàn)個(gè)整數(shù)的列表。從打印結(jié)果我們可以看出,創(chuàng)建完列表之后程序耗用的內(nèi)存空間上升到了 55 MB。而當(dāng)函數(shù) foo 調(diào)用完畢之后內(nèi)存消耗又恢復(fù)正常。
這是因?yàn)槲覀冊(cè)诤瘮?shù) foo 中創(chuàng)建的 list 變量是局部變量,其作用域是當(dāng)前函數(shù)內(nèi)部,一旦函數(shù)執(zhí)行完畢,局部變量的引用會(huì)被自動(dòng)銷毀,即其引用次數(shù)會(huì)變?yōu)榱?,所占用的?nèi)存空間也會(huì)被回收。
為了驗(yàn)證我們的想法,我們對(duì)函數(shù) foo 稍加改造。代碼如下:
def foo(): print_memory_info(“foo start”) length = 1000 * 1000 list = [i for i in range(length)] print_memory_info(“foo end”) return list### 輸出結(jié)果foo start used 6 MBfoo end used 55 MBmain end used 55 MB
稍加改造之后,即使 foo 函數(shù)調(diào)用結(jié)束其所消耗的內(nèi)存也未被釋放。
主要是因?yàn)槲覀儗⒑瘮?shù) foo 內(nèi)部產(chǎn)生的列表返回并在主程序中接收之后,這樣就會(huì)導(dǎo)致該列表的引用依然存在,該對(duì)象后續(xù)仍有可能被使用到,垃圾回收便不會(huì)回收該對(duì)象。
那么,什么時(shí)候?qū)ο蟮囊么螖?shù)才會(huì)增加呢。下面四種情況都會(huì)導(dǎo)致對(duì)象引用次數(shù)加一。
- 對(duì)象被創(chuàng)建(num=2)
- 對(duì)象被引用(count=num)
- 對(duì)象作為參數(shù)傳遞到函數(shù)內(nèi)部
- 對(duì)象作為一個(gè)元素添加到容器中
同理,對(duì)象引用次數(shù)減一的情況也有四種。
- 對(duì)象的別名被顯式銷毀(del num)
- 對(duì)象的別名被賦予新的對(duì)象(num=30)
- 對(duì)象離開(kāi)它的作用域(函數(shù)局部變量)
- 從容器中刪除對(duì)象,或者容器被銷毀
引用計(jì)數(shù)看起來(lái)非常簡(jiǎn)單,實(shí)現(xiàn)起來(lái)也不復(fù)雜,只需要維護(hù)一個(gè)字段保存對(duì)象被引用的次數(shù)即可,那么是不是就代表這種算法沒(méi)有缺點(diǎn)了呢。實(shí)則不然,我們知道引用次數(shù)為零的對(duì)象所占用的內(nèi)存空間肯定是需要被回收的。那引用次數(shù)不為零的對(duì)象呢,是不是就一定不能回收呢?
我們來(lái)看看下面的例子,只是對(duì)函數(shù) foo 進(jìn)行了改造,其余未做更改。
def foo(): print_memory_info(“foo start”) length = 1000 * 1000 list_a = [i for i in range(length)] list_b = [i for i in range(length)] list_a.append(list_b) list_b.append(list_a) print_memory_info(“foo end”) return list### 輸出結(jié)果foo start used 6 MBfoo end used 93 MBmain end used 93 MB
我們看到,在函數(shù) foo 內(nèi)部生成了兩個(gè)列表 list_a 和 list_b,然后將兩個(gè)列表分別添加到另外一個(gè)中。由結(jié)果可以看出,即使 foo 函數(shù)結(jié)束之后其所占用的內(nèi)存空間依然未被釋放。這是因?yàn)閷?duì)于 list_a 和 list_b 來(lái)說(shuō)雖然沒(méi)有被任何外部對(duì)象引用,但因?yàn)槎咧g交叉引用,以至于每個(gè)對(duì)象的引用計(jì)數(shù)都不為零,這也就造成了其所占用的空間永遠(yuǎn)不會(huì)被回收的尷尬局面。這個(gè)缺點(diǎn)是致命的。
為了解決交叉引用的問(wèn)題,Python 引入了標(biāo)記清除算法和分代回收算法。
標(biāo)記清除
顯然,可以包含其他對(duì)象引用的容器對(duì)象都有可能產(chǎn)生交叉引用問(wèn)題,而標(biāo)記清除算法就是為了解決交叉引用的問(wèn)題的。
標(biāo)記清除算法是一種基于對(duì)象可達(dá)性分析的回收算法,該算法分為兩個(gè)步驟,分別是標(biāo)記和清除。標(biāo)記階段,將所有活動(dòng)對(duì)象進(jìn)行標(biāo)記,清除階段將所有未進(jìn)行標(biāo)記的對(duì)象進(jìn)行回收即可。那么現(xiàn)在的為問(wèn)題變?yōu)榱?GC 是如何判定哪些是活動(dòng)對(duì)象的?
事實(shí)上 GC 會(huì)從根結(jié)點(diǎn)出發(fā),與根結(jié)點(diǎn)直接相連或者間接相連的對(duì)象我們將其標(biāo)記為活動(dòng)對(duì)象(該對(duì)象可達(dá)),之后進(jìn)行回收階段,將未標(biāo)記的對(duì)象(不可達(dá)對(duì)象)進(jìn)行清除。前面所說(shuō)的根結(jié)點(diǎn)可以是全局變量,也可以是調(diào)用棧。
標(biāo)記清除算法主要用來(lái)處理一些容器對(duì)象,雖說(shuō)該方法完全可以做到不誤殺不遺漏,但 GC 時(shí)必須掃描整個(gè)堆內(nèi)存,即使只有少量的非可達(dá)對(duì)象需要回收也需要掃描全部對(duì)象。這是一種巨大的性能浪費(fèi)。
分代回收
由于標(biāo)記清除算法需要掃描整個(gè)堆的所有對(duì)象導(dǎo)致其性能有所損耗,而且當(dāng)可以回收的對(duì)象越少時(shí)性能損耗越高。因此 Python 引入了分代回收算法,將系統(tǒng)中存活時(shí)間不同的對(duì)象劃分到不同的內(nèi)存區(qū)域,共三代,分別是 0 代,1 代 和 2 代。新生成的對(duì)象是 0 代,經(jīng)過(guò)一次垃圾回收之后,還存活的對(duì)象將會(huì)升級(jí)到 1 代,以此類推,2 代中的對(duì)象是存活最久的對(duì)象。
那么什么時(shí)候觸發(fā)進(jìn)行垃圾回收算法呢。事實(shí)上隨著程序的運(yùn)行會(huì)不斷的創(chuàng)建新的對(duì)象,同時(shí)也會(huì)因?yàn)橐糜?jì)數(shù)為零而銷毀大部分對(duì)象,Python 會(huì)保持對(duì)這些對(duì)象的跟蹤,由于交叉引用的存在,以及程序中使用了長(zhǎng)時(shí)間存活的對(duì)象,這就造成了新生成的對(duì)象的數(shù)量會(huì)大于被回收的對(duì)象數(shù)量,一旦二者之間的差值達(dá)到某個(gè)閾值就會(huì)啟動(dòng)垃圾回收機(jī)制,使用標(biāo)記清除算法將死亡對(duì)象進(jìn)行清除,同時(shí)將存活對(duì)象移動(dòng)到 1 代。 以此類推,當(dāng)二者的差值再次達(dá)到閾值時(shí)又觸發(fā)垃圾回收機(jī)制,將存活對(duì)象移動(dòng)到 2 代。
這樣通過(guò)對(duì)不同代的閾值做不同的設(shè)置,就可以做到在不同代使用不同的時(shí)間間隔進(jìn)行垃圾回收,以追求性能最大。
事實(shí)上,所有的程序都有一個(gè)相識(shí)的現(xiàn)象,那就是大部分的對(duì)象生存周期都是相當(dāng)短的,只有少量對(duì)象生命周期比較長(zhǎng),甚至?xí)qv內(nèi)存,從程序開(kāi)始運(yùn)行持續(xù)到程序結(jié)束。而通過(guò)分代回收算法,做到了針對(duì)不同的區(qū)域采取不同的回收頻率,節(jié)約了大量的計(jì)算從而提高 Python 的性能。
除了上面所說(shuō)的差值達(dá)到一定閾值會(huì)觸發(fā)垃圾回收之外,我們還可以顯示的調(diào)用 gc.collect() 來(lái)觸發(fā)垃圾回收,最后當(dāng)程序退出時(shí)也會(huì)進(jìn)行垃圾回收。
總結(jié)
本文介紹了 Python 的垃圾回收機(jī)制,垃圾回收是 Python 自帶的功能,并不需要程序員去手動(dòng)管理內(nèi)存。
其中引用計(jì)數(shù)法是最簡(jiǎn)單直接的,但是需要維護(hù)一個(gè)字段且針對(duì)交叉引用無(wú)能為力。
標(biāo)記清除算法主要是為了解決引用計(jì)數(shù)的交叉引用問(wèn)題,該算法的缺點(diǎn)就是需要掃描整個(gè)堆的所有對(duì)象,有點(diǎn)浪費(fèi)性能。
而分代回收算法的引入則完美解決了標(biāo)記清除算法需要掃描整個(gè)堆對(duì)象的性能浪費(fèi)問(wèn)題。該算法也是建立在標(biāo)記清除基礎(chǔ)之上的。
最后我們可以通過(guò) gc.collect() 手動(dòng)觸發(fā) GC 的操作。
題外話,如果你看過(guò) JVM 的垃圾回收算法之后會(huì)發(fā)現(xiàn) Python 的垃圾回收算法與其是如出一轍的,事實(shí)再次證明,程序語(yǔ)言設(shè)計(jì)時(shí)是會(huì)相互參考的。