序列化
序列化(serialization)在計算機科學的資料處理中,是指將資料結構或物件狀態轉換成可取用格式(例如存成檔案,存於緩衝,或經由網絡中傳送),以留待後續在相同或另一台計算機環境中,能恢復原先狀態的過程。依照序列化格式重新獲取位元組的結果時,可以利用它來產生與原始物件相同語義的副本。對於許多物件,像是使用大量參照的複雜物件,這種序列化重建的過程並不容易。物件導向中的物件序列化,並不概括之前原始物件所關聯的函式。這種過程也稱為物件編組(marshalling)。從一系列位元組提取資料結構的反向操作,是反序列化(也稱為解編組、deserialization、unmarshalling)。 序列化在计算机科学中通常有以下定義:
用途
為了達成上述功能其一能有效作用,則必須與硬體結構保持獨立性。譬如說為了能最大化分散式的使用,在不同硬體運行的計算機,應該能夠可靠地重建序列化資料流,而不依賴於位元組序。雖然直接複拷記憶體中的資料結構更簡便又快速,可是對於其它不同硬體的機器,卻無法可靠地運作。以獨立於硬體之外的格式來序列化資料結構,要避開位元組序、記憶體佈局、或在不同編程語言中資料結構如何表示等等之類的問題。 對於任何序列化方案的本質來說,因為資料編碼是根據定義連續串在一起的,提取序列化資料結構中的某一部份,則需要從頭到尾讀取整個物件並且重新建構。這樣的資料線性在許多應用中是有利的,因為它使輸出入介面簡單而共同,能被用來保持及傳遞物件的狀態。 要求高效能的應用時,花費精力處理更複雜的非線性儲存系統是有其必要意義的。即使在單一機器上,原始的指針物件也非常脆弱無法保存,因為它們指向的標地可能重新加載到內存中的不同位址。為了處理這個問題,序列化過程包括一個步驟:將參照的直接指針轉換為以名稱或位置的間接參照,稱之為不揮發(unswizzling)或者指針不揮發。反序列化過程則包括了稱為指針旋轉(swizzling)的反向步驟。由於序列化和反序列化可從共通代碼(例如,微軟MFC中的Serialize函數)驅動,所以共通代碼可同時進行兩次,因此,
這技術應用在內容隨時間變化的使用者界面編程中-依照輸入事件來處理圖形物件的產生、移除、更改或製作,而無需編寫另外的代碼執行這些操作。 缺点序列化可能會破解抽象資料型別的封裝實作,而使其詳細內容曝光。簡單的序列化實作可能違反物件導向中私有資料成員需要封裝(encapsulation)的原則。商用軟體的出版商通常會將應用軟體的序列化格式,當作商业秘密,以阻礙競爭對手生產可相容的產品;有些會蓄意地混淆,或甚至將序列化資料作加密處理。然而,互通可用性的要求應用程式能夠理解彼此的序列化格式。因此,像CORBA的遠端方法調用架構詳細定義了它們的序列化格式。許多機構,例如檔案館和圖書館,嘗試將他們的備份檔案-特別是資料庫拋檔(dump),儲存成一些相對具可讀性的序列化格式中,使備份資料不因資訊技術變遷而過時。 序列化格式20世紀80年代初的全錄網絡系統快遞技術影響了第一個廣泛採用的標準。Sun Microsystems在1987年發佈了外部数据表示法(XDR)。90年代後期開始推動標準序列化的協議:XML(可延伸標記式語言)應用於產生人類可讀的文字編碼。資料以這樣的編碼使存續的物件能有效用,無論相對於人是否可閱讀與理解,或與編程語言無關地傳遞給其它資訊系統。它缺點是失去了紮實的編碼位元組流,但截至目前技術上所提供大量的儲存和傳輸容量,使得檔案大小的考量,已不同於早期計算機科學的重視程度。 二進制XML被提議作為一種妥協方式,它不能被純文字編輯器讀取,但比一般XML更為紮實。在二十一世紀的Ajax技術網頁中,XML經常應用於結構化資料在客端和伺服端之間的異步傳輸。相較於XML,JSON是一種輕量級的純文字替代,也常用於網頁應用中的客端-伺服端通訊。JSON肇基於JavaScript語法所衍生,但也廣為其它編程語言所支援。與JSON類似的另一個替代方案是YAML,它包含加強序列化的功能,更“人性化”而且更紮實。這些功能包括標記資料型別,支援非階層式資料結構,縮排結構化資料的選項以及多種形式的純量資料引用的概念。 另一種可讀的序列化格式是属性列表(property list)。應用在NeXTSTEP、GNUstep和macOS Cocoa環境中。 針對於科學使用的大量資料集合,例如氣候,海洋模型和衛星數據,已經開發了特定的二進制序列化標準,例如HDF,netCDF和較舊的GRIB。 編程語言支援一些物件導向的編程語言直接支援物件序列化(或物件歸檔),可藉由語法糖元素或者提供了標準介面。這些編程語言其中有Ruby,Smalltalk,Python,PHP,Objective-C,Delphi,Java 和.NET系列語言。若是缺少原生支援序列化的編程語言,也可使用額外的函式庫來添加功能。 C/C++C 和 C++ 沒有提供任何類型的高階序列化構造,但是兩種語言都支援將內建資料型別以及一般的資料結構 JavaJava 提供自動序列化,需要以 在預設情況下有三個主要原因使物件無法被序列化。其一,在序列化狀態下並不是所有的物件都能獲取到有用的語義。例如, 原生型別以及永久和非靜態的物件參照,會被編碼到位元組流之中。序列化物件參照的每個物件,若其中未標明為 由JDBC也可對Java物件進行序列化,並將其儲存到資料庫中。雖然Swing元件的確实例化了Serializable接口,但它們不能移植到有版本差異的Java虛擬機之間。因此,Swing元件或任何繼承它的元件可以序列化為位元組陣列,但不能保證這個倉存在另一台機器上可讀取。 Perl由CPAN所提供的幾個Perl模組提供序列化機制,包括了 當利用Storable對結構進行序列化時,具備了網路安全性的功能,它們以降低一點效能的成本,將資料儲存為任何計算機可讀取的格式。這些功能的名稱有 PHPPHP最初通過內建的 PythonPython編程核心的序列化機制是 這個函式庫有另外包括序列化為標準資料格式的模組:json(內置的基本純量與集合型別支援,且能夠通過編解碼支援任何型別)和XML編碼的屬性列表( Pickle最初是純粹以Python編程語言來實作的模組,但在Python 3之前的版本中,cPickle模組(也是內建的)提供了更快速的性能。cPickle從Unladen Swallow專案改造而成。在Python 3中,開發人員應該導入標準版本,該版本會嘗試導入加速版本並返回純Python版本。 .NET Framework.NET框架有幾個由微軟設計的序列化器。第三方協力廠商也有許多序列化器。 DelphiDelphi提供將元件(也稱為持續物件)序列化的內建機制,完全與開發環境整合。元件的內容會被保存在DFM檔案中,並即時重新加載。 OCamlOCaml的標準函式庫提供 Smalltalk通常,非遞迴和非共享的物件能利用 為此,存在各種可攜和非可攜式的代替方案。其中一些屬於特定的Smalltalk實作或是類別館。在Squeak Smalltalk中有幾種方法可以序列化和儲存物件。最簡單和最常用的是 這些API(storeBinary/readBinary)雖然彼此相似,但編碼細節是不同的,使得這兩種格式並不相容。而Smalltalk/X是自由開放源碼的,能被加載到其它Smalltalks方言中,允許它們之間能互相交換。物件序列化並非ANSI Smalltalk規範的一部份。因此,序列化物件的代碼因Smalltalk實作而異,所得到的二進制資料也不同。例如在Ambrai中就無法恢復在Squeak中所建立的序列化物件。所以,不同Smalltalk實作的各種應用程式,無法在不同實作之間共享資料。這些應用程式包括MinneStore物件資料庫和一些RPC包。這個問題的解決方案是SIXX,它是一個使用XML格式進行序列化的Smalltalks的軟體包。 参考文献外部連結 |