|
在很多地方都有“數(shù)據(jù)交換”這個(gè)概念,本文所說的“數(shù)據(jù)交換” 是指在計(jì)算機(jī)網(wǎng)絡(luò)中,一個(gè)系統(tǒng)把數(shù)據(jù)傳遞給另外一個(gè)系統(tǒng)。這非常類似于一個(gè)人要告訴另外一個(gè)人一件事情。
當(dāng)一個(gè)人要把一件事情告訴另外一個(gè)人的時(shí)候,我們可以通過電話、郵件、短信、IM工具或者當(dāng)面說的方式來交流。這種方式類似于系統(tǒng)數(shù)據(jù)交換要通過 tcp、udp、管道等等的方式實(shí)現(xiàn)。當(dāng)兩個(gè)人交流的時(shí)候,我們需要一種共同的語言才能明白對(duì)方的意思,同樣的,兩個(gè)系統(tǒng)要交換數(shù)據(jù),也需要定義一種雙方都明白的協(xié)議,我們稱為“數(shù)據(jù)交換協(xié)議”。
數(shù)據(jù)交換協(xié)議
數(shù)據(jù)交換協(xié)議的目的是讓兩個(gè)系統(tǒng)進(jìn)行正確的數(shù)據(jù)交互。所以幾乎各種開發(fā)語言都提供了方便使用的數(shù)據(jù)交換功能。比如說使用Java語言的開發(fā)的系統(tǒng)使用MySQL數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù),就是通過MySQL數(shù)據(jù)交換協(xié)議跟MySQL做數(shù)據(jù)交換;通過Java的RMI可以方便的做跨機(jī)器的分布式數(shù)據(jù)交換,RMI也就是一種數(shù)據(jù)交換協(xié)議。
一般我們?cè)诓煌南到y(tǒng)、不同的語言之間交換數(shù)據(jù)的時(shí)候,我們會(huì)選擇一種通用的交換協(xié)議或者自己定義一種容易使用的交換協(xié)議。 WebService曾經(jīng)非常流行, 在Web 2.0時(shí)代,輕量級(jí)的REST協(xié)議又開始受到追捧。那么究竟在我們的系統(tǒng)中應(yīng)該選擇什么樣的協(xié)議呢?
如何選擇數(shù)據(jù)交換協(xié)議
選擇什么樣的協(xié)議跟我們的應(yīng)用場(chǎng)景有很大的關(guān)系。我們需要考慮我們開發(fā)是否方便、接口是否容易發(fā)布、是否需要考慮帶寬占用成本、序列化和反序列化的性能、接口協(xié)議的擴(kuò)展性等等。下面我們看下幾個(gè)比較常用的交換協(xié)議實(shí)現(xiàn)。
協(xié)議 | 實(shí)現(xiàn) | 跨語言 | 性能 | 傳輸量 | RPC |
xml | 廣泛 | 幾乎所有 | 低 | 很大 | N(可實(shí)現(xiàn)) |
json | 廣泛 | 大量 | 一般 | 一般 | N(可實(shí)現(xiàn)) |
php serialize | phpRPC | 大量 | 一般 | 一般 | Y |
hessian | hessian | 大量 | 一般 | 小 | Y |
thrift | thrift | 大量 | 高 | 小 | Y |
protobuf | protobuf | 大量 | 高 | 小 | N(可實(shí)現(xiàn)) |
ice | ice | 大量 | 高 | 小 | Y |
avro | Apache Avro | 少量 | 高 | 小 | Y |
messagepack | messagepack | 大量 | 高 | 小 | Y |
上面表格列出了一些常用數(shù)據(jù)交換協(xié)議的一些特性的比較。這里并沒有比較好壞,只是想說明不同數(shù)據(jù)交換協(xié)議是有區(qū)別的,所以我們需要在我們的應(yīng)用場(chǎng)景中進(jìn)行選擇。
開放式
像微博,SNS這種開放平臺(tái)、對(duì)靜態(tài)html頁面提供Javascript接口調(diào)用的系統(tǒng)都屬于這種類型 。這種類型的特點(diǎn)是:
- 調(diào)用方不完全可控,而且是針對(duì)公網(wǎng)的,你可能不知道是誰、是什么語言、是什么方式在調(diào)用你提供的數(shù)據(jù)接口;
- 接口訪問量一般都非常大,要求具有很高的性能和吞吐量;
- 需要考慮安全問題,外部提交的數(shù)據(jù)可能不是合法的。
所以在這種情況下,需要考慮數(shù)據(jù)傳輸?shù)膸捪暮蛿?shù)據(jù)交換協(xié)議的易用性,以及多語言支持程度。以前對(duì)于html頁面使用的Javascript接口調(diào)用一般都使用XML格式,最近幾年幾乎都轉(zhuǎn)成了json格式了,因?yàn)閖son傳輸量更小,比XML更加容易使用。 而對(duì)于開放平臺(tái),由于使用的場(chǎng)景很多,所以需要提供多種交換協(xié)議格式。基本上都會(huì)提供XML和json。為了提高平臺(tái)本身的性能和客戶端的性能,也可以提供protobuf這種二進(jìn)制交換協(xié)議并且增加壓縮支持,以節(jié)省帶寬傳輸和解析的性能消耗。
內(nèi)部服務(wù)
對(duì)于一個(gè)大型系統(tǒng)來說,內(nèi)部服務(wù)的數(shù)據(jù)交換無處不在。從最基本和常見的數(shù)據(jù)庫數(shù)據(jù)交換、memcached緩存數(shù)據(jù)交換、消息隊(duì)列的數(shù)據(jù)交換到系統(tǒng)之間使用的RPC服務(wù)框架等等,都可以算作內(nèi)部服務(wù)的數(shù)據(jù)交換。內(nèi)部服務(wù)的特點(diǎn)是不用考慮防火墻,不對(duì)外開放,速度快(基本無帶寬成本)。
內(nèi)部服務(wù)的數(shù)據(jù)交換協(xié)議的選擇空間非常大,一般需要考慮:
- 數(shù)據(jù)交換協(xié)議的性能
- 是否需要跨語言支持
- 數(shù)據(jù)交換協(xié)議的消息體大小
持久化存儲(chǔ)
對(duì)于持久化存儲(chǔ)來說,每一種數(shù)據(jù)交換協(xié)議其實(shí)都可以實(shí)現(xiàn)。一般需要根據(jù)應(yīng)用場(chǎng)景考慮:
- 是否人工可閱讀
- 存儲(chǔ)的空間消耗
- 序列化和反序列化的性能
- 是否經(jīng)過壓縮
跨語言
假設(shè)我們的網(wǎng)站前端頁面展示層使用php語言開發(fā),中間業(yè)務(wù)邏輯使用Java語言開發(fā),那么就涉及到跨語言數(shù)據(jù)交換的問題。只要系統(tǒng)不是單純的使用一種語言,那么就必須考慮這個(gè)問題。事實(shí)上,考慮未來的擴(kuò)展和需求變化問題,也最好考慮跨語言的數(shù)據(jù)交互協(xié)議。
數(shù)據(jù)交換協(xié)議可升級(jí)
在選擇數(shù)據(jù)交換協(xié)議的時(shí)候,我們同樣需要考慮類似于數(shù)據(jù)庫表的?schema設(shè)計(jì)時(shí)的擴(kuò)展問題。比如一個(gè)提供用戶信息的數(shù)據(jù)交換協(xié)議接口,現(xiàn)在包含用戶名、性別、住址的信息,在升級(jí)過程中,增加了一個(gè)最后登錄的IP信息。如果不考慮數(shù)據(jù)交換協(xié)議升級(jí)帶來的影響,很可能會(huì)導(dǎo)致以前的客戶端出現(xiàn)異常或者舊的數(shù)據(jù)無法正確解析的問題。
兼容協(xié)議的巧用
兼容協(xié)議的巧用非常有用,新產(chǎn)品兼容提供現(xiàn)有成熟的數(shù)據(jù)交換協(xié)議,可以降低使用門檻和產(chǎn)品的開發(fā)速度。比如新浪開源的memcacheQ就使用了memcached協(xié)議。
總結(jié)
數(shù)據(jù)交換協(xié)議的各種通用開源實(shí)現(xiàn)非常多,數(shù)據(jù)交換協(xié)議只是一個(gè)非常寬泛的說法,其實(shí)只要實(shí)現(xiàn)了數(shù)據(jù)的序列化和反序列化 ,那么就可以說是一個(gè)可以交換數(shù)據(jù)的協(xié)議。數(shù)據(jù)交換協(xié)議的性能其實(shí)就是序列化和反序列化的性能,如果加上RPC,那么跟RPC實(shí)現(xiàn)本身的性能也有非常大的關(guān)系。
我的新浪微博@sunli1223 ,歡迎與我討論。
參考鏈接:
- Java序列化和反序列化性能比較:https://github.com/eishay/jvm-serializers/wiki
- Java跨語言調(diào)用實(shí)現(xiàn)方案 http://rdc.taobao.com/team/jm/archives/389
it知識(shí)庫:軟件系統(tǒng)開發(fā)中的數(shù)據(jù)交換協(xié)議,轉(zhuǎn)載需保留來源!
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。