日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁(yè) > > strongerHuang
[導(dǎo)讀]Unicode,又稱統(tǒng)一碼、萬國(guó)碼、單一碼,是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界標(biāo)準(zhǔn),包括字符集、編碼方案等。

關(guān)注、星標(biāo)公眾號(hào),不錯(cuò)過精彩內(nèi)容

素材來源:網(wǎng)絡(luò)

編輯整理:strongerHuang


Unicode,又稱統(tǒng)一碼、萬國(guó)碼、單一碼,是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界標(biāo)準(zhǔn),包括字符集、編碼方案等。


一、Unicode產(chǎn)生的背景

1.為何要有Unicode?

ASCII編碼使用 8bit (b0-b7)中的最高位b7位作為奇偶校驗(yàn)位,用來保障傳輸?shù)目煽啃?,所以ASCII一共定義了2^7=128個(gè)字符集合。

所謂奇偶校驗(yàn),是指在代碼傳送過程中用來檢驗(yàn)是否出現(xiàn)錯(cuò)誤的一種方法,一般分奇校驗(yàn)和偶校驗(yàn)兩種。奇校驗(yàn)規(guī)定:正確的代碼一個(gè)字節(jié)中1的個(gè)數(shù)必須是奇數(shù),若非奇數(shù),則在最高位b7添0;偶校驗(yàn)規(guī)定:正確的代碼一個(gè)字節(jié)中1的個(gè)數(shù)必須是偶數(shù),若非偶數(shù),則在最高位b7添1)


2.ASCII編碼的問題

ASCII編碼是美國(guó)制定的編碼標(biāo)準(zhǔn),它可以代表英文中的字符集合,但用來表示其他語言 如漢語、法語等是不夠用的。中國(guó)為了讓計(jì)算機(jī)識(shí)別漢語,制定了GB2312編碼規(guī)范,使用兩個(gè)字節(jié)代表一個(gè)漢字,支持65536個(gè)漢字。


這樣發(fā)展的趨勢(shì)是每個(gè)國(guó)家或地區(qū)制定自己語言的計(jì)算機(jī)字符編碼,導(dǎo)致混亂不堪。


3.Unicode產(chǎn)生

Unicode 正是解決這個(gè)問題而誕生的,它對(duì)世界上絕大部分的文字的進(jìn)行整理和統(tǒng)一編碼。


事實(shí)上,歷史上存在兩個(gè)獨(dú)立的嘗試創(chuàng)立單一字符集的組織,即國(guó)際標(biāo)準(zhǔn)化組織(ISO)和多語言軟件制造商組成的統(tǒng)一碼聯(lián)盟。前者開發(fā)的 ISO/IEC 10646 項(xiàng)目,后者開發(fā)的統(tǒng)一碼項(xiàng)目。因此最初制定了不同的標(biāo)準(zhǔn)。


1991年前后,兩個(gè)項(xiàng)目的參與者都認(rèn)識(shí)到,世界不需要兩個(gè)不兼容的字符集。于是,它們開始合并雙方的工作成果,并為創(chuàng)立一個(gè)單一編碼表而協(xié)同工作。從Unicode 2.0開始,Unicode采用了與ISO 10646-1相同的字庫(kù)和字碼;ISO也承諾,ISO 10646將不會(huì)替超出U+10FFFF的UCS-4編碼賦值,以使得兩者保持一致。


兩個(gè)項(xiàng)目仍都存在,并獨(dú)立地公布各自的標(biāo)準(zhǔn)。但統(tǒng)一碼聯(lián)盟和ISO/IEC JTC1/SC2都同意保持兩者標(biāo)準(zhǔn)的碼表兼容,并緊密地共同調(diào)整任何未來的擴(kuò)展。


在發(fā)布的時(shí)候,Unicode一般都會(huì)采用有關(guān)字碼最常見的字型,但I(xiàn)SO 10646一般都盡可能采用Century字型。

---來自百度百科


二、Unicode的編碼方式

Unicode的編碼空間可以劃分為17個(gè)平面(plane),每個(gè)平面包含2的16次方(65536)個(gè)碼位。


17個(gè)平面的碼位可表示為從U+0000到U+10FFFF,共計(jì)1114112個(gè)碼位,第一個(gè)平面稱為基本多語言平面(Basic Multilingual Plane, BMP),或稱第零平面(Plane 0)。其他平面稱為輔助平面(Supplementary Planes)。

基本多語言平面內(nèi),從U+D800到U+DFFF之間的碼位區(qū)段是永久保留不映射到Unicode字符,所以有效碼位為1112064個(gè)。


為何要定義平面?為何劃分基平面和輔助平面?基平面為何會(huì)有保留區(qū)段?


三、計(jì)算機(jī)實(shí)現(xiàn)

Unicode是一種編碼方式,基于Unicode編碼的計(jì)算機(jī)實(shí)現(xiàn)是有多種的。不同的實(shí)現(xiàn)方式其實(shí)是對(duì)Unicode的存儲(chǔ)方式存在著差異,計(jì)算機(jī)實(shí)現(xiàn)Unicode可以認(rèn)為是對(duì)Unicode的存儲(chǔ)編碼。

在這里我們已經(jīng)進(jìn)行了兩次編碼轉(zhuǎn)換了,Unicode本身是字符對(duì)應(yīng)數(shù)字的編碼方案,而Unicode的計(jì)算機(jī)實(shí)現(xiàn)是Unicode對(duì)應(yīng)的計(jì)算機(jī)存儲(chǔ)編碼方案。


為什么對(duì)計(jì)算機(jī)實(shí)現(xiàn)還要對(duì)Unicode做一次編碼?


下面我們通過介紹不同的Unicode計(jì)算機(jī)實(shí)現(xiàn)方案來討論一下這個(gè)問題。


我們應(yīng)當(dāng)知道,生活中的字符出現(xiàn)的概率是不一樣的。例如,生活中我們常常使用 “你好” “早”等詞匯,但是“耄耋” “饕餮”等這些字符我們很少用到。


基于以上的事實(shí),如果我們把 “你好” “早”等這些高概率出現(xiàn)的字符使用較短的存儲(chǔ)編碼,而那些很少用到的字符使用較長(zhǎng)的存儲(chǔ)編碼,

定義:假設(shè)有n個(gè)字符c1.....cn,每個(gè)字符出現(xiàn)的概率為p(n),每個(gè)字符的存儲(chǔ)空間為s1.....sn,那么, 字符平均存儲(chǔ)空間計(jì)算公式:T = p(1)*s1+......p(n)*sn


下面我們分別計(jì)算一下不同編碼實(shí)現(xiàn)方案的字符平均存儲(chǔ)空間。


1.UTF-32

最容易想到的,也是最簡(jiǎn)單的計(jì)算機(jī)實(shí)現(xiàn)就是用四個(gè)字節(jié)(32bit)對(duì)Unicode編碼字符進(jìn)行存儲(chǔ),這就是UTF-32。UTF-32是最簡(jiǎn)單的程序?qū)崿F(xiàn)方案(無需轉(zhuǎn)換,與Unicode編碼一一對(duì)應(yīng))。

好處:無需轉(zhuǎn)換,速度快

壞處:浪費(fèi)存儲(chǔ)空間

T = 32bit


2.UTF-8

UTF-8是一種變長(zhǎng)編碼,對(duì)于一個(gè)Unicode的字符被編碼成1至4個(gè)字節(jié)。Unicode編碼與UTF-8的編碼的對(duì)應(yīng)關(guān)系:

Unicode編碼 UTF-8編碼(二進(jìn)制)
U+0000 – U+007F 0xxxxxxx
U+0080 – U+07FF 110xxxxx 10xxxxxx
U+0800 – U+FFFF 1110xxxx 10xxxxxx 10xxxxxx
U+10000 – U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx


一個(gè)字節(jié)的uft8表示的unicode 碼范圍為(0 ~0x7F)


兩個(gè)字節(jié)長(zhǎng)度的uft8 表示的unicode碼范圍為(0x80 ~ 0x07FF)


三個(gè)字節(jié)長(zhǎng)度的uft8 表示的unicode碼范圍為(0x0800 ~ 0xFFFF)


四個(gè)字節(jié)長(zhǎng)度的uft8 表示的unicode碼范圍為( 0x10000 ~ 0x10FFFF)


這樣編碼感覺復(fù)雜度變高了很多啊,但是, 好處在于節(jié)省了存儲(chǔ)空間,另外,兼容了舊的ASCII編碼。


3.UTF-16

UTF-16也是一種變長(zhǎng)編碼,對(duì)于一個(gè)Unicode字符被編碼成1至2個(gè)碼元,每個(gè)碼元為16位。


基本多語言平面(碼位范圍U+0000-U+FFFF) 在基本多語言平面內(nèi)的碼位UTF-16編碼使用1個(gè)碼元且其值與Unicode是相等的(不需要轉(zhuǎn)換)。舉例如下:

Unicode 字符 UTF-16(碼元) UTF-16 LE(字節(jié)) UTF-16 BE(字節(jié)) U+0041 A 0x0041 0x41 0x00 0x00 0x41 U+7834 破 0x7834 0x34 0x78 0x78 0x34 U+6653 曉 0x6653 0x53 0x66 0x66 0x53


輔助平面(碼位范圍U+10000-U+10FFFF) 在輔助平面內(nèi)的碼位在UTF-16中被編碼為一對(duì)16bit的碼元(即32bit,4字節(jié)),稱作代理對(duì)(surrogate pair)。組成代理對(duì)的兩個(gè)碼元前一個(gè)稱為前導(dǎo)代理(lead surrogates)范圍為0xD800-0xDBFF,后一個(gè)稱為后尾代理(trail surrogates)范圍為0xDC00-0xDFFF。


具體的轉(zhuǎn)換過程為:

  1. 首先將unicode碼表 - 0x10000 , 這樣得到的輔助平面的碼表范圍為(U+0000 - U+FFFFF) ,總共最多20bit

  2. 將20bit ,分為high 10bit 與 low 10bit。high 1bit | 0xD800 得到前導(dǎo)代理, low 10bit | 0xDC00 得到后尾代理

從這里也可以理解為什么 在基本多語言平面中, (U+D800 ?~ U+DFFF ) 要作為保留字符了

UTF-16既保留了解析速度,同時(shí)也比較節(jié)省存儲(chǔ)空間。這個(gè)是UTF-8和UTF-32兩者優(yōu)點(diǎn)的結(jié)合。


來源地址:
https://juejin.im/post/6844903890488410120

推薦閱讀:

操作系統(tǒng)產(chǎn)生死鎖的原因和處理策略

美女設(shè)計(jì)師的創(chuàng)意設(shè)計(jì):舌頭控制器

可重入與不可重入函數(shù)的區(qū)別


關(guān)注 微信公眾號(hào)『strongerHuang』,后臺(tái)回復(fù)“1024”查看更多內(nèi)容,回復(fù)“加群”按規(guī)則加入技術(shù)交流群。


長(zhǎng)按前往圖中包含的公眾號(hào)關(guān)注

免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問題,請(qǐng)聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動(dòng)電源

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下,工業(yè)電機(jī)作為核心動(dòng)力設(shè)備,其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動(dòng)勢(shì)抑制與過流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié),集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機(jī) 驅(qū)動(dòng)電源

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而,在實(shí)際應(yīng)用中,LED 驅(qū)動(dòng)電源易損壞的問題卻十分常見,不僅增加了維護(hù)成本,還影響了用戶體驗(yàn)。要解決這一問題,需從設(shè)計(jì)、生...

關(guān)鍵字: 驅(qū)動(dòng)電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動(dòng)電源的公式,電感內(nèi)電流波動(dòng)大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計(jì) 驅(qū)動(dòng)電源

電動(dòng)汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動(dòng)汽車的動(dòng)力性能和...

關(guān)鍵字: 電動(dòng)汽車 新能源 驅(qū)動(dòng)電源

在現(xiàn)代城市建設(shè)中,街道及停車場(chǎng)照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步,高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢(shì)逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動(dòng)電源 LED

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動(dòng)電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動(dòng)電源的電磁干擾(EMI)問題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作,還可能對(duì)周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動(dòng)電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字: LED 驅(qū)動(dòng)電源 開關(guān)電源

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動(dòng)電源
關(guān)閉