Monday, May 30, 2016

略談電腦世界裡的中文(1)

「中文」這個詞有很多的延伸,例如廣州話、普通話、國語;當然,也可以指繁體字、正體字、簡體字又甚至乎殘體字;當你造訪維基百科中文版,你可以選擇「大陆简体」、「香港繁體」、「澳門繁體」、「马新简体」和「台灣正體」。這樣多相似又有所不同的字在電腦是怎樣儲存的呢?



大家或多或少都知,電腦的世界本來只得0與1,基於二進位電腦科學家和工程師創建了很多,其中一樣便是「編碼」。其中一個很基本很原始的是ASCII(American Standard Code for Information Interchange),便將英文字母大階A由41 開始順序編下去,即A=41,B=42,C=43…基於這個標準,共有128個字(符)得以呈現。

中文編碼方面,在台港澳地方流行的 Big5 大五碼,足足比ASCII晚了16年才於1983年台灣面世,如果讀者不年輕,又或者造訪一些不年輕的網站,偶爾還以Big5完成的網站。當然,現在的瀏 覽器很多都是智能探測,我們很少再需要自己選擇編碼了,所以這個功能也就儲存能愈來愈隱閉——Firefox 的話就要按一下鍵盤上的Alt 顯示螢幕上方的功能表列選View才看得見;用Google Chrome 的話要在More Tools / 更多工具 找;而就只有Internet Explorer 還停留於右鍵功能表就可以選編碼的那個時空。

Big5 包含了很多常用的繁/正體中文,但當然也不是完美,比方說「着」「温」等一些字是沒有被編進裡面,又或者是之後的延伸才有,而這個問題對我們用字來說其實 有很長遠的影響,例如用Windows 內置的記事本時,如果包含這些字儲存再開啟便會變成空白;又例如海報上選了某些漂亮的字體,但用這些字會顯示不出來變回新細明體,所以我們寧願用「官方」 承認的異體字,久而久之我這些字我們愈來愈少用了。

為了沒有被「大五碼」包含的字,很多不同的廠商都有在開發自己的一些系統,例如比較流行的「倚天碼」。在單機時代,因為資料的傳遞最主要還是依靠列印出來的紙本,在紙上能看能讀便可以,各自使用不同的編碼都沒有問題,就像不同的村莊裡面各說各話,但相互之間還是可以透過一樣的貨幣做交易,但到了網絡時代世界就變了…

延伸閱讀:
維基百科——ASCII
https://zh.wikipedia.org/wiki/ASCII
維基百科——大五碼
https://zh.wikipedia.org/wiki/%E5%A4%A7%E4%BA%94%E7%A2%BC

No comments:

Post a Comment