[轉載]MySQL 的「SET NAMES UTF8」字元編碼問題

近來接受 BBT 的培訓,做一個投票系統。系統程式碼倒不是很難,但是我的時間主要花費在了研究字符集和編碼上面。MySQL 和 Apache 兩個系統的編碼(字符集)問題讓我費勁腦筋,吃盡苦頭。網上對這些問題的解決比較零散,比較片面,大部分是提供解決方法,卻不說為什麼。於是我將這幾天收穫總結一下,避免後來者再走彎路。這篇文章對 PHP 編寫有一點幫助(看完你就知道,怎樣讓你的 PHP 程式在大部分空間提供商的伺服器裡顯示正常),但是更多幫助在於網路伺服器的架設和設置。

先說 MySQL 的字符集問題。Windows 下可透過修改 my.ini 內的


# CLIENT SECTION
[mysql]
default-character-set=utf8
# SERVER SECTION
[mysqld]
default-character-set=utf8


這兩個字段來更改資料庫的預設字符集。第一個是客戶端預設的字符集,第二個是伺服器端預設的字符集。假設我們把兩個都設為 utf8,然後在MySQL Command Line 裡面輸入 "show variebles like 『character%』;」,可看到如下結果:


character_set_client latin1
character_set_connection latin1
character_set_database utf8
character_set_results latin1
character_set_server utf8
character_set_system utf8



其中的 utf8 隨著我們上面的設置而改動。此時,要是我們透過採用 UTF-8 的 PHP 程式從資料庫裡讀取資料,很有可能是一串 "?????」 或者是其他亂碼。網上查了半天,解決辦法倒是簡單,在連結資料庫之後,讀取資料之前,先執行一項查詢 "SET NAMES UTF8〞,即在 PHP 裡為

mysql_query("SET NAMES UTF8");

即可顯示正常(只要資料庫裡資料的字元正常)。為什麼會這樣?這句查詢 "SET NAMES UTF8〞 到底是什麼作用?

到 MySQL 命令行輸入 "SET NAMES UTF8;",然後執行 "show variables Like 'character%'",發現原來為 latin1 的那些變數 "character_set_client」、」character_set_connection」、」character_set_results」 的值全部變為 utf8 了,原來是這 3 個變數在搗蛋。

查閱手冊,上面那句等於:


SET character_set_client = utf8;
SET character_set_results = utf8;
SET character_set_connection = utf8;

看看這 3 個變數的作用:

資料輸入路徑:client → connection → server;

資料輸出路徑:server → connection → results。

換句話說,每個路徑要經過 3 次改變字符集編碼。以出現亂碼的輸出為例,server 裡 utf8 的資料,傳入 connection 轉為 latin1,傳入 results 轉為 latin1,utf-8 頁面又把 results 轉過來。如果兩種字符集不相容,比如 latin1 和 utf8,轉化過程就為不可逆的,破壞性的。所以就轉不回來了。

但這裡要聲明一點,」SET NAMES UTF8〞 作用只是臨時的,MySQL 重啟後就恢復預設了。

接下來就說到 MySQL 在伺服器上的配置問題了。豈不是我們每次對資料庫讀寫都得加上 "SET NAMESUTF8〞,以保證資料傳輸的編碼一致?能不能透過配置 MySQL 來達到那三個變數預設就為我們要想的字符集?手冊上沒說,我在網上也沒找到答案。所以,從伺服器配置的角度而言,是沒辦法省略掉那行程式碼的。

總結:為了讓你的網頁能在更多的伺服器上正常地顯示,還是加上 "SET NAMES UTF8〞 吧,即使你現在沒有加上這句也能正常瀏覽。

問題多多,多謝指正!
參考網頁


轉載自: PHPChina

轉載自:http://blog.wu-boy.com/2008/08/25/336/


參考網頁

1. PHPChina: Apache和PHP網頁的編碼問題分析
2. MySQL: Character Set Support

5 Comments:

匿名 提到...

是的,保險起見,最好是每個專案的連線字串都要加上 "SET NAMES UTF8" 。

基本上 MySQL 資料庫語系設定分五個等級:

1. 伺服器級,即您說的 mysql.ini 的設定。
2. 資料庫級。
3. 資料表級。
4. 資料欄位級。
5. 連線校對級。

數字愈大的等級,其效力可以覆蓋之前的設定。所以 5 > 4 > 3 > 2 > 1 。

所以,如果 MySQL 伺服器預設編碼是 big5。我們只要資料表以下的等級全部都設定成 UTF8,理論上就可以獲得正確的結果。

但是還有一個變數,那就是 apache httpd 本身的系統編碼預設值。小弟有幾個專案,就是 MIS 將 httpd 預設在 big5。這時候,就算網頁強迫 metadata 到 UTF8 也沒有用。因為在讀取到 tag 之前,html就已經以 big5 輸出了。這就是為什麼瀏覽器編碼會跳掉的原因。

蕃茄 (Tomato) 提到...

謝謝你這麼專業的回答,真是讓我又有更多的瞭解耶~

匿名 提到...

太棒了~!感謝此篇文章的大力幫忙,讓我瞭解加這行的原因~

Unknown 提到...

感謝你的文章 說明得很好 謝謝

我與一群4、5年級的老朋友們!上山,下海樣樣來! 提到...

讚,讓我更清楚如何轉碼方法

 
© 2008 Blogger Template Layout Design by [ Fanchie AirHead ]