รบกวนอ่านบทความเหล่านี้นะครับ เพราะผมเองก็ยังเคยมีผิดพลาดบ้าง คงไม่กล้าให้คำแนะนำแบบเต็มปาก
แต่ถ้าหากอ่านบทความแล้วสงสัยตรงไหน ถามได้นะครับ
http://www.freemac.net/modules.php?name=Content&pa=showpage&pid=118 << การแปลงฐานข้อมูล tis-620 เป็น UTF-8
และเมื่อส่วนมาก แปลงกันแล้วจะเกิดปัญหาครับ
การแก้ปัญหา การแสดงผล ภาษาไทย MySql เป็น ??
สำหรับ MySql เวอร์ชั่น ตั้ง แต่ 4.1 ขึ้นมา เนื่องจาก ทาง MySql ได้เปลี่ยนรูปแบบ การ เก็บ ข้อมูล ที่ เป็นอักขระ ใหม่ จาก เวอร์ชั่นเดิม ทำให้ การเก็บและ แสดงผล ของ บางภาษา เช่น thai เป็น
เราสามารถ แสดง Character Set Support ได้ด้วย
SHOW VARIABLES LIKE 'character%';
วิธี การ แก้คือ
1.กลับไปใช้ เวอร์ชั่น 4.0 หรือน้อย กว่า แนะนำให้ใช้ 4.0.27
2.ใช้ Character Set เป็น utf-8
3.เพิ่ม คำสั่งนี้ในขั้นตอนการติดต่อ ฐานข้อมูล
$charset = "SET character_set_results=tis620";
mysql_query($charset) or die('Invalid query: ' . mysql_error());
จาก http://www.freemac.netความแตกต่างระหว่าง UTF-8 กับ TIS-620
หลายคนคงสงสัยว่ามันจะมีชุดตัวหนังสือ UTF-8 (Unicode Transformation Format) ไปทำไม เราก็ยังใช้ TIS-620 ดีอยู่แล้วไม่เน่าไม่เสีย แต่เนื่องจากตอนนี้CMS หลายๆค่ายหันมาใช้(บังคับใช้) UTF-8 ของ Unicode (ผมเองก็ใช้ UTF-8) แล้วจะถ้าคิดใช้โปรแกรมใหม่ๆ CMS ตัวใหม่ๆ ในอนาคตทั้งหมดจะสนับสนุน UTF-8 อย่างเดียว เช่น AppServ เวอร์ชั่นออกมาใหม่จะเป็น UTF-8 MAMBO 4.6 , Joomla! 1.5 ก็จะใช้ชุด(บังคับ) UTF-8 เท่านั้น
UTF-8 เป็นที่มิยมมากเพียงแต่เราไม่ค่อยได้เห็นมันจะๆ จริงๆแล้ว UTF-8 มันอยู่รอบๆเรวเนี้ยครับ อย่างเช่น ชื่อไฟล์ภาษาไทยที่อยู่บน Windows XP นั้นก็เป็น UTF-8 แต่เรายังไม่รู้ตัว, Google (search engine) ก็ทำงานแบบ UTF-8 โดยที่เราไม่รู้ตัว อุปกรณ์ต่างๆ ไม่ว่าจะเป็นมือถือที่เป็น OS Symbian, Pocket PC เค้าก็ใช้ UTF-8 กันแทบทั้งสิ้น เมื่อเห็นว่าอนาคตคงจะได้ใช้โปรแกรม ที่มันสนับสนุน ต่อไปนี้ถึงคราวสิ้นยุคทองของชุดตัวหนังสือ TIS-620 แล้ว >__<
ความแตกต่างของ UTF-8 กับ TIS-620 มันอยู่ตรงใหน? ชุดตัวหนังสือ UTF-8 เนี้ยสามารถใช้กับภาษาอะไรก็ได้ โดยเราไม่จำเป็นต้องเปลี่ยน encoding เลย ถ้า website ของคุณมี 2 ภาษา มันก็โชว์ทั้ง 2 ภาษา (Multi language) ระบบ UTF-8 จะเก็บข้อมูล 1 - 4 ไบต์ต่อ 1 ตัวอักษร รายละเอียดอื่นๆ
อ่านเพื่มเติมที่นี่ครับ http://en.wikipedia.org/wiki/UTF-8
แต่ว่าถ้ามองในแง่ลบ UTF-8 ก็ยังไม่ค่อยมีความจำเป็นเท่าไหร่นัก และยังเปลืองน้อยที่เก็บข้อมูลกว่าของเดิมถึง 3-4เท่า เพราะ แต่ละตัวจะประกอบไปด้วยชุด ? นะ ? แบบนี้ซึ่ง TIS-620 จะเขียนได้ว่า ? นะ ? จะเห็นได้ว่าพื้นที่ในการเก็บข้อมูล ต้องเยอะขึ้นตามไปด้วย แต่ก็มีข้อดีอยู่บ้างในเรื่องการรองรับหลายภาษา (muli-language) และเราสามารถแปลงตัวอักษรจากแบบ UTF-8 มาเป็นแบบ TIS-620 โดยสามารถใช้ฟังก์ชัน iconv ครับ ใครอยากรู้ลองเข้าไปดูคำสั่งนี้แบบเต็มๆได้ที่นี่ครับ http://www.php.net/manual/en/function.iconv.php ส่วนถ้าต้องการ convert จาก UTF-8 มาเป็น TIS-620 ก็ใช้ประมาณนี้ครับ
echo iconv(?UTF-8, ?TIS-620?, ?helloสวัสดีครับ?); หรือถ้าจาก TIS-620 มาเป็น UTF-8 ก็ประมาณนี้ครับ
echo iconv( ?TIS-620?, ?UTF-8?, ?helloสวัสดีครับ?); ซึ่งคำสั่งนี้ถูกหยิบยืมมาจาก library บน unix ที่มีชื่อว่า GNU libiconv ครับ ไปดูรายละเอียดได้ที่นี่ http://www.gnu.org/software/libiconv/ แต่ก่อนที่จะใช้คำสั่งนี้ได้ ต้องไป config ในไฟล์ php.ini โดยให้เอา comment บรรทัดนี้ออกครับ extension=php_iconv.dll และให้เอาไฟล์ php_iconv.dll ไปใส่ไว้ที่ c:\windows\system32 ด้วยครับ แล้ว restart apache ใหม่ ก็จะสามารถใช้ได้ครับ
ฟังก์ชัน iconv ใช้ด้กับ PHP5 เท่านั้นนะครับ
ข้อดีของ UTF-8
รองรับได้หลายภาษา แน่นอนที่สุดสำหรับผมเลือกใช้เพราะสาเหตุนี้
ภาษาโปรแกรมมิ่งทั้งหลายรองรับ UTF-8
เข้ากันได้ดีกับรหัส ASCII
การแปลงเป็น Charset ชนิดอื่นไม่ยุ่งยากโดยใช้ ICONV
สามารถเรียงลำดับอักษรภาษาไทยได้ 100% ไม่มีผิดเพี้ยน
ข้อเสียของ UTF-8
มีปัญหาการทำงานกับฟังก์ชั่นในบางภาษา
ภาษาไทยไม่ได้มีเพียงแค่ TIS-620 (มีทั้ง CP874, MacThai)
อ้างอิงจาก http://www.gnu.org/software/libiconv/
เสียเวลาในการเขียนโปรแกรมแปลงฐานข้อมูล และไฟล์ให้เป็น UTF-8
การออกแบบฐานข้อมูล (Field) ต้องไม่ยึดติดกับความกว้างตัวอักษรแบบเดิม เพราะ UTF-8 จะเก็บเป็น Byteสรุปคือต้องขยายความกว้าง Field เกือบทุก Field ที่เป็น Varchar เพื่อรองรับ UTF-8
ที่มา - Meeh จาก SiamGeek.comแนะนำให้ backup SQL ไว้ก่อนนะครับ
-------------------------- เพิ่มเติม 1 กค. 2551--------------------------------เริ่มต้นกับ UTF-8 พร้อมโปรแกรมแปลง TIS-620 เป็น UTF-8
Posted on Saturday, October 07 @ 15:38:10 ICT by apples
UTF-8 คือ character ที่สามารถรองรับการทำงานระบบหลายภาษา (Multi language)
ระบบ UTF-8 จะเก็บข้อมูล 1 - 4 ไบต์ต่อ 1 ตัวอักษร รายละเอียดอื่นๆ แนะนำ
http://en.wikipedia.org/wiki/UTF-8 ชัดเจนกว่าครับ
สำหรับคนไทยถึงเวลาแล้วหรือยังที่จะเปลี่ยนจาก TIS-620 เป็น UTF-8 ?
ในเรื่องนี้ก็คงต้องแล้วแต่ความคิดส่วนตัวของแต่ละบุคคลครับ ว่าสามารถยอมรับระบบใหม่ได้ไหม
แต่ในปัจจุบันสำหรับครับคิดผมก็คือ ถึงเวลาแล้วสำหรับ UTF-8 การที่เราจะรออนาคตให้มีการเปลี่ยนแปลง
แล้วเราจะเปลี่ยนตาม ตัวเราเองน่าจะเป็นผู้กำหนดอนาคตเอง มากกว่าให้คนอื่นมากำหนดอนาคตให้กับเรา
ในอดีตภาษาไทยที่มาก่อนรหัส TIS-620 (รหัสสมอ.) นั่นก็คือรหัสเกษตร สำหรับใครที่ใช้ DOS สมัยก่อน
คงจะรู้จักกันดี ในอดีตเราก็ยังเปลี่ยนแปลงจากรหัสเกษตรเป็น TIS-620 ได้ การที่เราจะเปลี่ยนแปลง
ปัจจุบัน UTF-8 ใกล้ชิดกับตัวเรามากที่สุด โดยที่เราไม่รู้ตัว ยกตัวอย่างเช่น ชื่อไฟล์ภาษาไทยที่อยู่บน
Windows XP นั้นก็เป็น UTF-8 อยู่แล้ว แต่เรายังไม่รู้ตัว, Google ก็ทำงานแบบ UTF-8 โดยที่เราไม่รู้ตัว
บางคนที่ใช้ Gmail อาจโทษว่า "Gmail ไม่รองรับภาษาไทย ส่งให้คนอื่นอ่านแล้วอ่านไม่ออก" ตรงนี้บอกได้เลยครับว่า
ไม่ต้องโทษ Gmail หรอกครับ ต้องโทษระบบอีเมล์ที่ไม่ยอมทำความรู้จักกับ UTF-8 น่าจะถูกต้องกว่า
อุปกรณ์ต่างๆ ไม่ว่าจะเป็นมือถือที่เป็น OS Symbian, Pocket PC เค้าก็ใช้ UTF-8 กันแทบทั้งสิ้น
ตอนนี้มีเพียงคำถามเดียวครับว่า เรายังจะยึดติดอยู่ที่ TIS-620 ไปตลอดหรือ ?
หากใครยังชั่งใจอยู่ในเวลานี้ ก็ศึกษาข้อมูลเพิ่มเติมได้ก่อนที่จะเปลี่ยนแปลงจริงๆ จังๆ อีกที
เริ่มต้นกับ UTF-8
มีคำถามมากมายเกี่ยวกับ UTF-8 ผมขอแยกเป็นข้อๆ ในส่วนของข้อดีและข้อเสีย
แล้วลองพิจารณาดูนะครับว่า ขณะนี้เราพร้อมแล้วหรือยังกับ UTF-8
ข้อดีของ UTF-8 กับ TIS-620
- รองรับได้หลายภาษา แน่นอนที่สุดสำหรับผมเลือกใช้เพราะสาเหตุนี้
- ภาษาโปรแกรมมิ่งทั้งหลายรองรับ UTF-8
- เข้ากันได้ดีกับรหัส ASCII
- การแปลงเป็น Charset ชนิดอื่นไม่ยุ่งยากโดยใช้ ICONV
- สามารถเรียงลำดับอักษรภาษาไทยได้ 100% ไม่มีผิดเพี้ยน
ข้อเสียของ UTF-8 กับ TIS-620
- มีปัญหาการทำงานกับฟังก์ชั่นในบางภาษา
- ภาษาไทยไม่ได้มีเพียงแค่ TIS-620 (มีทั้ง CP874, MacThai)
อ้างอิงจาก
http://www.gnu.org/software/libiconv/ - เสียเวลาในการเขียนโปรแกรมแปลงฐานข้อมูล และไฟล์ให้เป็น UTF-8
- การออกแบบฐานข้อมูล (Field) ต้องไม่ยึดติดกับความกว้างตัวอักษรแบบเดิม เพราะ UTF-8 จะเก็บเป็น Byte
สรุปคือต้องขยายความกว้าง Field เกือบทุก Field ที่เป็น Varchar เพื่อรองรับ UTF-8
ปัญหาสำหรับนักพัฒนาภาษา PHP กับ UTF-8
การปรับมาใช้ UTF-8 นั้นก็เป็นปัญหาสำหรับโปรแกรมเมอร์เหมือนกัน โดยตัวอย่างที่ผมจะอธิบายต่อไปนี้
ก็ขออ้างอิงถึงภาษา PHP ครับ เพราะปัจจุบันผมก็เขียนโปรแกรมกับภาษานี้อยู่ ซึ่งปัญหาหลักๆ เกิดจาก
การเขียนโปรแกรมแล้วเลือกใช้บางฟังก์ชันไม่ได้ หรือต้องปรับแก้โปรแกรมหรือใช้ฟังก์ชันที่รองรับ UTF-8
ฟังก์ชันที่มีปัญหากับ UTF-8 ในภาษา PHP อ่านรายละเอียดเพิ่มเติมได้ที่
http://www.phpwact.org/php/i18n/utf-8โดยแต่ละฟังก์ชันจะมีการแจกแจงผลกระทบตั้งแต่ระดับ สูง - กลาง - ต่ำ ละเอียดดีครับ
พร้อมแล้วหรือยังที่จะแปลงระบบโปรแกรมและฐานข้อมูลเป็น UTF-8 ?
ข้อนี้ต้องถามตัวเองแล้วครับว่าพร้อมแล้วหรือยัง ส่วนผมพร้อมแล้วและก็ทำไปแล้ว
ท่องไว้ครับคำนี้นะ "อย่ายึดติดกับระบบเดิมๆ" ปัญหาต่างๆ เหล่านี้สามารถแก้ไขได้ครับ
เพราะว่าบางฟังก์ชันเราก็เขียนขึ้นมาใหม่ แทนที่ฟังก์ชันเดิมที่ไม่รองรับ UTF-8
ว่าแล้วก็แจกโปรแกรมแปลงเลยครับ โดยในโปรแกรมจะมีตัวอย่างฟังก์ชัน substr_utf8 ที่เขียนขึ้น
โดยสามารถรองรับ UTF-8 แทนฟังก์ชัน substr เดิมที่มีอยู่
โปรแกรมแปลงระบบเป็น UTF-8
1. โปรแกรมแปลงฐานข้อมูล MySQL จาก TIS-620, CP874, MacThai เป็น UTF-8
2. โปรแกรมแปลงไฟล์ จาก TIS-620,CP874,MacThai เป็น UTF-8
ดาวน์โหลดได้จาก :
http://prdownloads.sourceforge.net/appserv/appserv-Tis2utf8-1.0.zip?download** หมายเหตุ **
โปรแกรมที่แจกไม่ใช่ Freeware ไม่ใช่ Shareware แต่เป็น Open Source นะครับ
สงวนลิขสิทธิ์ในรูปแบบ GPL สรุปคือเอาไปใช้กันได้เลยครับไม่ต้องคิดมาก
และที่สำคัญโปรแกรมอาจจะมี Bug บ้าง ใครแก้ Bug แล้วกรุณาส่งกลับมาด้วยครับ
เผื่อจะได้แจกจ่ายให้กับคนอื่นๆ อีกต่อไปครับ ตอนแก้ใส่ Credit มาด้วยนะครับว่าแก้ตรงไหน
โปรแกรมนี้ สามารถแปลงจาก Charset ไหนๆ ก็ได้ในโลก ไปเป็น Charset ไหนๆ ก็ได้อีก
ทำได้โดยแก้ไข Source Code กันเอาเองนะครับ ถ้าอยากแปลงเป็นอย่างอื่น
วิธีการใช้งานต่างๆ มีอยู่ในไฟล์โปรแกรมแล้วครับลองเปิดดู
ข้อมูลอ้างอิง TIS-620
-
http://www.nectec.or.th/it-standards/std620/std620.htm-
http://software.thai.net/tis-620/index.html-
http://linux.thai.net/~ott/docs/tis-620.html-
http://en.wikipedia.org/wiki/TIS-620คราวหน้าจะมาพูดถึงเรื่อง
- ภาษาไทย TIS-620 มีปัญหากับ MySQL 4.1.x, 5.x.x จริงหรือ ? คงคาใจใครหลายคน ผมตอบให้ก่อน ไม่จริง
- การปรับตัวใช้ภาษาไทยใน MySQL version ใหม่ๆ
ที่มาจาก
http://www.appservnetwork.com/modules.php?name=News&file=article&sid=3โดยคุณ apples
-----------------------อันนี้ผม Copy เขามาให้อ่านอีกทีนะครับ--------------------------