Visual C/C++ -Tiếng Việt Unicode

Vấn đề lập trình tiếng Việt Unicode với Visual C/C++ mà tôi muốn trình bày một cách tiếp cận khác có hệ thống hơn và tiện dụng hơn; đồng thời, tôi cũng muốn đưa ra một số giải pháp để Việt hoá được nhiều thành phần của ứng dụng hơn.

Trước tiên, ta nói về thực trạng hỗ trợ Unicode của các công cụ phát triển trực quan Visual C++ 6.0 và 7.1 (.NET 2003) (bản 7.0 – .NET 2002 – hiện không còn được dùng phổ biến; nhưng về cơ bản, nó tương tự như bản 7.1). Visual C++ 6.0 không cho phép nhập Unicode ở cả trình soạn thảo tài nguyên (resource editor – dùng để tạo các thành phần giao diện ứng dụng) lẫn trình soạn thảo mã nguồn. Visual C++ 7.1 cho phép nhập Unicode trong mã nguồn. Đối với việc soạn thảo tài nguyên, Unicode được hỗ trợ nếu bạn dùng .NET framework; còn nếu bạn dùng Win32API hoặc MFC thì không. Tuy nhiên, việc biên dịch mã Unicode lại khác, sẽ được đề cập ở phần sau.

Mã lệnh Unicode

Các xâu Unicode (hay xâu kí tự rộng) được lưu như là mảng wchar_t, về bản chất là kiểu int16 (2 byte). Để trình biên dịch biết một xâu/kí tự là Unicode, ta phải thêm tiếp đầu ngữ L. Ví dụ, L“Thế Giới Vi Tính” hoặc L“T”. Có thể dùng macro _T hoặc TEXT để đảm bảo các xâu có thể được dịch phù hợp với thiết định của project. Xâu là Unicode nếu macro UNICODE/_UNICODE được định nghĩa, là xâu bình thường nếu không. Với Visual Studio .NET, hai macro UNICODE và _UNICODE được tự động tạo ra khi ta đặt Character Set của Project là Unicode.

Giao diện ứng dụng được Việt hóa

Giao diện ứng dụng được Việt hóa

Các kiểu như LPCSTR, CHAR… đều có kiểu 16 bit tương ứng như LPCWSTR, WCHAR. Các kiểu LPCTSTR, TCHAR được dịch là kiểu 8 bit nếu UNICODE và _UNICODE không được định nghĩa và 16 bit nếu ngược lại. Do đó, trong những trường hợp chung, nên dùng các kiểu có thành tố T.

Các hàm nhận hoặc trả về xâu thường có hai phiên bản 8 bit và 16 bit với các tiếp vị ngữ A hoặc W kiểu như GetWindowTextA và GetWindowTextW. Tên không có tiếp vị ngữ (GetWindowText) được dịch là một trong hai hàm theo cách tương tự như trên.

Để nhập xâu Unicode trong Visual Studio.NET, bạn phải ghi lại mã nguồn theo encoding là “Unicode” hoặc “Unicode (UTF-8 with signature)”, (đừng nhầm với “without signature”) bằng Save As (hoặc Advanced Save Options). Tốt nhất là nên dùng encoding thứ hai. Còn với Visual Studio 6.0, bạn buộc phải nhập mã Unicode của các kí tự. Trình UnikeyNT 3.6 cung cấp “bảng mã” “Unicode C String” để bạn thực hiện việc này dễ dàng hơn. Lưu ý là cách này không áp dụng được trong soạn thảo tài nguyên. Nếu bạn viết “\x1EA1”, bộ dịch tài nguyên xem như xâu có ba kí tự, một có mã 0x1E và hai kí tự kia là “A” và “1”. Nói cách khác, nó chỉ chấp nhận cách viết này cho kí tự ANSI.

Một lưu ý nhỏ là toàn bộ các font mà ta sử dụng trong chương trình cũng như font hệ điều hành dùng cho các thành phần giao diện (font cho title bar, menu, tooltip…) đều phải có các kí tự tiếng Việt Unicode. Tốt nhất là những font quen thuộc như Arial, Tahoma… Một số font mặc định của Windows không đáp ứng được yêu cầu này như MS Sans Serif, Trebuchet MS… Có lẽ bạn nên thông báo cho người dùng chương trình của mình biết điều này.

Thiết định Project hỗ trợ Unicode

Trong Visual Studio .NET: Đơn giản bạn chỉ cần đặt Character Set thành Unicode trong Project Properties/Configuration Properties/General.

Trong Visual Studio 6.0, bạn tạo thêm macro UNICODE và _UNICODE, xoá macro _MBCS (multibyte character set) (vào Project Settings, chọn gốc project từ cây bên trái, vào tab C/C++, chọn Category là Preprocessor, gõ thêm các macro, cách nhau bằng dấu phẩy, xoá macro cũ). Nếu sử dụng MFC, bạn còn phải thêm điểm vào cho ứng dụng (vào Project Settings, Link, Output, nhập vào ô Entry Point “wWinMainCRTStartup”. Để ý chữ w đầu tiên).

Nhớ là bạn phải đặt hỗ trợ cho tất cả các chế độ dịch cần thiết (Debug, Release… trong “Configuration” hoặc “Settings for”).

Việt hóa mã nguồn C/C++

Đối với Visual C/C++ 7.1, ta gõ tiếng Việt Unicode như bình thường (ví dụ: TEXT(“Thế Giới Vi Tính”)). Chú ý chọn font cho trình soạn thảo để hiển thị được tiếng Việt Unicode (Vào Tools/Options, trong mục Environment/Fonts and Colors, chuyển mục “Show settings for” thành “Text Editor” và chọn lại Font). Sau đó, ghi lại theo một trong hai cách sau:

Một common dialog Việt hóa

Một common dialog Việt hóa

– Vào mục File/Advanced Save Options để đổi “Encoding” thành “Unicode – Codepage 1200” hoặc “Unicode (UTF-8 with signature) – Codepage 65001”. Sau đó ghi lại tập tin. Chú ý là cần có “with signature” để trình biên dịch biết rằng tập tin được lưu dưới dạng Utf-8; nếu không (“without signature”), trình biên dịch sẽ hiểu nhầm là tập tin ASCII. “Signature” ở đây là kí hiệu báo Utf-8 được ghi vào đầu tập tin.

– Chọn File/Save As. Giữ nguyên tên file, nhấn chuột vào mũi tên bên phải nút “Save”, chọn “Save With Encoding…” và chọn một trong hai encoding trên.
Nói chung, bạn chỉ cần chỉnh Encoding một lần cho một tập tin. Nhưng đôi khi Visual Studio có thể bị lỗi. Trong trường hợp đó, IDE sẽ báo lỗi đại loại như “Some Unicode characters in this file will not be saved…”. Nếu vậy, bạn nên tiến hành thiết định encoding lại.

Đối với Visual C/C++ 6.0, bạn sử dụng một bộ gõ hỗ trợ “Unicode C String” (chẳng hạn UniKeyNT 3.6, download miễn phí tại unikey.sf.net) và gõ bằng “bảng mã” này. Chẳng hạn với xâu “Thế Giới Vi Tính”, bạn thu được TEXT(“Th\x1EBF Gi\x1EDBi Vi Tính”). Nếu bạn đã có xâu tiếng Việt sẵn với một bảng mã khác (chẳng hạn nguyên bản Unicode hoặc ABC), bạn có thể dùng chức năng chuyển mã trong mục “Công cụ” của Unikey.

Việt hóa tài nguyên

Đối với quá trình Việt hóa tài nguyên, cần chú ý mấy điểm sau:

– Trình soạn thảo tài nguyên không hỗ trợ Unicode (ở đây chúng ta không bàn luận về .NET framework). Cả trình soạn thảo tài nguyên lẫn trình biên dịch tài nguyên đều không hỗ trợ Unicode C String.

– Trình biên dịch tài nguyên hỗ trợ Unicode – Codepage 1200. Đây là chìa khoá cho vấn đề của chúng ta.

Message Box được Việt hoá

Message Box được Việt hoá

Nếu ứng dụng của bạn hỗ trợ hai ngôn ngữ tiếng Anh và tiếng Việt, bạn nên thiết kế giao diện tiếng Anh trước. Nếu ứng dụng của bạn chỉ dùng tiếng Việt, bạn sử dụng “bảng mã” utf-8 để gõ. Với Unikey, bạn chọn “bảng mã” “Utf-8 Literal”. Chú ý là kí tự tiếng Việt sẽ được hiển thị không chính xác, và thường dài hơn kết quả thực. Ví dụ: thay vì gõ “Thế Giới Vi Tính”, bạn gõ “Thế Giá»›i Vi Tính”.

Để hiểu vì sao “bảng mã” này lại được Resource Editor chấp nhận, ta phải hiểu bản chất của Utf-8. Utf-8 thực ra không phải là một bảng mã, mà là một cách lưu trữ các chuỗi trong bảng mã Unicode như một chuỗi byte. Có thể hiểu hình tượng như một cách chuyển đổi chuỗi 2 byte thành chuỗi 1 byte (là chuỗi được chấp nhận trong Resource Editor). Ưu điểm của Utf-8 là tương thích ngược với ASCII. Nghĩa là các chuỗi ASCII được giữ nguyên khi lưu trữ bằng Utf-8. Do vậy mà ta làm việc bình thường với các chuỗi không phải là tiếng Việt. Để biết thêm chi tiết, bạn có thể tham khảo bài báo “Mã Unicode tiếng Việt, hiện thực trong Windows và Linux” của TS. Nguyễn Văn Hiệp TGVT A 12/2001 (tr.68).

Tiếp theo, bạn phải dùng một trình soạn thảo văn bản hỗ trợ Unicode để mở tập tài nguyên ra chỉnh sửa. Với Visual C++ 7.1, bạn mở Solution Explorer (Ctrl-Alt-L), nhấn phải chuột vào tập tài nguyên (trong thư mục Resource Files), chẳng hạn “resource.rc”, chọn “Open With”, chọn “Source Code (Text) Editor With Encoding”, chọn “Unicode (UTF-8 without signature) – Codepage 65001” (bây giờ lại là “without”, vì ta chưa hề ghi signature vào tập). Với Visual C++ 6.0, bạn có thể dùng Notepad của Windows2000/XP để mở với Encoding là Utf-8. Nhớ chọn lại font để tiếng Việt Unicode hiển thị được (Format/ Font trong Notepad). Bây giờ xem lại nội dung của tập tin, bạn sẽ thấy các dòng văn bản mà bạn gõ bằng Utf-8 trước đó đã được chuyển thành tiếng Việt.

Ghi tập tài nguyên lại với một tên khác (Save As), chẳng hạn “ResourceVn.rc” bằng Encoding “Unicode – Codepage 1200” (Unicode trong Notepad).

Bây giờ, bạn đã có hai phiên bản tài nguyên: một phiên bản soạn thảo được bằng Resource Editor, một phiên bản soạn thảo bằng tay sử dụng Unicode.

Với phiên bản mới, vì Codepage đã bị đổi, nên bạn phải huỷ thông tin Codepage cũ (bằng dấu chú thích//) ở dòng:

#pragma code_page(1252)

thành

//#pragma code_page(1252)

Vì ngôn ngữ bây giờ không phải là tiếng Anh nữa, nên tốt nhất là bạn huỷ cả dòng

LANGUAGE LANG_ENGLISH, SUBLANG_ENGLISH_US

Và thay bằng dòng

LANGUAGE LANG_NEUTRAL, SUBLANG_NEUTRAL

Và ghi lại.

Bây giờ ta đã có một phiên bản Unicode hoàn chỉnh. Ta sẽ thay thế phiên bản cũ bằng phiên bản mới này. Tuy nhiên, ta sẽ tìm cách để vẫn giữ lại phiên bản cũ trong project, nhờ đó có thể tận dụng thao tác trực quan của Visual Studio và bộ sinh mã tự động. Chẳng hạn, khi ta muốn gắn kết sự kiện với hàm, gắn điều khiển với biến, tìm ID của điều khiển… ta sẽ dùng phiên bản nguyên thuỷ. Nhưng khi biên dịch, ta dùng phiên bản Unicode.

Để làm điều đó, ta phải ngăn Visual Studio biên dịch tập “resource.rc”:

– Với Visual Studio 7.1: Bạn mở Solution Explorer (Ctrl-Alt-L), mở folder Resource Files, nhấn phải chuột vào resource.rc, chọn Properties (hoặc chọn tập tin và nhấn Alt-Enter). Trong mục Configuration Properties/ General, đặt Excluded From Build thành Yes.

– Với Visual Studio 6.0: Bạn mở File View (Alt-0, nhấn Ctrl-PageDown đến tab File View), mở folder “Source Files”, chọn Resource.rc. Mở Project Settings (Alt-F7). Trong tab General, chọn Exclude file from build.

Nhớ là bạn phải làm việc này cho tất cả các chế độ dịch cần thiết. Bây giờ, ta chỉ việc thêm tập “ResourceVn.rc” vào project là xong.

Với Visual Studio 7.1: Sử dụng chức năng File/ Add Existing Item.

Với Visual Studio 6.0: Project/ Add To Project/ Files.

Chú ý: nếu bạn viết chương trình với hai ngôn ngữ (tiếng Việt và tiếng Anh), bạn phải tạo ra các chế độ dịch tương ứng. Với các chế độ dịch cho tiếng Anh, bạn phải ngăn việc dịch ResourceVn.rc và yêu cầu dịch Resource.rc.

Cuối cùng là dịch và chạy thử chương trình. Để đảm bảo quá trình dịch và liên kết không nhầm lẫn, bạn nên chọn chức năng Build/ Rebuild Solution (Rebuild All). Chú ý rằng với Visual C/C++ 6.0, sẽ có một chuỗi báo lỗi “Could not find the file” khá dài, nhưng quá trình dịch và liên kết vẫn cho kết quả tốt.

Để bảo trì, cập nhật lại tập tài nguyên, ta sử dụng một trong hai cách:

– Phục hồi lại tập “ResourceVn.rc” về dạng mà Visual Studio đọc được bằng cách làm ngược lại quá trình trên (xoá dòng LANGUAGE mới, bỏ chú thích ở hai dòng cũ, ghi lại dưới encoding “Unicode Utf-8 without signature”. Nếu dùng Notepad, việc save ngược phải thực hiện theo 2 bước: đầu tiên là save dưới encoding “Utf-8”, sau đó là mở ra dưới dạng ANSI và xoá 3 kí tự signature ở đầu tập). Sau đó tiến hành thay đổi trên tập này. Chú ý là ta có thể kéo thả hoặc copy – paste các phần tử từ tập “Resource.rc” vào tập “ResourceVn.rc”.

– Copy (bằng trình soạn thảo văn bản) những thay đổi từ tập “Resource.rc” vào tập “ResourceVn.rc”.

Việc sử dụng cách nào tốt hơn là tùy tình huống cụ thể. Tuy nhiên, cách thứ hai thường hiệu quả hơn.

Nhược điểm của phương pháp này là nếu bạn sử dụng MFC, Việt hóa không có tác dụng đối với data của ComboBox. Vì data này bị chuyển thành dữ liệu nhị phân (ghi dưới dạng các chuỗi hex) trong tập tài nguyên. Do đó, bạn buộc phải dùng cách bổ sung thủ công nội dung của chúng bằng mã chương trình.

Hộp thoại thông dụng (COMMON DIALOG)

Ứng dụng trên Windows thường sử dụng các hộp thoại đã được xây dựng sẵn của Windows trong các công việc như chọn font, chọn màu… Để Việt hóa những hộp thoại này, ta sẽ thiết kế lại với các caption của điều khiển phù hợp. Giải pháp này không chỉ áp dụng cho trường hợp Việt hóa bằng Unicode, nó cũng có tác dụng nếu bạn sử dụng các bảng mã khác. Trước tiên, ta cần tìm thiết kế gốc của hộp thoại cần chuyển. Thiết kế này thường bao gồm một tập đuôi dlg (chẳng hạn color.dlg) và một (hoặc nhiều) tập header đi kèm. Để biết tên tập .dlg, bạn mở MSDN Library, tìm mục “Common Dialog Box Library” (theo index), sau đó chọn loại hộp thoại bạn cần (ví dụ: Color Dialog Box) và tìm (Ctrl-F) “.dlg”. Sau đó tìm tập này trong thư mục cài đặt Visual Studio, mở tập này (bằng một trình soạn thảo văn bản) để tìm những tập .h cần thiết. Copy toàn bộ các macro (#define) của các tập header vào tập resource.h, ghi lại. Bây giờ, bạn tạo một dialog mới trong trình soạn thảo tài nguyên. Sau đó, copy nội dung phần định nghĩa dialog trong tập .dlg vào thay thế phần định nghĩa do bạn tạo (lưu ý thay tên tài nguyên gốc bằng tên tài nguyên bạn đã tạo) trong tập rc. Ví dụ, với hộp thoại màu, bạn copy từ phần ChooseColor đến hết, sau đó thay ChooseColor bằng tên tài nguyên của bạn (chẳng hạn IDD_CHOOSECOLOR), xoá phần định nghĩa cũ. Và bạn đã có thiết kế gốc của hộp thoại với tên tài nguyên mới. Bạn có thể thay đổi nó, đặc biệt, sửa caption của nó và đổi font phù hợp.

Đối với MFC, việc dùng các hộp thoại thông dụng thường thông qua các lớp dẫn xuất từ CCommonDialog. Nên để áp dụng mẫu hộp thoại này, ta phải đặt mẫu cho cấu trúc thành viên của thể hiện hộp thoại (đối với hộp chọn màu là biến m_cc có kiểu CHOOSECOLOR) trước khi gọi DoModal() của nó. Để đơn giản hoá quá trình, ta tạo một lớp dẫn xuất từ lớp hộp thoại nguyên thuỷ (trong ví dụ này là lớp CSpecColorDialog dẫn xuất từ lớp CColorDialog). Sau đó, trong cấu tử, ta thực hiện các chuẩn bị cần thiết. Nhờ đó, CSpecColorDialog ứng xử như CColorDialog.

CSpecColorDialog(COLORREF clrInit=0,DWORD dwFlags=0,CWnd *pParentWnd=0)

:CColorDialog(clrInit,dwFlags,pParentWnd)

{

m_cc.Flags|=CC_ENABLETEMPLATE;

m_cc.lpTemplateName=MAKEINTRESOURCE(IDD_CHOOSECOLOR);

m_cc.hInstance=0;

}

 

Phép toán hoặc bit (|) tránh làm mất những cờ mà người dùng đã đặt. Mẫu hộp thoại IDD_CHOOSECOLOR được chỉ ra trong lpTemplateName. Vì mẫu này nằm trong cùng một thể hiện ứng dụng với nơi gọi hộp thoại nên hInstance có thể đặt bằng 0. Cách làm đối với các Common Dialog khác không có gì khác biệt.

Do việc thay thế mẫu hộp thoại được Win32 Platform SDK hỗ trợ nên nếu bạn không sử dụng MFC, cách Việt hóa cũng tương tự. Bạn có thể viết một hàm VietChooseColor thay thế hàm ChooseColor. Trong đó, trước khi gọi hàm ChooseColor, bạn thực hiện việc đặt mẫu như trong cấu tử của CSpecColorDialog.

BOOL VietChooseColor(LPCHOOSECOLOR lpcc)

{

lpcc->Flags|=CC_ENABLETEMPLATE;

lpcc->lpTemplateName=MAKEINTRESOURCE(IDD_CHOOSECOLOR);

lpcc->hInstance=0;

return ChooseColor(lpcc);

}

Bây giờ, VietChooseColor ứng xử hoàn toàn như ChooseColor, ngoại trừ nó có giao diện tiếng Việt.

Message Box

Việc hiển thị thông báo tiếng Việt rất đơn giản. Chỉ cần truyền vào các xâu Unicode tiếng Việt như là tham số cho hàm MessageBox(W). Nhưng để ứng dụng được Việt hóa hoàn thiện thì các nút bấm (Button) cũng phải dùng tiếng Việt. Để làm được điều này, ta buộc phải viết lại hàm MessageBox cho riêng mình, một cách thức cổ điển mà hầu như ứng dụng tiếng Việt nào cũng sử dụng. Tuy nhiên, ở đây tác giả cố gắng tạo một MessageBox linh động hơn: có thể tạo ra số nút bấm tuỳ ý. Nhờ vậy, ta có thể giả lập tất cả các loại MessageBox của Windows.

Đầu tiên, tạo một mẫu hộp thoại chỉ gồm một điều khiển là Static Text, đặt tên tài nguyên cho nó để ta có thể tìm và xử lí. Sau đó, tạo một lớp gắn với mẫu (giả sử là CVMsgDlg). Toàn bộ quá trình tạo dialog thực sự chủ yếu nằm trong OnInitDialog. Ở đây, ta tạo icon, các nút bấm, đặt vị trí và kích thước phù hợp cho chúng. Quá trình này khá tốn công sức vì mang nhiều tính thủ công, có lẽ không cần thiết phải trình bày chi tiết ở đây. Điểm mấu chốt là tạo một mảng kích thước động các nút bấm CButton*buttons. Các nút được tạo động bằng phương thức CButton::Create. Ta có thể xử lí thông điệp WM_COMMAND mà các nút bấm gửi cho dialog thông qua hàm ảo CWnd::OnCommand. Ta cũng cần phải thay đổi cư xử của khung ứng dụng khi nút OK và Cancel được nhấn. Chỉ cần định nghĩa chồng hàm OnOk và OnCancel bằng những hàm rỗng. Cũng không thể quên việc huỷ bỏ các thành phần khi dialog kết thúc trong thông điệp WM_DESTROY.

Hộp thoại được Việt hoá và hộp thoại khi thiết kế

Hộp thoại được Việt hoá và hộp thoại khi thiết kế

Cuối cùng là viết hàm VietMessageBox dùng lớp này. Hàm này chỉ đơn giản là tách thông tin truyền vào và truyền hợp lí cho cấu tử của lớp. Sau đó, hàm trả về giá trị của dialog.DoModal(), là ID của nút được nhấn.

Nếu không sử dụng MFC, vấn đề cơ bản là thay đổi trong lớp CVMsgDlg. Thay vì dùng các phương thức của các lớp, bạn phải dùng các hàm SDK; chẳng hạn thay CButton::Create bằng CreateWindow với lớp “BUTTON”. Tuy nhiên, sử dụng thư viện lớp thì đơn giản hơn.

Trên đây, tôi đã chia sẻ với các bạn một cách Việt hóa Unicode cho chương trình VC++, chạy trong WindowsNT/2000/XP. Hi vọng có thể giúp các bạn phát triển những ứng dụng thuần Việt tốt và nhanh.