Chống lại sự “tàn phá chính tả” bằng CNTT

 
Tiếng Việt có lẽ đang ở vào thời “loạn chính tả” do tỷ lệ viết sai khó có thể chấp nhận, ngay cả ở khu vực Nhà nước, viện nghiên cứu, báo chí… Vì thế, CNTT Việt Nam cần xử lý chính tả tiếng Việt trước khi xử lý kho tài nguyên thông tin, tri thức tiếng Việt.

Theo TS. Nguyễn Ái Việt, Phó Viện trưởng Viện Công nghệ Thông tin, Đại học Quốc gia Hà Nội, “vấn đề cốt lõi của CNTT Việt Nam là xử lý tiếng Việt, bởi tất cả tài nguyên thông tin đều bằng tiếng Việt, tất cả tri thức của người Việt Nam đều được ghi lại bằng tiếng Việt. Ứng dụng CNTT là xử lý thông tin, xử lý tri thức, muốn vậy, phải xử lý tiếng Việt trước”. Với quan điểm này, theo ông, các ứng dụng CNTT cơ bản cần làm trước nhất chính là làm sao nâng cao chất lượng hệ thống thông tin. Cụ thể, chính là các phần mềm giúp viết đúng chính tả, hỗ trợ soát lỗi chính tả, giúp nâng cao chất lượng văn bản. Ngoài ra, nguồn tri thức Việt Nam chưa có nhiều nên cách tốt nhất là huy động kiến thức của nhân loại qua chiếc máy tính. Đó chính là các phần mềm dịch tự động, các công cụ tìm kiếm (tìm theo từ khóa, theo ngữ nghĩa, theo đặc tính).

TS.Nguyễn Ái Việt.

Từ soát lỗi chính tả…

Có thể nói, chính tả – tuy là vấn đề rất cơ bản nhưng sự ảnh hưởng của nó là rất lớn. Đối với các văn bản pháp quy, nếu sai chính tả hay từ dùng có 2 nghĩa khi ra pháp đình sẽ khó khăn cho công tác xét xử; với các hợp đồng kinh doanh, sai chính tả có thể gây thiệt hại về kinh tế, đối tác đánh giá thấp về trình độ, chất lượng sản phẩm; các website công quyền sai chính ta gây mất niềm tin ở người dân…

Thời gian qua, Viện CNTT (ĐHQG HN) đã phối hợp cùng Công ty Viegrid đã nghiên cứu và phát triển các nhóm sản phẩm này. Phần mềm soát lỗi chính tả cũng đã được ứng dụng trong dự án “Xếp hạng văn bản tiếng Việt” do Viện chủ trì. Tính đến tháng 6/2010, dự án đã đánh giá được 177 đơn vị và xếp hạng 132 đơn vị theo 7 khu vực (Bộ và Văn phòng trung ương; Ủy ban nhân dân Tỉnh và Thành phố trực thuộc Trung ương; Cơ quan thuộc Chính phủ và thuộc Bộ; Đại học và Viện nghiên cứu; Báo chí, nhà xuất bản và cơ quan truyền thông; Doanh nghiệp Việt Nam; Tổ chức và cơ quan nước ngoài tại Việt Nam). Đáng nói là tất cả 7 khu vực này đều có tỉ lệ viết sai chính tả từ 4 đến 10% (tỉ lệ có thể chấp nhận được theo các nhà ngôn ngữ học chỉ là 1%). Chi tiết kết quả đánh giá xem trên www.xephangvanban.com.

Lối chính tả ở một tờ báo điện tử. Không có "sáng lạn", chỉ có "xán lạn" trong Từ điển tiếng Việt của Viện Ngôn ngữ học.

Hãy khoan bàn về mức độ chính xác của việc xếp hạng mà đây là lần đầu tiên, nhờ công cụ CNTT, chúng ta có được một con số định lượng về mức độ sai lỗi chính tả của Việt Nam. Lâu nay, chúng ta chỉ có những đánh giá mang cảm tính về tình trạng viết sai chính tả trên báo chí hay trong xã hội. Dự án đã đi được vào những “thâm cung” như trong các cơ quan thuộc Chính phủ, thuộc Bộ, các cơ quan trung ương, địa phương…

Vì sao lại có tình trạng sai chính tả phổ biến như vậy ngay cả ở những nơi “nhạy cảm”? Theo TS.Nguyễn Ái Việt, sai chính tả thể hiện sự chưa làm tròn trách nhiệm của người công chức và của doanh nghiệp đó đối với chất lượng công việc hàng ngày của mình. Đơn cử những quyển sách xuất bản trước năm 1990 dày vài trăm trang nhưng cũng chỉ có một vài lỗi, còn nay, một cuốn sách vừa xuất bản mà ông vừa thử kiểm tra có đến 304 lỗi.

Vấn đề đáng nói hơn, theo TS.Nguyễn Ái Việt, mặc dù CNTT có thể tham gia vào toàn bộ các khâu từ soát lỗi, sửa lỗi, hỗ trợ soạn thảo văn bản…, nhưng vấn đề là chúng ta chưa có chuẩn về chính tả. Hiện vẫn chưa có cơ quan nào được giao nhiệm vụ này. Viện Ngôn ngữ chủ yếu chỉ nghiên cứu. Bộ Giáo dục – Đào tạo chỉ có trách nhiệm quản lý việc dạy và học trong nhà trường, Bộ Nội vụ chỉ có quyền ra những quy định về quy cách văn bản hành chính. Các khu vực còn lại không chịu sự quản lý của hai bộ này. Có những quy tắc chính tả như sử dụng dấu “chấm phảy” không thể tìm trong bất cứ cuốn sách thông thường nào, trong khi người sử dụng khá tùy tiện với các quy tắc như vậy. Theo ông, nên có một đơn vị đầu mối hàng năm chuyên xuất bản từ điển chính tả hoặc những cuốn sách giáo khoa đơn giản về chính tả để mọi người tuân theo.

…đến việc hợp tác giữa CNTT và Ngôn ngữ học

Theo TS. Nguyễn Ái Việt, các công ty CNTT hoạt động trong lĩnh vực xử lý tiếng Việt như Tinh Vân, Lạc Việt, Viegrid… đều đã có những hợp tác với các nhà ngôn ngữ học. Thế nhưng, theo quan sát của ông, việc hợp tác mới chỉ là hình thức mà chưa thực sự có những hợp tác theo chiều sâu. Cho đến nay, vẫn có khoảng cách giữa 2 giới CNTT và ngôn ngữ học. Trong khi đó, trên thế giới, ngành ngôn ngữ học tính toán đã có từ lâu. Những người học ngành này là những người rất giỏi về ngôn ngữ học và họ biết dùng CNTT để xử lý. Còn tại Việt Nam, hai giới ngôn ngữ học và CNTT vẫn chưa thực sự hiểu bài toán của nhau để đặt vấn đề cho chuẩn.

"Có rất nhiều vấn đề về ngôn ngữ cần phải xử lý như xây dựng các máy dịch tự động, xây dựng các cỗ máy tìm kiếm tiếng Việt, xử lý và nhận dạng tiếng nói…", ông Việt đề cập. Cá nhân ông rất mong muốn có một dự án về xử lý tiếng Việt mang tầm quốc gia để hai giới có cơ hội hợp tác chặt chẽ. Giới Ngôn ngữ học có thể đặt vấn đề, còn giới CNTT sẽ cung cấp các công cụ để xử lý.

Đã đến lúc, vấn đề xử lý tiếng Việt cần được quan tâm đúng mức bởi nói như TS.Nguyễn Ái Việt "Nói sai một chữ có thể chưa hại ngay đến ai nhưng nó sẽ để lại hậu quả về sau. Ngôn ngữ bị tàn phá thì hậu quả không kém gì nạn đói".

(Theo PC World)