Nghiên cứu về hệ thống hỏi đáp nhằm xây dựng hệ thống hỏi đáp tự động về pháp luật ngành tài nguyên và môi trường.

09:17 18/05/2018

Với nhu cầu trao đổi thông tin của con người ngày càng cao, thông tin tràn ngập trên mọi phương tiện truyền thông, đặc biệt là sự phát triển rộng rãi của mạng toàn cầu Internet, hằng ngày con người phải xử lý một lượng thông tin khổng lồ. Những câu hỏi, thắc mắc của người dùng dưới dạng truy vấn sẽ được tìm kiếm và được hệ thống trả lời một cách ngắn gọn, súc tích, chính xác nhất những kết quả mà họ mong muốn. Đó chính là mục tiêu của hệ thống hỏi-đáp tự động nói chung và hệ thống hỏi đáp về pháp luật ngành tài nguyên môi trường nói riêng.

Hệ thống hỏi-đáp tự động (Question Answering-QA) là một hệ thống được xây dựng để thực hiện việc tìm kiếm câu trả lời cho một câu hỏi của người dùng.

Hệ thống hỏi-đáp tự động liên quan đến 3 lĩnh vực lớn là xử lý ngôn ngữ tự nhiên (Natural Language Processing), tìm kiếm thông tin (Information Retrieval) và rút trích thông tin (Information Extraction).

Hệ thống hỏi đáp được chia làm hai loại:

Hệ thống hỏi-đáp lĩnh vực hẹp (Closed-domain Question Answering): hệ thống này liên quan đến các câu hỏi trong một lĩnh vực cụ thể, chẳng hạn như lĩnh vực y học.
Hệ thống hỏi-đáp lĩnh vực rộng (Open-domain Question Answering): hệ thống này liên quan đến các câu hỏi gần như là về tất cả mọi thứ.

Hệ thống hỏi-đáp nhận được rất nhiều mối quan tâm của cộng đồng các nhà nghiên cứu. Điều này bắt nguồn từ việc một lượng tài liệu lớn có gắn chỉ mục sẵn có trên Internet, cùng với các thành tựu trong lĩnh vực rút trích thông tin và sự gia tăng nhu cầu thương mại cho các sản phẩm QA trên toàn cầu.

Rất nhiều phương pháp tiếp cận khác nhau được sử dụng trong các hệ thống hỏi-đáp gần đây như phương pháp thống kê, phương pháp dựa trên luật, và các phương pháp tổng hợp. Hầu hết các hệ thống hỏi-đáp ngày càng trở nên phức tạp, thường sử dụng rất nhiều các mô-đun khác nhau, chẳng hạn như tìm kiếm thông tin, phân tích cú pháp câu, phân tích loại câu hỏi, phân tích ngữ nghĩa, và thậm chí dùng phương pháp suy luận (Moldovan et al., 2002) để đánh giá, và xếp hạng câu trả lời. Với sự gia tăng tính phức tạp của hệ thống hỏi-đáp, sẽ rất khó khăn để xác định hiệu quả của hệ thống đến từ hiệu quả của giai đoạn nào.

Một hệ thống hỏi đáp thông thường, thường có:

Thứ nhất: Giao diện người dùng (User Interface)

Giao diện người dùng là một phần quan trọng của hệ thống hỏi đáp, Hầu hết các hệ thống hỏi-đáp đã được triển khai thực hiện trong thời gian gần đây cung cấp cho người dùng một giao diện web mà người dùng có thể nhập câu hỏi vào. Các câu hỏi sau đó được gửi đi, hệ thống sẽ xử lý và trả về cho người dùng một câu trả lời dưới định dạng tương tự.

Thứ hai: Phân tích câu hỏi (Question Analyzer) và tìm kiếm dữ liệu (Data Retrieval)

Phân tích câu hỏi: đóng vai trò quan trọng trong bất kỳ loại hình hệ thống hỏi- đáp nào. Trong giai đoạn này, câu hỏi được phân tích và xử lý để trích lọc càng nhiều thông tin càng tốt mà có thể được sử dụng sau này trong giai đoạn tìm kiếm dữ liệu. Kết quả của bước này khác nhau tùy theo việc phân tích câu hỏi nông hay sâu.

Tìm kiếm câu trả lời: Một số thông tin đã được trích xuất trong giai đoạn phân tích câu hỏi sẽ được sử dụng để tìm kiếm thông tin trong cơ sở tri thức. Điều này có thể được thực hiện bằng nhiều phương pháp khác nhau. Trong giai đoạn tìm kiếm dữ liệu của hệ thống hỏi-đáp, điều quan trọng là lấy càng nhiều thông tin có liên quan đến câu hỏi càng tốt. Chất lượng của việc tìm kiếm tài liệu sẽ ít quan trọng hơn bởi vì kết quả sẽ không cần thiết phải được hiển thị ra giao diện cho người dùng. Điều quan trọng là những thông tin do người dùng yêu cầu sẽ được tìm thấy.

Thứ ba: Rút trích câu trả lời (Answer Extraction)

Rút trích câu trả lời thuộc lĩnh vực rút trích thông tin. Thông tin đã được trả về trong giai đoạn này có thể là các tài liệu hoặc các văn bản từ việc truy vấn cơ sở dữ liệu. Phương pháp cơ bản nhất để phát sinh ra một câu trả lời là rút trích những phần thông tin có liên quan ngữ nghĩa nhất với câu hỏi. Các phần thông tin này được tổng hợp để tạo thành một câu trả lời hoặc nhiều câu trả lời.

Thứ tư: Xếp hạng (Ranking)

Nếu các kết quả của giai đoạn rút trích câu trả lời có nhiều hơn một câu trả lời thì các câu trả lời sẽ được xếp hạng dựa trên mức độ liên quan về mặt ngôn ngữ với câu hỏi của người dùng. Có rất nhiều cách tiếp cận khác nhau để xác định mức độ liên quan của các câu trả lời và điều này liên quan mật thiết với cách xác định câu trả lời trong giai đoạn rút trích thông tin từ các tài liệu ở bước trước.

Thứ năm: Xác minh câu trả lời (Answer Verification)

Một số hệ thống QA cải thiện thêm tính chính xác bằng cách phân tích các câu trả lời thu được, qua việc sử dụng phương pháp xử lý ngôn ngữ tự nhiên bằng cách phân tích sâu hơn để xác minh lại câu hỏi. Các câu hỏi và câu trả lời được phân tích cú pháp và chuyển đổi sang cùng một hình thức logic. Các câu hỏi và câu trả lời sau đó được so sánh với nhau để xác minh tính hợp lý của các câu trả lời.

Ngoài ra, khi xây dựng hệ thống hỏi đáp cần quan tâm đến một số yếu tố như: Loại câu hỏi, xử lý câu hỏi, ngũ cảnh và hệ thống hỏi đáp, nguồn dữ liệu cho hệ thống hỏi đáp, trích xuất câu trả lời, tiếng Việt trong hệ thống hỏi đáp. Cụ thể:

Về loại câu hỏi: Câu hỏi trong ngôn ngữ tự nhiên rất đa dạng, ẩn ý, không rõ nghĩa và phụ thuộc vào ngữ cảnh. Một số loại câu hỏi đang được quan tâm trong hệ thống hỏi đáp như câu hỏi về sự vật, sự kiện, định nghĩa, danh sách, quá trình, cách thức, lý do... Mỗi loại câu hỏi có những đặc trưng và khó khăn riêng, đòi hỏi phải có các chiến lược riêng để trả lời chúng.
Xử lý câu hỏi: Cùng một loại câu hỏi có thể được diễn đạt qua nhiều cách khác nhau. Một mô hình ngữ nghĩa cần xây dựng có khả năng xác định được các câu hỏi tương tự, các quan hệ ngữ pháp, đồng thời có thể chuyển một câu hỏi phức tạp thành chuỗi các câu hỏi đơn giản hơn.
Ngữ cảnh và hệ thống hỏi đáp: Câu hỏi thường được gắn với ngữ cảnh và câu trả lời cũng được đưa ra trong một ngữ cảnh xác định. Việc sử dụng các thông tin về ngữ cảnh giúp hệ thống hỏi đáp hiểu câu hỏi một cách rõ ràng, loại bỏ được các nhập nhằng và tăng tính chính xác của câu trả lời tìm được khi người dùng hỏi một loạt các câu hỏi liên quan đến cùng một ngữ cảnh.
Nguồn dữ liệu cho hệ thống hỏi đáp: Nguồn dữ liệu cho hệ thống hỏi đáp có thể là tập nhỏ các tài liệu của tổ chức, dữ liệu thu thập từ các nguồn như sách, báo chí hay các trang web. Tuy nhiên cần đảm bảo nguồn dữ liệu có độ tin cậy cao.
Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố: độ phức tạp của câu hỏi, loại câu hỏi có được từ quá trình xử lý câu hỏi, dữ liệu chứa câu trả lời, phương pháp tìm kiếm và ngữ cảnh,. nhưng đảm bảo yêu cầu câu trả lời cho người dùng phải chính xác.
Lĩnh vực hỏi-đáp tiếng Việt còn khá mới mẻ và mới được quan tâm trong một vài năm gần đây. Ý tưởng của nghiên cứu này là các câu hỏi gửi lên diễn đàn sẽ được phân loại và phân phối tự động đến các chuyên gia có chuyên môn tương ứng. Quá trình phân loại dựa trên các luật phân lớp được rút trích tự động từ tập dữ liệu học là các câu hỏi đã gán nhãn. Các câu hỏi này vẫn sẽ được trả lời thủ công bởi các chuyên gia.

Hệ thống hỏi-đáp tự động là một công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm thông tin ngày càng cao của con người, nhưng hệ thống hỏi- đáp tiếng Việt lại mới chỉ được quan tâm trong vài năm gần đây.

Như vậy, việc xây dựng một hệ thống hỏi-đáp tiếng Việt là một nhu cầu cần thiết. Hướng tới mục tiêu này, chúng tôi xây dựng một hệ thống hỏi-đáp tự động tiếng Việt nhằm phục vụ cho một lĩnh vực cụ thể là nghiên cứu các giải pháp phục vụ xây dựng hệ thống hỏi đáp tự động về pháp luật ngành tài nguyên và môi trường.

Nguồn: Dinte