Archive

Archive for March, 2008

Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng việt

Độ tương đồng ngữ nghĩa giữa các câu đóng một vai trò ngày càng quan trọng trong nghiên cứu text mining, web mining và xử lý ngôn ngữ tự nhiên. Nó cũng được sử dụng như là một tiêu chuẩn của trích chọn thông tin để tìm ra những tri thức ẩn trong cơ sở dữ liệu hay trên các kho dữ liệu trực tuyến. Một ứng dụng thực tế là khi tìm kiếm ảnh từ một trang Web, nếu xác định hợp lý sự tương đồng ngữ nghĩa giữa câu truy vấn với các đoạn text ngắn bao quanh ảnh thì hệ thống tìm kiếm sẽ đưa ra kết quả đáp ứng tốt hơn yêu cầu người dùng. Vấn đề tính toán độ tương đồng giữa các câu trong văn bản với nhau hoặc với câu chủ đề của văn bản/nhóm văn bản nhận được sự quan tâm đặc biệt trong các hội nghị khoa học quốc tế, đặc biệt trong các hội nghị thường niên về hiểu văn bản (Document Understanding Workshop – DUC) . Việc xây dựng một độ đo chuẩn xác để thể hiện được mối quan hệ tương đồng về ngữ nghĩa giữa các câu sẽ làm cho các ứng dụng trở nên “thông minh” hơn, đặc biệt trên Web [Sen07, STP06]. Tồn tại một số phương pháp tính toán độ tương đồng giữa các câu, mà điển hình là phương pháp dựa trên tính toán thống kê và phương pháp dựa trên quan hệ ngữ nghĩa giữa tập các từ trong hai câu đó [BKO07, LLB06].

Đối với tiếng Việt, “xây dựng và phát triển một số sản phẩm tiêu biểu về xử lý tiếng Việt và tìm kiếm thông tin trên Internet bằng tiếng Việt cho đông đảo người sử dụng máy tính và Internet” đã trở nên cấp thiết [MB06], là động lực triển khai Đề tài cấp Nhà nước KC.01.01.06-10 . Tương tự như tiếng Anh, vấn đề tương đồng ngữ nghĩa giữa các thành phần trong văn bản được đề cập trong hầu hết các bài toán thiết yếu xử lý văn bản tiếng Việt. Tuy nhiên, các giải pháp hiện có thường quan tâm tới các loại độ đo dựa vào thống kê [LMT06, PT05] mà chưa khai thác các độ đo dựa vào xử lý ngôn ngữ tự nhiên như đã được tiến hành đối với tiếng Anh. Nguyên nhân của hạn chế là do các nghiên cứu xử lý văn bản tiếng Việt vẫn đang trong các giai đoạn ban đầu “phần đông là các nghiên cứu ngắn hạn và đơn lẻ ở mức đề tài thạc sỹ, tiến sỹ với nhiều hạn chế về thời hạn và điều kiện” [MB06].

Báo cáo này sẽ tập trung vào việc nghiên cứu và đánh giá độ đo dựa trên xử lý ngôn ngữ tự nhiên là Jiang Conrath JCN được Siddharth Patwardhan trình bày [Pad03], đưa ra mô hình sử dụng độ đo đó vào việc tính độ tượng tự câu trong tiếng Việt và áp dụng vào bài toán tóm tắt trang web tiếng Việt dựa vào câu truy vấn trên máy tìm kiếm. Để có thể tính toán thử nghiệm được đô đo trên, nhóm tác giả cũng đã xây dựng một bộ phận wordnet thô cho tiếng Việt bằng việc chuyển tự động từ wordnet tiếng Anh.

Xây dựng Ontology cho lĩnh vực y tế

Giới thiệu

Sự bùng nổ các tài nguyên y tế, đặc biệt là các thông tin trực tuyến liên quan đến lĩnh vực sức khỏe như Wikipedia, các cơ sở dữ liệu về tài liệu y tế như MEDLINES, PUBMEDs làm người dùng khó có thể theo dõi cũng nắm bắt những thông tin cập nhật nhất. Công nghệ tìm kiếm thông tin truyền thống hoặc là trả về kết quả quá ít do sự phong phú, phức tạp của việc diễn đạt ngôn ngữ tự nhiên; hoặc quá nhiều theo nghĩa người tìm tin chỉ muốn tìm kiếm những tri thức ẩn chứ không chỉ là các văn bản chứa từ khóa tìm kiếm. Vì thế, trong khoảng hai thập niên gần đây, có nhiều công trình nhằm trích rút các thông tin có cấu trúc từ những tài nguyên này nhằm xây dựng các cơ sở tri thức cho việc tổ chức thông tin, tìm kiếm, truy vấn, quản lý và phân tích thông tin.

Theo hướng này, đã có rất nhiều bài toán được đặt ra trong lĩnh vực trích chọn thông tin y tế như BioCreative-I (nhận diện các tên genes và protein trong văn bản), LLL05 (trích chọn thông tin về gene), BioCreative-II (trích chọn quan hệ tương tác giữa các protein), …Những bài toán được đưa ra nhằm đánh giá các chiến lược khai phá dữ liệu y tế và đặc biệt tập trung vào 2 bài toán con: nhận diện thực thể và trích chọn quan hệ. Nhận diện thực thể đòi hỏi nhận biết các thành phần cơ bản như tên thuốc, tên bệnh, triệu chứng, gene, protein, … trong văn bản. Xác định quan hệ với một mẫu cho trước là nhận biết một trường hợp của quan hệ này trong văn bản. Ví dụ: xác định quan hệ <gây_ra> giữa một bệnh xác định và một virus xác định. Ontology là một trong những cách biểu diễn mẫu cho các khái niệm, quan hệ đó một cách nhất quán và phong phú nhất. Việc xây dựng một ontology cho y tế trong tiếng Việt sẽ là cơ sở cho phép tìm kiếm, khai phá loại thông tin này một cách hiệu quả.

Tìm kiếm ngữ nghĩa dựa trên Ontology là một trong những nội dung được quan tâm trong thời gian gần đây. Dựa trên Ontology, ta có thể tiến hành lập luận, trả lời câu hỏi người dùng theo cách thức gần gũi với con người hơn (Question-Answering) hoặc giúp tăng performance cho các phương pháp tìm kiếm hiện có.

Báo cáo

Báo cáo nghiên cứu khoa học sinh viên năm 2008 download.

Một số nghiên cứu liên quan đến xử lý tiếng Việt tại SISLab

Download tài liệu giới thiệu tại đây.