Mô hình hệ thống Q&A đơn giản dựa vào tóm tắt đa văn bản.
Kết hợp độ tương đồng ngữ nghĩa dựa vào mạng ngữ nghĩa Wikipedia và ontology về y tế với mô hình hệ thống Q&A dựa vào tóm tắt đa văn bản, nhóm nghiên cứu tóm tắt đa văn bản đề xuất một mô hình hệ thống Q&A hỗ trợ miền dữ liệu về y tế.
- A Semantic Free-text Summarization System Using Ontology Knowledge R. Verma, University of Houston P. Chen, University of Houston-Downtown W. Lu, University of Texas-Austin, DUC 07.
- Language Model Passage Retrieval for Question-Oriented Multi Document Summarization J.-C. Ying, S.-J. Yen, Y.-S. Lee, Y.-C. Wu, J.-C. Yang, National Central University, DUC 07.
Người trình bày: Trần Mai Vũ
Download: MD-Summarization300808
Silde giới thiệu sơ bộ bài toán trích chọn thông tin và cụ thể đầu tiên phải giải quyết bài toán nhận dạng thực thể trong lĩnh vực y tế tiếng Việt. Chỉ ra các bước cụ thể trong hệ thống nhận dạng thực thể, các cách chọn nhãn, tính năng (features) sao cho phù hợp với lĩnh vực xây dựng, nghiên cứu các mô hình học máy để chọn lựa mô hình phù hợp nhất cho quá trình huấn luyện.
Download slide tại đây.
Giới thiệu
Sự bùng nổ các tài nguyên y tế, đặc biệt là các thông tin trực tuyến liên quan đến lĩnh vực sức khỏe như Wikipedia, các cơ sở dữ liệu về tài liệu y tế như MEDLINES, PUBMEDs làm người dùng khó có thể theo dõi cũng nắm bắt những thông tin cập nhật nhất. Công nghệ tìm kiếm thông tin truyền thống hoặc là trả về kết quả quá ít do sự phong phú, phức tạp của việc diễn đạt ngôn ngữ tự nhiên; hoặc quá nhiều theo nghĩa người tìm tin chỉ muốn tìm kiếm những tri thức ẩn chứ không chỉ là các văn bản chứa từ khóa tìm kiếm. Vì thế, trong khoảng hai thập niên gần đây, có nhiều công trình nhằm trích rút các thông tin có cấu trúc từ những tài nguyên này nhằm xây dựng các cơ sở tri thức cho việc tổ chức thông tin, tìm kiếm, truy vấn, quản lý và phân tích thông tin.
Theo hướng này, đã có rất nhiều bài toán được đặt ra trong lĩnh vực trích chọn thông tin y tế như BioCreative-I (nhận diện các tên genes và protein trong văn bản), LLL05 (trích chọn thông tin về gene), BioCreative-II (trích chọn quan hệ tương tác giữa các protein), …Những bài toán được đưa ra nhằm đánh giá các chiến lược khai phá dữ liệu y tế và đặc biệt tập trung vào 2 bài toán con: nhận diện thực thể và trích chọn quan hệ. Nhận diện thực thể đòi hỏi nhận biết các thành phần cơ bản như tên thuốc, tên bệnh, triệu chứng, gene, protein, … trong văn bản. Xác định quan hệ với một mẫu cho trước là nhận biết một trường hợp của quan hệ này trong văn bản. Ví dụ: xác định quan hệ <gây_ra> giữa một bệnh xác định và một virus xác định. Ontology là một trong những cách biểu diễn mẫu cho các khái niệm, quan hệ đó một cách nhất quán và phong phú nhất. Việc xây dựng một ontology cho y tế trong tiếng Việt sẽ là cơ sở cho phép tìm kiếm, khai phá loại thông tin này một cách hiệu quả.
Tìm kiếm ngữ nghĩa dựa trên Ontology là một trong những nội dung được quan tâm trong thời gian gần đây. Dựa trên Ontology, ta có thể tiến hành lập luận, trả lời câu hỏi người dùng theo cách thức gần gũi với con người hơn (Question-Answering) hoặc giúp tăng performance cho các phương pháp tìm kiếm hiện có.
Báo cáo
Báo cáo nghiên cứu khoa học sinh viên năm 2008 download.