Archive

Author Archive

Tóm tắt đa văn bản hướng vào câu hỏi người sử dụng

September 11th, 2008 No comments

Mô hình hệ thống Q&A đơn giản dựa vào tóm tắt đa văn bản.

Kết hợp độ tương đồng ngữ nghĩa dựa vào mạng ngữ nghĩa Wikipedia và ontology về y tế với mô hình hệ thống Q&A dựa vào tóm tắt đa văn bản, nhóm nghiên cứu tóm tắt đa văn bản đề xuất một mô hình hệ thống Q&A hỗ trợ miền dữ liệu về y tế.

  1. A Semantic Free-text Summarization System Using Ontology Knowledge R. Verma, University of Houston P. Chen, University of Houston-Downtown W. Lu, University of Texas-Austin, DUC 07.
  2. Language Model Passage Retrieval for Question-Oriented Multi Document Summarization J.-C. Ying, S.-J. Yen, Y.-S. Lee, Y.-C. Wu, J.-C. Yang, National Central University, DUC 07.

Người trình bày: Trần Mai Vũ

Download: MD-Summarization300808

Some studies on Vietnamese multi-document summarization and semantic relation extraction at the Laboratory of Data Mining & Knowledge Science

September 11th, 2008 No comments

Presenters: Lecturer, MSc. PhD. Student Nguyen Cam Tu and MSc. Student Tran Mai Vu

1. Vietnamese multi-document summarization

For an user query, the search engine VNSEN returns a set of Vietnamese web pages A.

The group considers some tasks as follows:

  • To cluster the set A into groups of Vietnamese web pages A1, A2, …, Ak. We have integrated a clustering component in our Vietnamese search engine VNSEN [4] by using the HTC algorithm [CTT08]. We are going to ugrade the component by using the hiden topic model to modify the module [Tu08].
  • For each subset Ai, to multi-document summarize for a label and a summarization [CTT08, VUH08]. We also compare our solution in VNSEN with the component of the search engine Vivisimo.

The group also considers using some solutions of Text Segmentation and Title Generation [BDB07, DZS03] for Generating a Table-of-Contents [Cuo07].

2. Semantic relation extraction

By using the researching results by Corina Roxana Girju [Rox02], we investigated some cause-and-effect relations such as Adverbial causal link, Preposition causal link, Subordination causal link, Clause integrated link [Han05]. These relations are usefull for making a Vietnamese Ontology for sementic searching on the field of Medical Health Care [TNT08]. For upgrading the Vietnamese search engine VNSEN to become a Vietnamese entity search engine [CC07, Cha08], the semantic Relation Extraction and its Applications [Rox08] will be studied.?

References

[BDB07] Branavan S.R.K., Deshpande P., Barzilay R. (2007). Generating a Table-of-Contents, In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics: 544-551, Prague, Czech Republic.

[CC07] Tao Cheng, Kevin Chen-Chuan Chang: Entity Search Engine: Towards Agile Best-Effort Information Integration over the Web. CIDR 2007: 108-113

[Cha08] Kevin C. Chang (2008). Data-Aware Search on the Web, Act. 2: Entity Search, Technical Report, The Database and Information Systems Laboratory, University of Illinois at Urbana-Charmpaign (a talking in the seminar at College of Technology, Vietnam National University, Hanoi, July 08, 2008).

[CTT08] Nguyen Thi Thu Chung, Nguyen Thu Trang, Nguyen Cam Tu, Ha Quang Thuy (2008). An evaluation on clustering component of Vietnamese search engine, The 11th National Conference on Information Technology of Vietnam, Hue, June 12-13, 2008 (in Vietnamese; submitted and presented).

[Cuo07] Nguyen Viet Cuong (2007). Automatically Constructing a Table-of-Contents for long text. Master Thesis, College of Technology, Vietnam National University, Hanoi, November, 2007 (in Vietnamese).

[DZS03] Dorr B., Zajic D., Schwartz R. (2003). Hedge Trimmer: A parse-and-trim approach to headline generation, Proceedings of the HLT-NAACL 2003 Workshop on Text Summarization: 1-8, Edmonton, Canada.

[Han05] Vu Boi Hang (2005). Extraction cause-and-effect relations from Vietnamese document, Master Thesis, College of Technology, Vietnam National University, Hanoi, June 2005 (in Vietnamese).

[Rox02] Corina Roxana Girju (2002). Text mining for semantic relations, PhD. Thesis, The University of Texas at Dallas, 2002

[Rox08] Corina Roxana Girju (2008). Semantic Relation Extraction and its Applications, Invited tutorial at the European Summer School in Logic, Language and Information (ESSLLI 2008), Hamburg, Germany, August 2008.

[TNT08] Le Dieu Thu, Tran Thi Ngan, Nguyen Cam Tu, Nguyen Thu Trang (2008). A Vietnamese Ontology for sementic searching on the field of Medical Health Care, The 11th National Conference on Information Technology of Vietnam, Hue, June 12-13, 2008 (in Vietnamese; submitted and presented).

[Tu08] Nguyen Cam Tu (2008). Hidden Topic Discovery Towards Classification and ?
Clustering in Vietnamese Web Documents, Master Thesis, College of Technology, Vietnam National University, Hanoi, May, 2008.

[VUH08] Tran Mai Vu, Pham Thi Thu Uyen, Hoang Minh Hien, Ha Quang Thuy (2008). Semantic Similarity of sentences and application for multi-document summarization to evalute on clustering component of Vietnamese search engine, Workshop on Information Communication Technology (ICTFIT08), College of Science, Vietnam National University, Ho Chi Minh City, November 14, 2008 (in Vietnamese, accepted).

Some Vietnamese language processing utilities

  1. Nguyen Cam Tu, Phan Xuan Hieu. JvnSegmenter. http://jvnsegmenter.sourceforge.net
  2. Nguyen Cam Tu. JVnTextpro: A Java-based Vietnamese Text Processing Toolkit, SISLab Software Utility, College of Technology, Vietnam National University, Hanoi.
  3. Nguyen Cam Tu. JGibbsLDA: A Java and Gibbs Sampling based Implementation of Latent Dirichlet Allocation (LDA), SISLab Software Utility, College of Technology, Vietnam National University, Hanoi.
  4. http://203.113.130.205:8080/sise: VNSEN Search Engine, SISLab Software, College of Technology, Vietnam National University, Hanoi.

Download: NEC090908

Tổng quan về quan hệ ngữ nghĩa

September 1st, 2008 1 comment

Roxana Girju (2008). “Semantic Relation Extraction and its Applications”, invited tutorial at ESSLLI 2008 (European Summer School in Logic, Language and Information), Hamburg, Germany, August 2008.

http://vnlp.net/uploads/@Girju_sematic_relation.pdf

Tuyển Sinh viên NCKH

Nhằm thực hiện kế hoạch nghiên cứu khoa học – triển khai công nghệ giai đoạn 2008-2009 và chuẩn bị đội ngũ kế cận, nhóm nghiên cứu “Khai phá dữ liệu và ứng dụng”, Phòng Thí nghiệm “Công nghệ Tri thức và An toàn thông tin” tuyển thành viên sinh viên đợt tháng 9/2008.

Nội dung nghiên cứu

  • Khai phá dữ liệu văn bản tiếng Việt (Vietnamese Text Mining và Web Mining) bao gồm cả các nghiên cứu về xử lý ngôn ngữ tiếng Việt (kho ngữ liệu và giải pháp), Mô hình và giải pháp dựa trên đồ thị.
  • Tích hợp giải pháp khai phá dữ liệu văn bản tiếng Việt vào Máy tìm kiếm thực thể tiếng Việt (Vietnamese Entity Search Engine), định hướng tới các miền ứng dụng chuyên nghiệp, trước mắt là miền giáo dục- khoa học công nghệ, nông nghiệp và phát triển nông thôn.
  • Lọc nội dung trên Internet bao gồm lọc văn bản và lọc ảnh.
  • Một số nội dung nghiên cứu liên quan khác.

Địa điểm làm việc chính

Phòng 102E3 (Phòng thí nghiệm về Công nghệ tri thức thuộc Phòng thí nghiệm mục tiêu “Các hệ tích hợp thông minh”).

Đối tượng và định hướng nghiên cứu

  • Sinh viên các khóa K51, K52 có kết quả học tập từ loại khá trở lên và qua kỳ kiểm tra sát hạch của nhóm nghiên cứu. Số lượng tuyển đợt tháng 9/2008: 6 người.
  • Định hướng nghiên cứu: Tham gia giải quyết các vấn đề khoa học và công nghệ, tham gia công bố công trình nghiên cứu khoa học, công bố và trình bày công trình nghiên cứu khoa học sinh viên.

Quyền lợi của thành viên sinh viên

  • Được tham gia hoạt động nghiên cứu khoa học, triển khai công nghệ theo các hướng nghiên cứu khoa học thời sự dưới sự hướng dẫn tận tâm của các nhà khoa học trong và ngoài nước, trong đó có các nhà khoa học trẻ, tài năng đang công tác ở nước ngài như TS. Nguyễn Hùng Sơn (Ba Lan), TS. Nguyễn Lê Minh (Nhật Bản), TS. Đoàn Sơn (Nhật Bản), TS. Phan Xuân Hiếu (Nhật Bản), TS. Lê Sỹ Quang (Anh), TS. Nguyễn Anh Linh (Ba Lan), TS. Trương Bá Tú (Úc)…
  • Được ghi nhận là tác giả, đồng tác giả các công trình nghiên cứu khoa học, triển khai công nghệ khi có đóng góp thực sự vào kết quả của công trình:

[UHV08] Phạm Thị Thu Uyên, Hoàng Minh Hiền, Trần Mai Vũ, Hà Quang Thụy (2008). Độ tương đồng câu và áp dụng vào bài toán tóm tắt đa văn bản tiếng Việt, Hội thảo Quốc gia Một số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông lần thứ XI, Huế, 12-13/6/2008 (đã gửi toàn văn và trình bày).
[TNT08] Lê Diệu Thu, Trần Thị Ngân, Nguyễn Cẩm Tú, Nguyễn Thu Trang (2008). Xây dựng Ontology hỗ trợ tìm kíếm ngữ nghĩa trong linh vực y tế , Hội thảo Quốc gia Một số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông lần thứ XI, Huế, 12-13/6/2008 (đã gửi toàn văn và trình bày).
[CTT08] Nguyễn Thị Thu Chung, Nguyễn Thu Trang, Hà Quang Thụy (2008). Đánh giá chất lượng phân cụm trên máy tìm kiếm tiếng Việt VNSEN, Hội thảo Quốc gia Một số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông lần thứ XI, Huế, 12-13/6/2008 (đã gửi toàn văn và trình bày). [TTT08] Nguyễn Minh Tuấn, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2008). Một mô hình Maximize Entropy phân lớp câu hỏi tiếng Việt . Hội thảo Quốc gia Một số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông lần thứ XI, Huế, 12-13/6/2008 (đã gửi toàn văn và trình bày).

  • Được tham dự các Hội nghị khoa học, các khóa huấn luyện trong và ngoài nước: Tham dự khóa học ADD tại Thái Lan: Trần Mạnh Kế (ADD2, 3/2007); Lê Diệu Thu, Nguyễn Minh Tuấn, Đặng Quang Vinh, Lê Thị Hồng Hạnh (ADD3, 3/2008); các hội nghị tại Nha Trang (8/2007), Huế (6/2008).
  • Được cấp học bổng nghiên cứu khoa học tương đương học bổng khuyến khích học tập hiện nay đối với sinh viên xuất sắc.

Đăng ký,s át hạch và công bố kết quả

  • Đăng ký: Sinh viên có nguyện vọng đăng ký trong thời gian từ 03/9/2008 đến 15/9/2008 (gặp chị Nguyễn Thị Thùy Linh, Phòng 102E3).
  • Sát hạch: Một buổi trong thời gian 16/9/2008 đến 19/9/2008. Công bố kết quả từ ngày 20/9/2008 tại trang Web Bộ môn ( http://coltech.vnu.edu.vn/httt/ ), trang web của Phòng Thí nghiệm ( http://vnlp.net/ ) thông báo tại Phòng 102E3, 305E3.

Nhóm nghiên cứu “Khai phá dữ liệu và ứng dụng” thuộc Bộ môn Các hệ thống thông tin và Phòng Thí nghiệm Công nghệ Tri thức và An toàn thông tin.

Categories: Tin tức Tags: ,

Một số vấn đề liên quan đến nhận dạng thực thể trong y tế tiếng Việt

Silde giới thiệu sơ bộ bài toán trích chọn thông tin và cụ thể đầu tiên phải giải quyết bài toán nhận dạng thực thể trong lĩnh vực y tế tiếng Việt. Chỉ ra các bước cụ thể trong hệ thống nhận dạng thực thể, các cách chọn nhãn, tính năng (features) sao cho phù hợp với lĩnh vực xây dựng, nghiên cứu các mô hình học máy để chọn lựa mô hình phù hợp nhất cho quá trình huấn luyện.

Download slide tại đây.

Các bước xây dựng Ontology sử dụng công cụ Protege

Phần đầu Silde giới thiệu khá chi tiết thành phần trong xây dựng Ontololy: lớp, thực thể, mối quan hệ, thuộc tính…Sau đó giới thiệu công cụ xây dựng Ontology khá phổ biến: Protege, các bước xây dựng một Ontology cụ thể. Cuối cùng lấy ví dụ xây dựng Ontology trong miền ứng dụng Mobile để làm rõ hơn các bước.

Download Silde tại đây.

Categories: Seminar Tags: ,

Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng việt

Độ tương đồng ngữ nghĩa giữa các câu đóng một vai trò ngày càng quan trọng trong nghiên cứu text mining, web mining và xử lý ngôn ngữ tự nhiên. Nó cũng được sử dụng như là một tiêu chuẩn của trích chọn thông tin để tìm ra những tri thức ẩn trong cơ sở dữ liệu hay trên các kho dữ liệu trực tuyến. Một ứng dụng thực tế là khi tìm kiếm ảnh từ một trang Web, nếu xác định hợp lý sự tương đồng ngữ nghĩa giữa câu truy vấn với các đoạn text ngắn bao quanh ảnh thì hệ thống tìm kiếm sẽ đưa ra kết quả đáp ứng tốt hơn yêu cầu người dùng. Vấn đề tính toán độ tương đồng giữa các câu trong văn bản với nhau hoặc với câu chủ đề của văn bản/nhóm văn bản nhận được sự quan tâm đặc biệt trong các hội nghị khoa học quốc tế, đặc biệt trong các hội nghị thường niên về hiểu văn bản (Document Understanding Workshop – DUC) . Việc xây dựng một độ đo chuẩn xác để thể hiện được mối quan hệ tương đồng về ngữ nghĩa giữa các câu sẽ làm cho các ứng dụng trở nên “thông minh” hơn, đặc biệt trên Web [Sen07, STP06]. Tồn tại một số phương pháp tính toán độ tương đồng giữa các câu, mà điển hình là phương pháp dựa trên tính toán thống kê và phương pháp dựa trên quan hệ ngữ nghĩa giữa tập các từ trong hai câu đó [BKO07, LLB06].

Đối với tiếng Việt, “xây dựng và phát triển một số sản phẩm tiêu biểu về xử lý tiếng Việt và tìm kiếm thông tin trên Internet bằng tiếng Việt cho đông đảo người sử dụng máy tính và Internet” đã trở nên cấp thiết [MB06], là động lực triển khai Đề tài cấp Nhà nước KC.01.01.06-10 . Tương tự như tiếng Anh, vấn đề tương đồng ngữ nghĩa giữa các thành phần trong văn bản được đề cập trong hầu hết các bài toán thiết yếu xử lý văn bản tiếng Việt. Tuy nhiên, các giải pháp hiện có thường quan tâm tới các loại độ đo dựa vào thống kê [LMT06, PT05] mà chưa khai thác các độ đo dựa vào xử lý ngôn ngữ tự nhiên như đã được tiến hành đối với tiếng Anh. Nguyên nhân của hạn chế là do các nghiên cứu xử lý văn bản tiếng Việt vẫn đang trong các giai đoạn ban đầu “phần đông là các nghiên cứu ngắn hạn và đơn lẻ ở mức đề tài thạc sỹ, tiến sỹ với nhiều hạn chế về thời hạn và điều kiện” [MB06].

Báo cáo này sẽ tập trung vào việc nghiên cứu và đánh giá độ đo dựa trên xử lý ngôn ngữ tự nhiên là Jiang Conrath JCN được Siddharth Patwardhan trình bày [Pad03], đưa ra mô hình sử dụng độ đo đó vào việc tính độ tượng tự câu trong tiếng Việt và áp dụng vào bài toán tóm tắt trang web tiếng Việt dựa vào câu truy vấn trên máy tìm kiếm. Để có thể tính toán thử nghiệm được đô đo trên, nhóm tác giả cũng đã xây dựng một bộ phận wordnet thô cho tiếng Việt bằng việc chuyển tự động từ wordnet tiếng Anh.

Xây dựng Ontology cho lĩnh vực y tế

Giới thiệu

Sự bùng nổ các tài nguyên y tế, đặc biệt là các thông tin trực tuyến liên quan đến lĩnh vực sức khỏe như Wikipedia, các cơ sở dữ liệu về tài liệu y tế như MEDLINES, PUBMEDs làm người dùng khó có thể theo dõi cũng nắm bắt những thông tin cập nhật nhất. Công nghệ tìm kiếm thông tin truyền thống hoặc là trả về kết quả quá ít do sự phong phú, phức tạp của việc diễn đạt ngôn ngữ tự nhiên; hoặc quá nhiều theo nghĩa người tìm tin chỉ muốn tìm kiếm những tri thức ẩn chứ không chỉ là các văn bản chứa từ khóa tìm kiếm. Vì thế, trong khoảng hai thập niên gần đây, có nhiều công trình nhằm trích rút các thông tin có cấu trúc từ những tài nguyên này nhằm xây dựng các cơ sở tri thức cho việc tổ chức thông tin, tìm kiếm, truy vấn, quản lý và phân tích thông tin.

Theo hướng này, đã có rất nhiều bài toán được đặt ra trong lĩnh vực trích chọn thông tin y tế như BioCreative-I (nhận diện các tên genes và protein trong văn bản), LLL05 (trích chọn thông tin về gene), BioCreative-II (trích chọn quan hệ tương tác giữa các protein), …Những bài toán được đưa ra nhằm đánh giá các chiến lược khai phá dữ liệu y tế và đặc biệt tập trung vào 2 bài toán con: nhận diện thực thể và trích chọn quan hệ. Nhận diện thực thể đòi hỏi nhận biết các thành phần cơ bản như tên thuốc, tên bệnh, triệu chứng, gene, protein, … trong văn bản. Xác định quan hệ với một mẫu cho trước là nhận biết một trường hợp của quan hệ này trong văn bản. Ví dụ: xác định quan hệ <gây_ra> giữa một bệnh xác định và một virus xác định. Ontology là một trong những cách biểu diễn mẫu cho các khái niệm, quan hệ đó một cách nhất quán và phong phú nhất. Việc xây dựng một ontology cho y tế trong tiếng Việt sẽ là cơ sở cho phép tìm kiếm, khai phá loại thông tin này một cách hiệu quả.

Tìm kiếm ngữ nghĩa dựa trên Ontology là một trong những nội dung được quan tâm trong thời gian gần đây. Dựa trên Ontology, ta có thể tiến hành lập luận, trả lời câu hỏi người dùng theo cách thức gần gũi với con người hơn (Question-Answering) hoặc giúp tăng performance cho các phương pháp tìm kiếm hiện có.

Báo cáo

Báo cáo nghiên cứu khoa học sinh viên năm 2008 download.

Một số nghiên cứu liên quan đến xử lý tiếng Việt tại SISLab

Download tài liệu giới thiệu tại đây.

Seminar ngày 10/11/2007

Nội dung trình bày:

1. POS Tagging sử dụng thuật toán Transformation-Based Learning (Phạm Thị Thu Uyên).

2. NLP trong văn bản y tế (Đặng Quang Vinh).

Kính mời các thầy cô và anh chị em quan tâm tới tham dự!

Categories: Seminar Tags: , , ,