Archive

Posts Tagged ‘tiếng Việt’

Hệ thống hỏi đáp tự động sử dụng trích rút quan hệ ngữ nghĩa trong kho văn bản tiếng Việt

April 1st, 2009 10 comments

Tác giả: Phạm Thị Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái

Công trình này sử dụng mô hình hệ thống hỏi đáp tự động dựa vào kĩ thuật trích rút quan hệ ngữ nghĩa hai ngôi, đã đề xuất kết hợp hai phương pháp snowball của Agichtein, Gravano [AG00] và phương pháp sử dụng máy tìm kiếm của Ravichandran, Hovy [RH02] để trích rút các mẫu quan hệ ngữ nghĩa trong tập văn bản tiếng Việt. Kết quả ban đầu của mô hình đạt khả quan.

I. Giới thiệu

Tìm kiếm thông tin (Information Retrieval – IR) là việc tìm kiếm thông tin dựa trên các nguồn dữ liệu có sẵn. Các hệ thống tìm kiếm thông tin nhận đầu vào là các từ khóa và trả về tập tài liệu có chứa các từ khóa đó. Kết quả trả về của các máy tìm kiếm (một loại hệ thống tìm kiếm thông tin) thường là rất lớn có khi lên tới hàng nghìn trang web. Người sử dụng muốn có được thông tin mình cần phải tự duyệt và đọc lần lượt qua các trang web để xác định được thông tin mình cần. Điều đó sẽ tốn nhiều công sức và thời gian cho việc tìm kiếm thông tin. Ví dụ, nếu chúng ta muốn biết “Ai là người sáng lập ra tập đoàn Microsoft?”, thì với hệ thống IR, chúng ta sẽ tìm được một tập các tài liệu liên quan đến cụm từ “người sáng lập ra tập đoàn Microsoft”. Sau đó, dựa vào tập tài liệu này, chúng ta tự dò tìm câu trả lời. Một ví dụ khác, một người khách du lịch muốn tìm hiểu những thông tin về một địa điểm nào đó. Nếu người đó sử dụng hệ thống tìm kiếm thông tin thì kết quả là những thông tin chung chung và cần phải dò tìm để nắm được các thông tin mà mình cần tìm hiểu; hoặc muốn có được câu trả lời chính xác và chi tiết, người khách cần tốn kinh phí để nhờ đến sự giúp đỡ của một dịch vụ nào đó.

Vì vậy, yêu cầu đặt ra là cần phải có một hệ thống hỏi đáp tự động để có thể xem như là một công cụ khai thác thông tin một cách trực tiếp hơn, tìm kiếm cho người dùng câu trả lời ngắn gọn, chính xác chứ không phải là một tập tài liệu, đồng thời đảm bảo về mặt kinh tế và thuận lợi cho việc sử dụng của người dùng ở bất cứ hoàn cảnh nào.

Hiện nay, nghiên cứu và xây dựng hệ thống hỏi đáp được rất nhiều nhà nghiên cứu cũng như các công ty lớn hàng đầu trên thế giới quan tâm. Nhiều hội nghị lớn về xử lý ngôn ngữ tự nhiên được tổ chức hàng năm như ACL, Coling, Text Retrieval Conference(Trec)… đều có những phần dành riêng cho những nghiên cứu liên quan đến hệ thống hỏi đáp. Bên cạnh đó các sản phẩm thương mại liên quan đến hệ thống hỏi đáp cũng được các công ty phát triển như: Yahoo Answers của Yahoo; Google Question and Answers của Google (sản phẩm này mới chỉ phát triển trên tiếng Nga), Live QnA của Microsoft… và đặc biệt là hai sản phẩm Anwsers.com của Answers Corp doanh thu mỗi năm là 9.5 triệu USD và Ask của InterActive Corp doanh thu mỗi năm 227 triệu USD.

Đối với Việt Nam, việc nghiên cứu, xây dựng và phát triển một hệ thống hỏi đáp tự động dành riêng cho tiếng Việt là một vấn đề cần thiết. Tuy nhiên, đối với xử lý ngôn ngữ tiếng Việt, các công cụ để phân tích ngôn ngữ cũng như các tài nguyên ngôn ngữ học phục vụ cho quá trình xử lý còn chưa đầy đủ hoặc đang hoàn thiện, điều này đã ảnh hưởng không nhỏ đến các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên của chúng ta hiện nay. Chính từ yêu cầu thực tế như vậy, chúng tôi đã tập trung vào việc nghiên cứu để đưa ra một mô hình xử lý cho hệ thống hỏi đáp tự động phù hợp với ngôn ngữ tiếng Việt. Có rất nhiều phương pháp được đề cập, tuy nhiên qua quá trình khảo sát, chúng tôi nhận thấy việc trích rút mối quan hệ ngữ nghĩa là phương pháp phù hợp nhất hiện nay đối với kho văn bản tiếng Việt. Trong báo cáo này, chúng tôi tiến hành xây dựng hệ thống hỏi đáp tự động sử dụng phương pháp rút trích mẫu quan hệ ngữ nghĩa hai ngôi bằng cách kết hợp giữa hai phương pháp rút trích mẫu Snowball của Agichtein, Gravano [AG00] và phương pháp sử dụng máy tìm kiếm của Ravichandran, Hovy [RH02] và áp dụng kĩ thuật này vào việc xây dựng nên hệ thống hỏi đáp tự động cho tiếng Việt

Phần còn lại của báo cáo được tổ chức thành sáu mục. Mục thứ hai giới thiệu tổng quan hệ thống hỏi đáp tự động (question answering system), một số vấn đề cần quan tâm khi xây dựng hệ thống, các cách phân loại hệ thống hỏi đáp và các hướng tiếp cận từ trước tới nay. Mục tiếp theo trình bày các phương pháp phân tích câu hỏi và trích xuất câu trả lời. Mục thứ bốn trình bày về mối quan hệ ngữ nghĩa và các phương pháp để trích xuất mỗi quan hệ ngữ nghĩa hai ngôi. Mục thứ năm theo trình bày chi tiết về mô hình mà chúng tôi áp dụng vào để xây dựng hệ thống hỏi đáp tự động và những kết quả thực nghiệm mà chúng tôi đạt được. Mục cuối cùng trình bày kết quả và hướng nghiên cứu tiếp theo.

II. Tổng quan về hệ thống hỏi đáp tự động

Hệ thống hỏi đáp tự động là hệ thống được xây dựng để thực hiện việc tìm kiếm tự động câu trả lời từ một tập lớn các tài liệu cho câu hỏi đầu vào một cách chính xác. Từ những năm 1960, các hệ thống hỏi đáp đầu tiên đã được ra đời. Điểm chung trong các hệ thống này là sử dụng cơ sở dữ liệu được thiết kế bằng tay bởi các chuyên gia trong lĩnh vực được chọn [MJ08]. Giai đoạn những năm 1970- 1980, có nhiều dự án lớn hướng đến việc “hiểu văn bản” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ thống kê. Hội nghị TREC diễn ra hàng năm (bắt đầu từ cuối những năm 1990) thu hút sự tham gia của rất nhiều các nhóm nghiên cứu cũng đã góp phần rất lớn trong việc thúc đẩy các nghiên cứu về hệ thống hỏi đáp. Cuối những năm 1990, world wide web ra đời và nhanh chóng phát triển bùng nổ trở thành một kho ngữ liệu khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web như là một nguồn cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất được quan tâm.

II.1. Một số vấn đề quan tâm khi thiết kế hệ thống hỏi đáp

Năm 2002, một nhóm các nhà nghiên cứu đã đưa ra một số vấn đề cần quan tâm như sau [JCV02]:

  • Loại câu hỏi: Câu hỏi trong ngôn ngữ tự nhiên rất đa dạng, ẩn ý, nhập nhằng và phụ thuộc vào ngữ cảnh. Một số loại câu hỏi đang được quan tâm trong hệ hống hỏi đáp như câu hỏi về sự vật, sự kiện, định nghĩa, danh sách, quá trình, cách thức, lý do… Mỗi loại câu hỏi có những đặc trưng và khó khăn riêng, đòi hỏi phải có các chiến lược để trả lời chúng.
  • Xử lý câu hỏi: Cùng một dạng câu hỏi có thể được diễn đạt qua nhiều cách khác nhau. Một mô hình ngữ nghĩa cần xây dựng có khả năng xác định được các câu hỏi tương tự, các quan hệ ngữ pháp, đồng thời có thể chuyển một câu hỏi phức tạp thành chuỗi các câu hỏi đơn giản hơn.
  • Ngữ cảnh và hệ thống hỏi đáp: Câu hỏi thường được gắn với ngữ cảnh và câu trả lời cũng được đưa ra trong một ngữ cảnh xác định. Việc sử dụng các thông tin về ngữ cảnh giúp hệ thống hỏi đáp hiểu câu hỏi một cách rõ ràng, loại bỏ được các nhặp nhằng và tăng tính chính xác khi người dùng hỏi một loạt các câu hỏi liên quan đến cùng một ngữ cảnh.
  • Nguồn dữ liệu cho hệ thống hỏi đáp: Nguồn dữ liệu cho hệ thống hỏi đáp có thể là tập nhỏ các tài liệu của tổ chức, dữ liệu thu thập từ các nguồn như sách, báo chí hay các trang web. Tuy nhiên cần đảm bảo nguồn dữ liệu có độ tin cậy cao.
  • Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố: độ phức tạp của câu hỏi, loại câu hỏi có được từ quá trình xử lý câu hỏi, dữ liệu chứa câu trả lời, phương pháp tìm kiếm và ngữ cảnh,… nhưng đảm bảo yêu cầu câu trả lời cho người dùng phải chính xác.

Tài liệu tham khảo

  1. [AG00] Eugene Agichtein, Luis Gravano (2000). Snowball: Extracting Relations from Large Plain-Text Collections, In proceeding of the ACL Conference, 2000, Department of Computer Science, Columbia University.
  2. [RH02] Deepak Ravichandran, Eduard Hovy (2002). Learning Surface Text Patterns for a Question Answering System, In Proceedings of the ACL Conference, 2002, Information Sciences Institute University of Southern California.
  3. [JCV02] Burger, John; Cardie, Claire; Chaudhri, Vinay; Gaizauskas, Robert; Harabagiu, Sanda; Israel, David; Jacquemin, Christian; Lin, Chin-Yew; Maiorano, Steve; Miller, George; Moldovan, Dan; Ogden, Bill; Prager, John; Riloff, Ellen; Singhal, Amit; Shrihari, Rohini; Strzalkowski, Tomek; Voorhees, Ellen; Weischedel, Ralph (2002). “Issues, Tasks and Program Structure to Roadmap Research in Question & Answering(Q&A)” http://www-nlpir.nist.gov/projects/duc/papers/qa.Roadmap-paper_v2.doc

Some studies on Vietnamese multi-document summarization and semantic relation extraction at the Laboratory of Data Mining & Knowledge Science

September 11th, 2008 No comments

Presenters: Lecturer, MSc. PhD. Student Nguyen Cam Tu and MSc. Student Tran Mai Vu

1. Vietnamese multi-document summarization

For an user query, the search engine VNSEN returns a set of Vietnamese web pages A.

The group considers some tasks as follows:

  • To cluster the set A into groups of Vietnamese web pages A1, A2, …, Ak. We have integrated a clustering component in our Vietnamese search engine VNSEN [4] by using the HTC algorithm [CTT08]. We are going to ugrade the component by using the hiden topic model to modify the module [Tu08].
  • For each subset Ai, to multi-document summarize for a label and a summarization [CTT08, VUH08]. We also compare our solution in VNSEN with the component of the search engine Vivisimo.

The group also considers using some solutions of Text Segmentation and Title Generation [BDB07, DZS03] for Generating a Table-of-Contents [Cuo07].

2. Semantic relation extraction

By using the researching results by Corina Roxana Girju [Rox02], we investigated some cause-and-effect relations such as Adverbial causal link, Preposition causal link, Subordination causal link, Clause integrated link [Han05]. These relations are usefull for making a Vietnamese Ontology for sementic searching on the field of Medical Health Care [TNT08]. For upgrading the Vietnamese search engine VNSEN to become a Vietnamese entity search engine [CC07, Cha08], the semantic Relation Extraction and its Applications [Rox08] will be studied.?

References

[BDB07] Branavan S.R.K., Deshpande P., Barzilay R. (2007). Generating a Table-of-Contents, In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics: 544-551, Prague, Czech Republic.

[CC07] Tao Cheng, Kevin Chen-Chuan Chang: Entity Search Engine: Towards Agile Best-Effort Information Integration over the Web. CIDR 2007: 108-113

[Cha08] Kevin C. Chang (2008). Data-Aware Search on the Web, Act. 2: Entity Search, Technical Report, The Database and Information Systems Laboratory, University of Illinois at Urbana-Charmpaign (a talking in the seminar at College of Technology, Vietnam National University, Hanoi, July 08, 2008).

[CTT08] Nguyen Thi Thu Chung, Nguyen Thu Trang, Nguyen Cam Tu, Ha Quang Thuy (2008). An evaluation on clustering component of Vietnamese search engine, The 11th National Conference on Information Technology of Vietnam, Hue, June 12-13, 2008 (in Vietnamese; submitted and presented).

[Cuo07] Nguyen Viet Cuong (2007). Automatically Constructing a Table-of-Contents for long text. Master Thesis, College of Technology, Vietnam National University, Hanoi, November, 2007 (in Vietnamese).

[DZS03] Dorr B., Zajic D., Schwartz R. (2003). Hedge Trimmer: A parse-and-trim approach to headline generation, Proceedings of the HLT-NAACL 2003 Workshop on Text Summarization: 1-8, Edmonton, Canada.

[Han05] Vu Boi Hang (2005). Extraction cause-and-effect relations from Vietnamese document, Master Thesis, College of Technology, Vietnam National University, Hanoi, June 2005 (in Vietnamese).

[Rox02] Corina Roxana Girju (2002). Text mining for semantic relations, PhD. Thesis, The University of Texas at Dallas, 2002

[Rox08] Corina Roxana Girju (2008). Semantic Relation Extraction and its Applications, Invited tutorial at the European Summer School in Logic, Language and Information (ESSLLI 2008), Hamburg, Germany, August 2008.

[TNT08] Le Dieu Thu, Tran Thi Ngan, Nguyen Cam Tu, Nguyen Thu Trang (2008). A Vietnamese Ontology for sementic searching on the field of Medical Health Care, The 11th National Conference on Information Technology of Vietnam, Hue, June 12-13, 2008 (in Vietnamese; submitted and presented).

[Tu08] Nguyen Cam Tu (2008). Hidden Topic Discovery Towards Classification and ?
Clustering in Vietnamese Web Documents, Master Thesis, College of Technology, Vietnam National University, Hanoi, May, 2008.

[VUH08] Tran Mai Vu, Pham Thi Thu Uyen, Hoang Minh Hien, Ha Quang Thuy (2008). Semantic Similarity of sentences and application for multi-document summarization to evalute on clustering component of Vietnamese search engine, Workshop on Information Communication Technology (ICTFIT08), College of Science, Vietnam National University, Ho Chi Minh City, November 14, 2008 (in Vietnamese, accepted).

Some Vietnamese language processing utilities

  1. Nguyen Cam Tu, Phan Xuan Hieu. JvnSegmenter. http://jvnsegmenter.sourceforge.net
  2. Nguyen Cam Tu. JVnTextpro: A Java-based Vietnamese Text Processing Toolkit, SISLab Software Utility, College of Technology, Vietnam National University, Hanoi.
  3. Nguyen Cam Tu. JGibbsLDA: A Java and Gibbs Sampling based Implementation of Latent Dirichlet Allocation (LDA), SISLab Software Utility, College of Technology, Vietnam National University, Hanoi.
  4. http://203.113.130.205:8080/sise: VNSEN Search Engine, SISLab Software, College of Technology, Vietnam National University, Hanoi.

Download: NEC090908

Một số vấn đề liên quan đến nhận dạng thực thể trong y tế tiếng Việt

Silde giới thiệu sơ bộ bài toán trích chọn thông tin và cụ thể đầu tiên phải giải quyết bài toán nhận dạng thực thể trong lĩnh vực y tế tiếng Việt. Chỉ ra các bước cụ thể trong hệ thống nhận dạng thực thể, các cách chọn nhãn, tính năng (features) sao cho phù hợp với lĩnh vực xây dựng, nghiên cứu các mô hình học máy để chọn lựa mô hình phù hợp nhất cho quá trình huấn luyện.

Download slide tại đây.

Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng việt

Độ tương đồng ngữ nghĩa giữa các câu đóng một vai trò ngày càng quan trọng trong nghiên cứu text mining, web mining và xử lý ngôn ngữ tự nhiên. Nó cũng được sử dụng như là một tiêu chuẩn của trích chọn thông tin để tìm ra những tri thức ẩn trong cơ sở dữ liệu hay trên các kho dữ liệu trực tuyến. Một ứng dụng thực tế là khi tìm kiếm ảnh từ một trang Web, nếu xác định hợp lý sự tương đồng ngữ nghĩa giữa câu truy vấn với các đoạn text ngắn bao quanh ảnh thì hệ thống tìm kiếm sẽ đưa ra kết quả đáp ứng tốt hơn yêu cầu người dùng. Vấn đề tính toán độ tương đồng giữa các câu trong văn bản với nhau hoặc với câu chủ đề của văn bản/nhóm văn bản nhận được sự quan tâm đặc biệt trong các hội nghị khoa học quốc tế, đặc biệt trong các hội nghị thường niên về hiểu văn bản (Document Understanding Workshop – DUC) . Việc xây dựng một độ đo chuẩn xác để thể hiện được mối quan hệ tương đồng về ngữ nghĩa giữa các câu sẽ làm cho các ứng dụng trở nên “thông minh” hơn, đặc biệt trên Web [Sen07, STP06]. Tồn tại một số phương pháp tính toán độ tương đồng giữa các câu, mà điển hình là phương pháp dựa trên tính toán thống kê và phương pháp dựa trên quan hệ ngữ nghĩa giữa tập các từ trong hai câu đó [BKO07, LLB06].

Đối với tiếng Việt, “xây dựng và phát triển một số sản phẩm tiêu biểu về xử lý tiếng Việt và tìm kiếm thông tin trên Internet bằng tiếng Việt cho đông đảo người sử dụng máy tính và Internet” đã trở nên cấp thiết [MB06], là động lực triển khai Đề tài cấp Nhà nước KC.01.01.06-10 . Tương tự như tiếng Anh, vấn đề tương đồng ngữ nghĩa giữa các thành phần trong văn bản được đề cập trong hầu hết các bài toán thiết yếu xử lý văn bản tiếng Việt. Tuy nhiên, các giải pháp hiện có thường quan tâm tới các loại độ đo dựa vào thống kê [LMT06, PT05] mà chưa khai thác các độ đo dựa vào xử lý ngôn ngữ tự nhiên như đã được tiến hành đối với tiếng Anh. Nguyên nhân của hạn chế là do các nghiên cứu xử lý văn bản tiếng Việt vẫn đang trong các giai đoạn ban đầu “phần đông là các nghiên cứu ngắn hạn và đơn lẻ ở mức đề tài thạc sỹ, tiến sỹ với nhiều hạn chế về thời hạn và điều kiện” [MB06].

Báo cáo này sẽ tập trung vào việc nghiên cứu và đánh giá độ đo dựa trên xử lý ngôn ngữ tự nhiên là Jiang Conrath JCN được Siddharth Patwardhan trình bày [Pad03], đưa ra mô hình sử dụng độ đo đó vào việc tính độ tượng tự câu trong tiếng Việt và áp dụng vào bài toán tóm tắt trang web tiếng Việt dựa vào câu truy vấn trên máy tìm kiếm. Để có thể tính toán thử nghiệm được đô đo trên, nhóm tác giả cũng đã xây dựng một bộ phận wordnet thô cho tiếng Việt bằng việc chuyển tự động từ wordnet tiếng Anh.

Xây dựng Ontology cho lĩnh vực y tế

Giới thiệu

Sự bùng nổ các tài nguyên y tế, đặc biệt là các thông tin trực tuyến liên quan đến lĩnh vực sức khỏe như Wikipedia, các cơ sở dữ liệu về tài liệu y tế như MEDLINES, PUBMEDs làm người dùng khó có thể theo dõi cũng nắm bắt những thông tin cập nhật nhất. Công nghệ tìm kiếm thông tin truyền thống hoặc là trả về kết quả quá ít do sự phong phú, phức tạp của việc diễn đạt ngôn ngữ tự nhiên; hoặc quá nhiều theo nghĩa người tìm tin chỉ muốn tìm kiếm những tri thức ẩn chứ không chỉ là các văn bản chứa từ khóa tìm kiếm. Vì thế, trong khoảng hai thập niên gần đây, có nhiều công trình nhằm trích rút các thông tin có cấu trúc từ những tài nguyên này nhằm xây dựng các cơ sở tri thức cho việc tổ chức thông tin, tìm kiếm, truy vấn, quản lý và phân tích thông tin.

Theo hướng này, đã có rất nhiều bài toán được đặt ra trong lĩnh vực trích chọn thông tin y tế như BioCreative-I (nhận diện các tên genes và protein trong văn bản), LLL05 (trích chọn thông tin về gene), BioCreative-II (trích chọn quan hệ tương tác giữa các protein), …Những bài toán được đưa ra nhằm đánh giá các chiến lược khai phá dữ liệu y tế và đặc biệt tập trung vào 2 bài toán con: nhận diện thực thể và trích chọn quan hệ. Nhận diện thực thể đòi hỏi nhận biết các thành phần cơ bản như tên thuốc, tên bệnh, triệu chứng, gene, protein, … trong văn bản. Xác định quan hệ với một mẫu cho trước là nhận biết một trường hợp của quan hệ này trong văn bản. Ví dụ: xác định quan hệ <gây_ra> giữa một bệnh xác định và một virus xác định. Ontology là một trong những cách biểu diễn mẫu cho các khái niệm, quan hệ đó một cách nhất quán và phong phú nhất. Việc xây dựng một ontology cho y tế trong tiếng Việt sẽ là cơ sở cho phép tìm kiếm, khai phá loại thông tin này một cách hiệu quả.

Tìm kiếm ngữ nghĩa dựa trên Ontology là một trong những nội dung được quan tâm trong thời gian gần đây. Dựa trên Ontology, ta có thể tiến hành lập luận, trả lời câu hỏi người dùng theo cách thức gần gũi với con người hơn (Question-Answering) hoặc giúp tăng performance cho các phương pháp tìm kiếm hiện có.

Báo cáo

Báo cáo nghiên cứu khoa học sinh viên năm 2008 download.

Một số nghiên cứu liên quan đến xử lý tiếng Việt tại SISLab

Download tài liệu giới thiệu tại đây.