Archive

Author Archive

Mô hình xếp hạng các trường Đại học ở Việt Nam theo độ đo Webometrics

May 8th, 2009 4 comments

Phương pháp xếp hạng các trường đại học dựa trên độ đo Webometrics đã thể hiện được nhiều ưu điểm vượt trội so với các phương pháp xếp hạng theo phương thức truyền thống bằng cách điều tra, sử dụng bảng hỏi… và ngày càng được thừa nhận một cách rộng rãi. Tuy nhiên, khi áp dụng vào việc xếp hạng các trường đại học Việt Nam còn có nhiều điều chưa phù hợp. Bài viết này tập trung phân tích và đưa ra mô hình, kết quả áp dụng phương pháp Webometrics trong việc xếp hạng các trường đại học ở Việt Nam với nhiều cải tiến phù hợp với thực tiễn đại học Việt Nam.

1. Khái quát về Phương pháp luận của phương pháp Webometrics

Xếp hạng Webometrics sử dụng các dữ liệu thu thập trên web và dựa vào 4 chỉ số (độ đo) để xếp hạng:

  • S – (Size – kích cỡ trang web): Số lượng các trang web xuất hiện dưới cùng một tên miền (domain) trên 4 công cụ tìm kiếm: Google, Yahoo, Live Search, Exalead.
  • V – (Visibility – Khả năng nhận diện):  Số các đường dẫn từ bên ngoài liên kết đến các kết nối bên trong trên một tên miền được xác định dựa trên 3 máy tìm kiếm: Yahoo, Live Search, Exalead.
  • R – (Rich file): Số lượng các loại file Microsoft Word (doc), Adobe Acrobat (pdf), Microsoft Powerpoint (ppt), Adobe PostScript (ps) được xác định dựa trên máy tìm kiếm Google.
  • Sc (Scholar – Các công bố nghiên cứu trên mạng): Số lượng các bài báo khoa học, cùng các trích dẫn trên một tên miền trường qua công cụ Google Scholar.

Xếp hạng dựa trên độ đo web có mối tương quan rất tốt đối với chất lượng giáo dục và uy tín của trường

1.1. Thu thập dữ liệu

Đơn vị cho việc phân tích là các domain của các trường hoặc học viện. Vì vậy, chỉ có các trường đại học, học viện và các trung tâm nghiên cứu với một web domain độc lập mới được xếp hạng. Nếu một đơn vị có nhiều hơn một tên miền chính, hai hoạc nhiều entries này sẽ được sử dụng như là các địa chỉ độc lập.

Sử dụng các máy tìm kiếm là phương tiện trung gian chính khi tra cứu. Sự hiện diện của một tên miền trong cơ sở dữ liệu của chúng là một chỉ số về khả năng nhận diện. Do bản thân các máy tìm kiếm cũng có các hạn chế như không nhất quán, các số liệu bị làm tròn, thiên lệch về địa lý và phạm vi ngôn ngữ, có thay đổi thường xuyên và không rõ ràng trong quy trình làm việc nên phải dùng phối hợp sử dụng một số công cụ tìm kiếm. Trong đó, yêu cầu đối với máy tìm kiếm là: công cụ tìm kiếm độc lập, có cơ sở dữ liệu lớn nên sử dụng 4 máy tìm kiếm: Google (và Google Sholar), Yahoo Search, Live (không phải là Academic Live), Exalead và Alexa.

1.2. Chuẩn hóa chỉ số và xác định trọng số cho các chỉ số

Đầu tiên là chuẩn hóa các số liệu thu về từ máy tìm kiếm theo công thức sau:

Chuẩn hoá số liệu

Sau đó đi xác định các chỉ số:

Các chỉ số

Xác định trọng số cho các chỉ số như sau

Trọng số của các chỉ số

Kết quả xếp hạng được xác định như sau:

Đánh giá trọng sốTổng hợp kết quả webo

Kết quả xếp hạng được Webometrics công bố vào tháng 1 và tháng 7 hàng năm.

2. Mô hình thực nghiệm phương pháp dựa độ đo web trong xếp hạng các trường đại học Việt Nam

Qua nghiên cứu phương pháp xếp hạng trường đại học thông qua độ đo web, chúng tôi nhận thấy hoàn toàn có thể áp dụng phương pháp này với các trường đại học Việt Nam. Mô hình chung của phương pháp được xác định như sau:

Mô hình chung

Hình 1. Mô hình thực nghiệm chung

Chúng tôi thực hiện thực nghiệm với danh sách 100 trường đại học Việt Nam.cùng với 5 trường trong khu vực để so sánh. Danh sách các trường đại học Việt Nam cùng website được thống kê từ trang web chính thức của Bộ Giáo dục và Đào tạo (có bổ sung – Phụ lục 1).

2.1. Xác định các chỉ số

2.1.1. Chỉ số nhận diện (V – Visibility)

Chỉ số đại diện cho khía cạnh ảnh hưởng giáo dục và sự nổi tiếng của trường đại học. Ý tưởng chung cùa việc xác định chỉ số về khả năng nhìn thấy được dựa trên đồ thị web với các link liên kết giữa các nút của đồ thị.

Ý tưởng cơ bản của phương pháp này dựa trên đồ thị web đã được xây dựng trên các máy tìm kiếm: Google, Yahoo, Alta vista để xác định inlink đến các trang web trong đó có các trang web của các trường đại học. Chúng tôi đưa ra tập các câu truy vấn thích hợp, cho qua máy tìm kiếm để xác định số lượng các liên kết đến.

Ưu điểm của phương pháp này là đưa ra được ảnh hưởng của các trường đại học với nhau, các trường đại học trong nước và ngoài nước, các tổ chức giáo dục, các tổ chức xã hội trên cơ sở đồ thị web đã được xây dựng bởi máy tìm kiếm. Tuy nhiên vấn đề đặt ra cho phương pháp này đó là việc xác định câu truy vấn như thế nào cho thích hợp với các máy tìm kiếm khác nhau, và việc chọn lựa máy tìm kiếm nào cũng là một vấn đề cần xem xét kỹ lưỡng. Hiện tại, Google, Yahoo, Alta vista là các máy tìm kiếm phổ biến nhất hiện nay, vì vậy chúng ta hoàn toàn có thể chọn lựa các máy tìm kiếm trên để sử dụng trong phương pháp này. Với mỗi máy tìm kiếm chúng ta xác định các tập câu truy vấn riêng.

Việc đưa ra cách giải quyết cho vấn đề trên là hoàn toàn có thể chấp nhận được. Tuy nhiên một vấn đề khác cũng được đưa ra: Trường đại học A có 100 website liên kết đến trong đó có 70 website nói về giáo dục, 30 website nói về các lĩnh vực khác, hoặc các báo tin tức. Trường đại học B có 100 website liên kết đến: 50 website nói về giáo dục, 50 nói về các lĩnh vực khác. Như vậy có thể đánh giá theo khía cạnh giáo dục thì trường A phải có chỉ số V cao hơn trường B. Giải quyết vấn đề này như thế nào? Có một hướng giải quyết cho vấn đề này là thêm bộ phân lớp xác định tập các trang thuộc lĩnh vựa giáo dục và không giáo dục rồi đánh trọng số cho từng tập.

Các câu truy vấn chỉ số V

Bảng 1: Các câu truy vấn trong xác định chỉ số V

Chỉ số V được xác định theo công thức:

V = 1/2 (V_yahoo | V_altavista)

2.1.2. Chỉ số kích thước (Size – S)

Chỉ số đại diện cho kích cỡ website của trường đại học. Mô hình chung để xác định chỉ số S cũng tương tự việc xác định chỉ số V dựa trên ý tưởng tận dụng khả năng của máy tìm kiếm

(Hình 1).

Trong đó, chúng ta đi xác định một tập các câu truy vấn cho từng máy tìm kiếm: Google, Yahoo, Alta vista. Ví dụ Google: site:vnu.edu.vn, Yahoo: site: vnu.edu.vn….. Chúng ta nhận kết quả từ máy tìm kiếm trả về để đưa ra giá trị cuối cùng cho chỉ số S theo công thức sau:

S = 1/3 (S_google + S_yahoo + S_altavista)

Câu truy vấn chỉ số S
Bảng 2: Câu truy vấn xác định chỉ số S

2.1.3. Chỉ số phong phú tài liệu (Rich files – R)

Chỉ số đại diện cho kết quả nghiên cứu, tài liệu học tập được các trường công bố trên internet.Chỉ số được xác định dựa trên máy tìm kiếm Google. Trong đó các kiểu file được đưa ra là: Microsoft Word (.doc), Microsoft Power Point (.ppt), Adobe Acrobat (.pdf). Mô hình xác định chỉ số R dựa theo hình 1.

Với các câu truy vấn (bảng 5) ví dụ: filetype:.doc + site:vnu.edu.vn. Chỉ số R sẽ là tổng kết quả của từng loại file mà máy tìm kiếm Google trả về, được tính theo công thức:

R = DOC + PPT + PDF

Câu truy vấn chỉ số R
Bảng 3: Câu truy vấn xác định chỉ số R

2.1.4. Chỉ số bài báo khoa học (Scholar – Sc)

Chỉ số này cùng với chỉ số R đại diện cho kết quả nghiên cứu của từng trường. Chỉ số Sc được xác định dựa trên Google Scholar. Do không có khả năng lấy về chính xác chỉ số Sc từ cơ sở dữ liệu của Google Scholar, vì vậy chúng tôi dựa vào http://www.scholar.google.com cùng tập câu truy vấn thích hợp để lấy kết quả trả về.

2.2. Xác định trọng số cho các chỉ số

Các chỉ số sẽ được tổ hợp lại theo các trọng số khác nhau để đưa ra kết quả cuối cùng cho việc xếp hạng

Trọng số các chỉ số
Bảng 4: Trọng số cho các chỉ số S, V, R, Sc

Xác định trọng số

3. Bảng xếp hạng – Phân tích đánh giá

Xếp hạng các trường ĐH Việt Nam - 1
Bảng 5. Bảng xếp hạng các trường đại học Việt Nam

Phòng thí nghiệm Cybermetrics cũng xếp hạng các trường đại học Việt Nam dựa trên các tiêu chí đã xếp hạng các trường quốc tế. Năm 2008 Cybermetrics xếp hạng 71 trường đại học Việt Nam, trong đó có 7 trường được xếp hạng top 100 trong khu vực. Tuy nhiên có nhiều mơ hồ hặc nhầm lẫn về tên tiếng Anh của trường được xếp hạng. Ví dụ như Ho Chi Minh City University of Technology. Điều này dẫn đến 2 cách hiểu khác nhau: người thì khẳng định đây là Đ Bách khoa thuộc ĐHQG-HCM, nhưng cũng có những người cả quyết rằng đó là ĐH Dân lập Kỹ thuật và Công nghệ TP Hồ Chí Minh vì tên tiếng Anh trên trang web của trường này chính là Ho Chi Minh City University of Technology. Dưới đây là bảng các trường hàng đầu Việt Nam và một số trường trong khu vực được Webometrics xếp hạng:

Các trường Việt Nam được Webometrics xếp hạng
Bảng 6. Danh sách các trường Việt Nam được Webometrics xếp hạng

Kết quả bảng 5 và bảng 6 cho thấy rằng: Việc áp dụng phương pháp xếp hạng trường đại học dựa trên đọ do web với mô hình chúng tôi áp dụng cho kết quả tốt so với kết quả phòng thí nghiệm Cybermetrics đã thực hiện. Hai kết quả trên là khá giống nhau, có một số sai khác có thể được giải thích do biến động website từ thời điểm Cybermetrics thống kê và thời điểm chúng tôi làm thực nghiệm.

4. Kết luận và định hướng nghiên cứu

Chúng tôi đã nghiên cứu và áp dụng phương pháp xếp hạng các trường đại học trên thế giới dựa trên các chỉ số web vào bài toán xếp hạng các trường đại học Việt Nam và đã đưa ra một bảng xếp hạng tốt và khá hoàn thiện. Mặc dù hiện tại việc xác định chỉ số về Scholar còn có nhiều khó khăn tuy nhiên chúng tôi sẽ khắc phục và thu thập dữ liệu tốt hơn để đưa ra một bảng xếp hạng hoàn chỉnh nhất cho các trường đại học Việt Nam. Một trong những cải tiên của phương pháp tiếp cận thứ 2 trong đánh giá chỉ số V cũng được chúng tôi nghiên cứu theo 2 hướng: Dựa theo url để tách các trang web trả về thành 2 lĩnh vực: lĩnh vực giáo dục, lĩnh vực khác, hoặc dựa vào nội dung các trang web để phân lơp chúng thành 2 lớp tương ứng (academic, non-academic). Qua đó sẽ xác định được chỉ số V hiệu quả hơn

 

Phụ lục 1: Bảng xếp hạng 100 trường đại học Việt Nam.

Toàn văn Báo cáo nghiên cứu khoa học.

Người thực hiện:

KhanhTN, HuyPV, ThanhNT

Hệ thống hỏi đáp tự động sử dụng trích rút quan hệ ngữ nghĩa trong kho văn bản tiếng Việt

April 1st, 2009 10 comments

Tác giả: Phạm Thị Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái

Công trình này sử dụng mô hình hệ thống hỏi đáp tự động dựa vào kĩ thuật trích rút quan hệ ngữ nghĩa hai ngôi, đã đề xuất kết hợp hai phương pháp snowball của Agichtein, Gravano [AG00] và phương pháp sử dụng máy tìm kiếm của Ravichandran, Hovy [RH02] để trích rút các mẫu quan hệ ngữ nghĩa trong tập văn bản tiếng Việt. Kết quả ban đầu của mô hình đạt khả quan.

I. Giới thiệu

Tìm kiếm thông tin (Information Retrieval – IR) là việc tìm kiếm thông tin dựa trên các nguồn dữ liệu có sẵn. Các hệ thống tìm kiếm thông tin nhận đầu vào là các từ khóa và trả về tập tài liệu có chứa các từ khóa đó. Kết quả trả về của các máy tìm kiếm (một loại hệ thống tìm kiếm thông tin) thường là rất lớn có khi lên tới hàng nghìn trang web. Người sử dụng muốn có được thông tin mình cần phải tự duyệt và đọc lần lượt qua các trang web để xác định được thông tin mình cần. Điều đó sẽ tốn nhiều công sức và thời gian cho việc tìm kiếm thông tin. Ví dụ, nếu chúng ta muốn biết “Ai là người sáng lập ra tập đoàn Microsoft?”, thì với hệ thống IR, chúng ta sẽ tìm được một tập các tài liệu liên quan đến cụm từ “người sáng lập ra tập đoàn Microsoft”. Sau đó, dựa vào tập tài liệu này, chúng ta tự dò tìm câu trả lời. Một ví dụ khác, một người khách du lịch muốn tìm hiểu những thông tin về một địa điểm nào đó. Nếu người đó sử dụng hệ thống tìm kiếm thông tin thì kết quả là những thông tin chung chung và cần phải dò tìm để nắm được các thông tin mà mình cần tìm hiểu; hoặc muốn có được câu trả lời chính xác và chi tiết, người khách cần tốn kinh phí để nhờ đến sự giúp đỡ của một dịch vụ nào đó.

Vì vậy, yêu cầu đặt ra là cần phải có một hệ thống hỏi đáp tự động để có thể xem như là một công cụ khai thác thông tin một cách trực tiếp hơn, tìm kiếm cho người dùng câu trả lời ngắn gọn, chính xác chứ không phải là một tập tài liệu, đồng thời đảm bảo về mặt kinh tế và thuận lợi cho việc sử dụng của người dùng ở bất cứ hoàn cảnh nào.

Hiện nay, nghiên cứu và xây dựng hệ thống hỏi đáp được rất nhiều nhà nghiên cứu cũng như các công ty lớn hàng đầu trên thế giới quan tâm. Nhiều hội nghị lớn về xử lý ngôn ngữ tự nhiên được tổ chức hàng năm như ACL, Coling, Text Retrieval Conference(Trec)… đều có những phần dành riêng cho những nghiên cứu liên quan đến hệ thống hỏi đáp. Bên cạnh đó các sản phẩm thương mại liên quan đến hệ thống hỏi đáp cũng được các công ty phát triển như: Yahoo Answers của Yahoo; Google Question and Answers của Google (sản phẩm này mới chỉ phát triển trên tiếng Nga), Live QnA của Microsoft… và đặc biệt là hai sản phẩm Anwsers.com của Answers Corp doanh thu mỗi năm là 9.5 triệu USD và Ask của InterActive Corp doanh thu mỗi năm 227 triệu USD.

Đối với Việt Nam, việc nghiên cứu, xây dựng và phát triển một hệ thống hỏi đáp tự động dành riêng cho tiếng Việt là một vấn đề cần thiết. Tuy nhiên, đối với xử lý ngôn ngữ tiếng Việt, các công cụ để phân tích ngôn ngữ cũng như các tài nguyên ngôn ngữ học phục vụ cho quá trình xử lý còn chưa đầy đủ hoặc đang hoàn thiện, điều này đã ảnh hưởng không nhỏ đến các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên của chúng ta hiện nay. Chính từ yêu cầu thực tế như vậy, chúng tôi đã tập trung vào việc nghiên cứu để đưa ra một mô hình xử lý cho hệ thống hỏi đáp tự động phù hợp với ngôn ngữ tiếng Việt. Có rất nhiều phương pháp được đề cập, tuy nhiên qua quá trình khảo sát, chúng tôi nhận thấy việc trích rút mối quan hệ ngữ nghĩa là phương pháp phù hợp nhất hiện nay đối với kho văn bản tiếng Việt. Trong báo cáo này, chúng tôi tiến hành xây dựng hệ thống hỏi đáp tự động sử dụng phương pháp rút trích mẫu quan hệ ngữ nghĩa hai ngôi bằng cách kết hợp giữa hai phương pháp rút trích mẫu Snowball của Agichtein, Gravano [AG00] và phương pháp sử dụng máy tìm kiếm của Ravichandran, Hovy [RH02] và áp dụng kĩ thuật này vào việc xây dựng nên hệ thống hỏi đáp tự động cho tiếng Việt

Phần còn lại của báo cáo được tổ chức thành sáu mục. Mục thứ hai giới thiệu tổng quan hệ thống hỏi đáp tự động (question answering system), một số vấn đề cần quan tâm khi xây dựng hệ thống, các cách phân loại hệ thống hỏi đáp và các hướng tiếp cận từ trước tới nay. Mục tiếp theo trình bày các phương pháp phân tích câu hỏi và trích xuất câu trả lời. Mục thứ bốn trình bày về mối quan hệ ngữ nghĩa và các phương pháp để trích xuất mỗi quan hệ ngữ nghĩa hai ngôi. Mục thứ năm theo trình bày chi tiết về mô hình mà chúng tôi áp dụng vào để xây dựng hệ thống hỏi đáp tự động và những kết quả thực nghiệm mà chúng tôi đạt được. Mục cuối cùng trình bày kết quả và hướng nghiên cứu tiếp theo.

II. Tổng quan về hệ thống hỏi đáp tự động

Hệ thống hỏi đáp tự động là hệ thống được xây dựng để thực hiện việc tìm kiếm tự động câu trả lời từ một tập lớn các tài liệu cho câu hỏi đầu vào một cách chính xác. Từ những năm 1960, các hệ thống hỏi đáp đầu tiên đã được ra đời. Điểm chung trong các hệ thống này là sử dụng cơ sở dữ liệu được thiết kế bằng tay bởi các chuyên gia trong lĩnh vực được chọn [MJ08]. Giai đoạn những năm 1970- 1980, có nhiều dự án lớn hướng đến việc “hiểu văn bản” và xây dựng hệ thống hỏi đáp dựa trên các mô hình ngôn ngữ thống kê. Hội nghị TREC diễn ra hàng năm (bắt đầu từ cuối những năm 1990) thu hút sự tham gia của rất nhiều các nhóm nghiên cứu cũng đã góp phần rất lớn trong việc thúc đẩy các nghiên cứu về hệ thống hỏi đáp. Cuối những năm 1990, world wide web ra đời và nhanh chóng phát triển bùng nổ trở thành một kho ngữ liệu khổng lồ. Các nhà nghiên cứu về hệ thống hỏi đáp cũng bắt đầu khai thác web như là một nguồn cho việc tìm kiếm câu trả lời. Các kĩ thuật mới đòi hỏi tốc độ cao, khả năng xử lý lượng dữ liệu web lớn đang rất được quan tâm.

II.1. Một số vấn đề quan tâm khi thiết kế hệ thống hỏi đáp

Năm 2002, một nhóm các nhà nghiên cứu đã đưa ra một số vấn đề cần quan tâm như sau [JCV02]:

  • Loại câu hỏi: Câu hỏi trong ngôn ngữ tự nhiên rất đa dạng, ẩn ý, nhập nhằng và phụ thuộc vào ngữ cảnh. Một số loại câu hỏi đang được quan tâm trong hệ hống hỏi đáp như câu hỏi về sự vật, sự kiện, định nghĩa, danh sách, quá trình, cách thức, lý do… Mỗi loại câu hỏi có những đặc trưng và khó khăn riêng, đòi hỏi phải có các chiến lược để trả lời chúng.
  • Xử lý câu hỏi: Cùng một dạng câu hỏi có thể được diễn đạt qua nhiều cách khác nhau. Một mô hình ngữ nghĩa cần xây dựng có khả năng xác định được các câu hỏi tương tự, các quan hệ ngữ pháp, đồng thời có thể chuyển một câu hỏi phức tạp thành chuỗi các câu hỏi đơn giản hơn.
  • Ngữ cảnh và hệ thống hỏi đáp: Câu hỏi thường được gắn với ngữ cảnh và câu trả lời cũng được đưa ra trong một ngữ cảnh xác định. Việc sử dụng các thông tin về ngữ cảnh giúp hệ thống hỏi đáp hiểu câu hỏi một cách rõ ràng, loại bỏ được các nhặp nhằng và tăng tính chính xác khi người dùng hỏi một loạt các câu hỏi liên quan đến cùng một ngữ cảnh.
  • Nguồn dữ liệu cho hệ thống hỏi đáp: Nguồn dữ liệu cho hệ thống hỏi đáp có thể là tập nhỏ các tài liệu của tổ chức, dữ liệu thu thập từ các nguồn như sách, báo chí hay các trang web. Tuy nhiên cần đảm bảo nguồn dữ liệu có độ tin cậy cao.
  • Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố: độ phức tạp của câu hỏi, loại câu hỏi có được từ quá trình xử lý câu hỏi, dữ liệu chứa câu trả lời, phương pháp tìm kiếm và ngữ cảnh,… nhưng đảm bảo yêu cầu câu trả lời cho người dùng phải chính xác.

Tài liệu tham khảo

  1. [AG00] Eugene Agichtein, Luis Gravano (2000). Snowball: Extracting Relations from Large Plain-Text Collections, In proceeding of the ACL Conference, 2000, Department of Computer Science, Columbia University.
  2. [RH02] Deepak Ravichandran, Eduard Hovy (2002). Learning Surface Text Patterns for a Question Answering System, In Proceedings of the ACL Conference, 2002, Information Sciences Institute University of Southern California.
  3. [JCV02] Burger, John; Cardie, Claire; Chaudhri, Vinay; Gaizauskas, Robert; Harabagiu, Sanda; Israel, David; Jacquemin, Christian; Lin, Chin-Yew; Maiorano, Steve; Miller, George; Moldovan, Dan; Ogden, Bill; Prager, John; Riloff, Ellen; Singhal, Amit; Shrihari, Rohini; Strzalkowski, Tomek; Voorhees, Ellen; Weischedel, Ralph (2002). “Issues, Tasks and Program Structure to Roadmap Research in Question & Answering(Q&A)” http://www-nlpir.nist.gov/projects/duc/papers/qa.Roadmap-paper_v2.doc