Home > Nghiên cứu > Mô hình xếp hạng các trường Đại học ở Việt Nam theo độ đo Webometrics

Mô hình xếp hạng các trường Đại học ở Việt Nam theo độ đo Webometrics

Phương pháp xếp hạng các trường đại học dựa trên độ đo Webometrics đã thể hiện được nhiều ưu điểm vượt trội so với các phương pháp xếp hạng theo phương thức truyền thống bằng cách điều tra, sử dụng bảng hỏi… và ngày càng được thừa nhận một cách rộng rãi. Tuy nhiên, khi áp dụng vào việc xếp hạng các trường đại học Việt Nam còn có nhiều điều chưa phù hợp. Bài viết này tập trung phân tích và đưa ra mô hình, kết quả áp dụng phương pháp Webometrics trong việc xếp hạng các trường đại học ở Việt Nam với nhiều cải tiến phù hợp với thực tiễn đại học Việt Nam.

1. Khái quát về Phương pháp luận của phương pháp Webometrics

Xếp hạng Webometrics sử dụng các dữ liệu thu thập trên web và dựa vào 4 chỉ số (độ đo) để xếp hạng:

  • S – (Size – kích cỡ trang web): Số lượng các trang web xuất hiện dưới cùng một tên miền (domain) trên 4 công cụ tìm kiếm: Google, Yahoo, Live Search, Exalead.
  • V – (Visibility – Khả năng nhận diện):  Số các đường dẫn từ bên ngoài liên kết đến các kết nối bên trong trên một tên miền được xác định dựa trên 3 máy tìm kiếm: Yahoo, Live Search, Exalead.
  • R – (Rich file): Số lượng các loại file Microsoft Word (doc), Adobe Acrobat (pdf), Microsoft Powerpoint (ppt), Adobe PostScript (ps) được xác định dựa trên máy tìm kiếm Google.
  • Sc (Scholar – Các công bố nghiên cứu trên mạng): Số lượng các bài báo khoa học, cùng các trích dẫn trên một tên miền trường qua công cụ Google Scholar.

Xếp hạng dựa trên độ đo web có mối tương quan rất tốt đối với chất lượng giáo dục và uy tín của trường

1.1. Thu thập dữ liệu

Đơn vị cho việc phân tích là các domain của các trường hoặc học viện. Vì vậy, chỉ có các trường đại học, học viện và các trung tâm nghiên cứu với một web domain độc lập mới được xếp hạng. Nếu một đơn vị có nhiều hơn một tên miền chính, hai hoạc nhiều entries này sẽ được sử dụng như là các địa chỉ độc lập.

Sử dụng các máy tìm kiếm là phương tiện trung gian chính khi tra cứu. Sự hiện diện của một tên miền trong cơ sở dữ liệu của chúng là một chỉ số về khả năng nhận diện. Do bản thân các máy tìm kiếm cũng có các hạn chế như không nhất quán, các số liệu bị làm tròn, thiên lệch về địa lý và phạm vi ngôn ngữ, có thay đổi thường xuyên và không rõ ràng trong quy trình làm việc nên phải dùng phối hợp sử dụng một số công cụ tìm kiếm. Trong đó, yêu cầu đối với máy tìm kiếm là: công cụ tìm kiếm độc lập, có cơ sở dữ liệu lớn nên sử dụng 4 máy tìm kiếm: Google (và Google Sholar), Yahoo Search, Live (không phải là Academic Live), Exalead và Alexa.

1.2. Chuẩn hóa chỉ số và xác định trọng số cho các chỉ số

Đầu tiên là chuẩn hóa các số liệu thu về từ máy tìm kiếm theo công thức sau:

Chuẩn hoá số liệu

Sau đó đi xác định các chỉ số:

Các chỉ số

Xác định trọng số cho các chỉ số như sau

Trọng số của các chỉ số

Kết quả xếp hạng được xác định như sau:

Đánh giá trọng sốTổng hợp kết quả webo

Kết quả xếp hạng được Webometrics công bố vào tháng 1 và tháng 7 hàng năm.

2. Mô hình thực nghiệm phương pháp dựa độ đo web trong xếp hạng các trường đại học Việt Nam

Qua nghiên cứu phương pháp xếp hạng trường đại học thông qua độ đo web, chúng tôi nhận thấy hoàn toàn có thể áp dụng phương pháp này với các trường đại học Việt Nam. Mô hình chung của phương pháp được xác định như sau:

Mô hình chung

Hình 1. Mô hình thực nghiệm chung

Chúng tôi thực hiện thực nghiệm với danh sách 100 trường đại học Việt Nam.cùng với 5 trường trong khu vực để so sánh. Danh sách các trường đại học Việt Nam cùng website được thống kê từ trang web chính thức của Bộ Giáo dục và Đào tạo (có bổ sung – Phụ lục 1).

2.1. Xác định các chỉ số

2.1.1. Chỉ số nhận diện (V – Visibility)

Chỉ số đại diện cho khía cạnh ảnh hưởng giáo dục và sự nổi tiếng của trường đại học. Ý tưởng chung cùa việc xác định chỉ số về khả năng nhìn thấy được dựa trên đồ thị web với các link liên kết giữa các nút của đồ thị.

Ý tưởng cơ bản của phương pháp này dựa trên đồ thị web đã được xây dựng trên các máy tìm kiếm: Google, Yahoo, Alta vista để xác định inlink đến các trang web trong đó có các trang web của các trường đại học. Chúng tôi đưa ra tập các câu truy vấn thích hợp, cho qua máy tìm kiếm để xác định số lượng các liên kết đến.

Ưu điểm của phương pháp này là đưa ra được ảnh hưởng của các trường đại học với nhau, các trường đại học trong nước và ngoài nước, các tổ chức giáo dục, các tổ chức xã hội trên cơ sở đồ thị web đã được xây dựng bởi máy tìm kiếm. Tuy nhiên vấn đề đặt ra cho phương pháp này đó là việc xác định câu truy vấn như thế nào cho thích hợp với các máy tìm kiếm khác nhau, và việc chọn lựa máy tìm kiếm nào cũng là một vấn đề cần xem xét kỹ lưỡng. Hiện tại, Google, Yahoo, Alta vista là các máy tìm kiếm phổ biến nhất hiện nay, vì vậy chúng ta hoàn toàn có thể chọn lựa các máy tìm kiếm trên để sử dụng trong phương pháp này. Với mỗi máy tìm kiếm chúng ta xác định các tập câu truy vấn riêng.

Việc đưa ra cách giải quyết cho vấn đề trên là hoàn toàn có thể chấp nhận được. Tuy nhiên một vấn đề khác cũng được đưa ra: Trường đại học A có 100 website liên kết đến trong đó có 70 website nói về giáo dục, 30 website nói về các lĩnh vực khác, hoặc các báo tin tức. Trường đại học B có 100 website liên kết đến: 50 website nói về giáo dục, 50 nói về các lĩnh vực khác. Như vậy có thể đánh giá theo khía cạnh giáo dục thì trường A phải có chỉ số V cao hơn trường B. Giải quyết vấn đề này như thế nào? Có một hướng giải quyết cho vấn đề này là thêm bộ phân lớp xác định tập các trang thuộc lĩnh vựa giáo dục và không giáo dục rồi đánh trọng số cho từng tập.

Các câu truy vấn chỉ số V

Bảng 1: Các câu truy vấn trong xác định chỉ số V

Chỉ số V được xác định theo công thức:

V = 1/2 (V_yahoo | V_altavista)

2.1.2. Chỉ số kích thước (Size – S)

Chỉ số đại diện cho kích cỡ website của trường đại học. Mô hình chung để xác định chỉ số S cũng tương tự việc xác định chỉ số V dựa trên ý tưởng tận dụng khả năng của máy tìm kiếm

(Hình 1).

Trong đó, chúng ta đi xác định một tập các câu truy vấn cho từng máy tìm kiếm: Google, Yahoo, Alta vista. Ví dụ Google: site:vnu.edu.vn, Yahoo: site: vnu.edu.vn….. Chúng ta nhận kết quả từ máy tìm kiếm trả về để đưa ra giá trị cuối cùng cho chỉ số S theo công thức sau:

S = 1/3 (S_google + S_yahoo + S_altavista)

Câu truy vấn chỉ số S
Bảng 2: Câu truy vấn xác định chỉ số S

2.1.3. Chỉ số phong phú tài liệu (Rich files – R)

Chỉ số đại diện cho kết quả nghiên cứu, tài liệu học tập được các trường công bố trên internet.Chỉ số được xác định dựa trên máy tìm kiếm Google. Trong đó các kiểu file được đưa ra là: Microsoft Word (.doc), Microsoft Power Point (.ppt), Adobe Acrobat (.pdf). Mô hình xác định chỉ số R dựa theo hình 1.

Với các câu truy vấn (bảng 5) ví dụ: filetype:.doc + site:vnu.edu.vn. Chỉ số R sẽ là tổng kết quả của từng loại file mà máy tìm kiếm Google trả về, được tính theo công thức:

R = DOC + PPT + PDF

Câu truy vấn chỉ số R
Bảng 3: Câu truy vấn xác định chỉ số R

2.1.4. Chỉ số bài báo khoa học (Scholar – Sc)

Chỉ số này cùng với chỉ số R đại diện cho kết quả nghiên cứu của từng trường. Chỉ số Sc được xác định dựa trên Google Scholar. Do không có khả năng lấy về chính xác chỉ số Sc từ cơ sở dữ liệu của Google Scholar, vì vậy chúng tôi dựa vào http://www.scholar.google.com cùng tập câu truy vấn thích hợp để lấy kết quả trả về.

2.2. Xác định trọng số cho các chỉ số

Các chỉ số sẽ được tổ hợp lại theo các trọng số khác nhau để đưa ra kết quả cuối cùng cho việc xếp hạng

Trọng số các chỉ số
Bảng 4: Trọng số cho các chỉ số S, V, R, Sc

Xác định trọng số

3. Bảng xếp hạng – Phân tích đánh giá

Xếp hạng các trường ĐH Việt Nam - 1
Bảng 5. Bảng xếp hạng các trường đại học Việt Nam

Phòng thí nghiệm Cybermetrics cũng xếp hạng các trường đại học Việt Nam dựa trên các tiêu chí đã xếp hạng các trường quốc tế. Năm 2008 Cybermetrics xếp hạng 71 trường đại học Việt Nam, trong đó có 7 trường được xếp hạng top 100 trong khu vực. Tuy nhiên có nhiều mơ hồ hặc nhầm lẫn về tên tiếng Anh của trường được xếp hạng. Ví dụ như Ho Chi Minh City University of Technology. Điều này dẫn đến 2 cách hiểu khác nhau: người thì khẳng định đây là Đ Bách khoa thuộc ĐHQG-HCM, nhưng cũng có những người cả quyết rằng đó là ĐH Dân lập Kỹ thuật và Công nghệ TP Hồ Chí Minh vì tên tiếng Anh trên trang web của trường này chính là Ho Chi Minh City University of Technology. Dưới đây là bảng các trường hàng đầu Việt Nam và một số trường trong khu vực được Webometrics xếp hạng:

Các trường Việt Nam được Webometrics xếp hạng
Bảng 6. Danh sách các trường Việt Nam được Webometrics xếp hạng

Kết quả bảng 5 và bảng 6 cho thấy rằng: Việc áp dụng phương pháp xếp hạng trường đại học dựa trên đọ do web với mô hình chúng tôi áp dụng cho kết quả tốt so với kết quả phòng thí nghiệm Cybermetrics đã thực hiện. Hai kết quả trên là khá giống nhau, có một số sai khác có thể được giải thích do biến động website từ thời điểm Cybermetrics thống kê và thời điểm chúng tôi làm thực nghiệm.

4. Kết luận và định hướng nghiên cứu

Chúng tôi đã nghiên cứu và áp dụng phương pháp xếp hạng các trường đại học trên thế giới dựa trên các chỉ số web vào bài toán xếp hạng các trường đại học Việt Nam và đã đưa ra một bảng xếp hạng tốt và khá hoàn thiện. Mặc dù hiện tại việc xác định chỉ số về Scholar còn có nhiều khó khăn tuy nhiên chúng tôi sẽ khắc phục và thu thập dữ liệu tốt hơn để đưa ra một bảng xếp hạng hoàn chỉnh nhất cho các trường đại học Việt Nam. Một trong những cải tiên của phương pháp tiếp cận thứ 2 trong đánh giá chỉ số V cũng được chúng tôi nghiên cứu theo 2 hướng: Dựa theo url để tách các trang web trả về thành 2 lĩnh vực: lĩnh vực giáo dục, lĩnh vực khác, hoặc dựa vào nội dung các trang web để phân lơp chúng thành 2 lớp tương ứng (academic, non-academic). Qua đó sẽ xác định được chỉ số V hiệu quả hơn

 

Phụ lục 1: Bảng xếp hạng 100 trường đại học Việt Nam.

Toàn văn Báo cáo nghiên cứu khoa học.

Người thực hiện:

KhanhTN, HuyPV, ThanhNT

  1. June 21st, 2009 at 08:29 | #1

    Nên nâng cấp bài viết trên cơ sở kết hợp nội dung các bài viết sau:
    [Mik09] Susanne Mikki (2009).Google Scholar Compared to Web of Science: A Literature Review, NORDIC JOURNAL OF INFORMATION LITERACY IN HIGHER EDUCATION, 2009, 1(1): 41‐51
    [MR08] Lokman I. Meho, Yvonne Rogers (2008). Citation Counting, Citation Ranking, and h-Index of Human-Computer Interaction Researchers: A Comparison of Scopus andWeb of Science, JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 59(11):1711–1726, 2008
    [Nor05] ALIREZA NORUZI (2005). Google Scholar: The New Generation of Citation Indexes, Libri, 2005, 55:170–180
    [HW08] Anne-Wil Harzing, Ron van der Wal (2008). A Google Scholar H-Index for Journals: A Better Metric to Measure Journal Impact in Economics & Business? The 2008 Academy of Management Annual Meeting, August 8-13, 2008-Anaheim, California (submitted)

  2. February 3rd, 2010 at 19:52 | #2

    Tôi nghĩ rằng thực sự về phương pháp luận (methodology) Webometrics khá hợp lý tuy nhiên chúng ta nên nhớ đặc điểm HE institutions của Việt Nam có hơi khác:
    - VN không có DH Bách Khoa (Multidisciplinary) đúng nghĩa: bao gồm KHTN, KHXH, Y sinh học, Luật khoa và KH Nhân Văn. Do đó, dù xếp DH SPKT TPHCM trên DH Y Dược TPHCM cũng không có ý nghĩa vì hai trường này có chuyên ngành hòan tòan khác nhau.
    - Tùy ngành học mà mẫu người dùng rất khác nhau. Ví dụ: SV Y Khoa, Luật không lướt web nhiều như SV CNTT nên độ phổ biến kém hơn cũng hòan tòan hợp lý (chỉ số V,S,R đều nhỏ).
    - Thêm vào đó, để viết nên một bài báo (journal articles) y khoa, luật khoa đúng nghĩa cũng khó hơn và mất thời gian nhiều hơn KHTN và KHXN nên chỉ số Sc của những ngành trên cũng nhỏ hơn rất nhiều
    Chính vì thế tôi nghĩ là phương pháp nghiên cứu như thế nên xem lại bối cảnh thông qua một Literature Review thích hợp hơn với đặc điểm đại học VN và tiêu chí người dùng để methodology hợp lý hơn.

  3. trucnguyen
    June 12th, 2010 at 14:33 | #3

    mình đồng ý với keronii

  4. September 4th, 2010 at 15:05 | #4

    Cám ơn anh chị, dù cũng có 1 bài viết về webometric nhưng sau khi đọc xong bài viết này tôi mới hiểu rõ hơn về cách thức xếp hạng và ý nghĩa các chỉ số mà nó sử dụng để đánh giá. thanks

  1. No trackbacks yet.