Archive

Archive for the ‘Nghiên cứu’ Category

Danh sách một số bài báo khoa học KTLab công bố năm 2011

October 3rd, 2012 No comments

Dưới đây là danh sách (chưa đầy đủ) các bài báo khoa học do KTLab công bố trong năm 2011:

 

  1. [PNLLS11] Xuan-Hieu Phan, Cam-Tu Nguyen, Dieu-Thu Le, Le-Minh Nguyen, Susumu Horiguchi, and Quang-Thuy Ha (2011). A Hidden Topic-Based Framework Towards Building Applications with Short Web Documents, IEEE Transactions on Knowledge and Data Engineering, 23(7): 961-976, July 2011 (SCI ).
  2. [HTMQ11] Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Quang-Thuy Ha (2011). A Solution for Grouping Vietnamese Synonym Feature Words in Product Reviews, IEEE APSCC’2011: 503-508, Jeju, Korea.
  3. [HMNNQ11] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-Thuy Ha (2011). An Integrated Approach Using Conditional Random Fields  for Named Entity Recognition and Person Property Extraction in Vietnamese Text, IALP 2011 :115-118, Penang, Malaysia.
  4. [DMTQ11] Duc-Trong Le, Mai-Vu Tran, Tri-Thanh Nguyen, Quang-Thuy Ha (2011). Co-reference Resolution in Vietnamese Documents Based on Support Vector Machines, IALP 2011: 89-93, Penang, Malaysia.
  5. [QTH11] Quang-Thuy Ha, Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu (2011). An Upgrading Feature-based Opinion Mining Model on Product Reviews in Vietnamese, AMT’2011: 173-185, Lanzhou, China.
  6. [THC11] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, Quang-Thuy Ha (2011). A Feature-based Opinion Mining Model on Product Reviews in Vietnamese, Studies in Computational Intelligence, (Semantic Methods for Knowledge Management and Communication): 23-33.
  7. [CH11] Cù Thu Thủy, Hà Quang Thụy (2011). Phát hiện tập mục dữ liệu sporadic không tuyệt đối hai ngưỡng mờ, Tin học và Điều khiển học, 27(2): 142-150.
  8. [CH11a] Cù Thu Thủy, Hà Quang Thụy (2011). Phát hiện tập mục dữ liệu sporadic tuyệt đối hai ngưỡng mờ, Kỷ yếu Hội thảo quốc gia lần thứ XII “Một số vấn đề chọn lọc của CNTT&TT”: 263-275, Hưng Yên, 8/2010.
  9. [HNN11] Hà Quang Thụy, Nguyễn Ngọc Hóa, Nguyễn Viết Thế, Lương Nguyễn Hoàng Hoa (2011). Mô hình giải pháp lọc nội dung hỗ trợ quản lý và đảm bảo an toàn – an ninh trên Internet, Chuyên san các công trình nghiên cứu, phát triển và ứng dụng CNTT & Truyền thông, V-1 (6/26): 260-270, 9-2011.
  10.  [TD11] Tien-Thanh Vu, Dat Quoc Nguyen (2011). A Vietnamese Information Retrieval System for Product-Price, GrC 2011: 691-696, HKaoh-siung, Taiwan

KTLab_2011_2012

Categories: Nghiên cứu, Tin tức Tags:

Một số nghiên cứu và phát hiện vai trò và dự báo bùng nổ sự kiện trên mạng xã hội

October 2nd, 2012 No comments

Báo cáo trình bày một số nghiên cứu về phát hiện vai trò và dự báo bùng nổ sự kiện trên mạng xã hội.

Tải: 290912_Vai tro va bung no su kien

Categories: Nghiên cứu, Seminar Tags:

Một số tài nguyên cho nhận dạng thực thể y sinh

Một số tài nguyên cho nhận dạng thực thể y sinh. Tham khảo tại BioNer

Categories: Nghiên cứu Tags:

Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh

January 9th, 2012 2 comments

Một số tìm hiểu về nhận dạng thực thể trong văn bản y sinh

 

 

 

 

 

Tham khảo thêm tại NER_Biomedical!

Categories: Nghiên cứu, Seminar Tags:

Một số tìm hiểu về học bán giám sát dựa trên đồ thị

January 9th, 2012 No comments

Một số tìm hiểu về học bán giám sát dựa trên đồ thị !

 

 

 

Read more…

Categories: Nghiên cứu, Seminar Tags:

Phân cụm và xếp hạng ảnh trả về từ máy tìm kiếm lớp trên

December 19th, 2010 No comments

Trình bày: Nguyễn Thu Hương – Nguyễn Minh Hoàng

Nội dung: Phân cụm và xếp hạng ảnh trả về từ máy tìm kiếm lớp trên

Download slide trình bày tại đây: Report-18-12-2010

Một số công cụ xử lý ngôn ngữ tự nhiên và khai phá dữ liệu

August 21st, 2010 1 comment

Một số công cụ xử lý ngôn ngữ tự nhiên và khai phá dữ liệu

– Vietnamese NLP toolkits

– NLP toolkits

– Data mining toolkits

– Other tools

Download here: NLP&DM Toolkits

Categories: Nghiên cứu Tags:

Một số khóa luận của sinh viên K51

June 8th, 2010 No comments

Le_Kim_Dung: Một số thuật toán phân hạng ảnh phổ biến và áp dụng trong hệ thống tìm kiếm ảnh lớp trên thử nghiệm

Nguyen Tien Thanh: Trích chọn quan hệ thực thể trên wikipedia tiếng việt dựa vào cây phân tích cú pháp

Nguyen Thi Hoan : Phương pháp trích chọn đặc trưng ảnh trong thuật toán học máy tìm kiếm ảnh áp dụng vào bài toán tìmkiếm sản phẩm

Uong Huy Long :Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web nười dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức

Categories: Nghiên cứu Tags:

Kho dữ liệu từ loại tiếng Việt (vnPOS corpus)

June 25th, 2009 1 comment

Kho dữ liệu từ loại tiếng Việt phiên bản 1 do tác giả Trần Thị Oanh thực hiện tại Phòng thí nghiệm Công nghệ tri thức, Trường Đại học Công nghệ, ĐHQG Hà Nội.

Việc sử dụng lại kho dữ liệu này cần được sự cho phép của tác giả. Dữ liệu có thể được dùng miễn phí cho mục đích nghiên cứu.

Tải: du-lieu-vnpos1

Categories: Nghiên cứu Tags: , ,

Mô hình xếp hạng các trường Đại học ở Việt Nam theo độ đo Webometrics

May 8th, 2009 4 comments

Phương pháp xếp hạng các trường đại học dựa trên độ đo Webometrics đã thể hiện được nhiều ưu điểm vượt trội so với các phương pháp xếp hạng theo phương thức truyền thống bằng cách điều tra, sử dụng bảng hỏi… và ngày càng được thừa nhận một cách rộng rãi. Tuy nhiên, khi áp dụng vào việc xếp hạng các trường đại học Việt Nam còn có nhiều điều chưa phù hợp. Bài viết này tập trung phân tích và đưa ra mô hình, kết quả áp dụng phương pháp Webometrics trong việc xếp hạng các trường đại học ở Việt Nam với nhiều cải tiến phù hợp với thực tiễn đại học Việt Nam.

1. Khái quát về Phương pháp luận của phương pháp Webometrics

Xếp hạng Webometrics sử dụng các dữ liệu thu thập trên web và dựa vào 4 chỉ số (độ đo) để xếp hạng:

  • S – (Size – kích cỡ trang web): Số lượng các trang web xuất hiện dưới cùng một tên miền (domain) trên 4 công cụ tìm kiếm: Google, Yahoo, Live Search, Exalead.
  • V – (Visibility – Khả năng nhận diện):  Số các đường dẫn từ bên ngoài liên kết đến các kết nối bên trong trên một tên miền được xác định dựa trên 3 máy tìm kiếm: Yahoo, Live Search, Exalead.
  • R – (Rich file): Số lượng các loại file Microsoft Word (doc), Adobe Acrobat (pdf), Microsoft Powerpoint (ppt), Adobe PostScript (ps) được xác định dựa trên máy tìm kiếm Google.
  • Sc (Scholar – Các công bố nghiên cứu trên mạng): Số lượng các bài báo khoa học, cùng các trích dẫn trên một tên miền trường qua công cụ Google Scholar.

Xếp hạng dựa trên độ đo web có mối tương quan rất tốt đối với chất lượng giáo dục và uy tín của trường

1.1. Thu thập dữ liệu

Đơn vị cho việc phân tích là các domain của các trường hoặc học viện. Vì vậy, chỉ có các trường đại học, học viện và các trung tâm nghiên cứu với một web domain độc lập mới được xếp hạng. Nếu một đơn vị có nhiều hơn một tên miền chính, hai hoạc nhiều entries này sẽ được sử dụng như là các địa chỉ độc lập.

Sử dụng các máy tìm kiếm là phương tiện trung gian chính khi tra cứu. Sự hiện diện của một tên miền trong cơ sở dữ liệu của chúng là một chỉ số về khả năng nhận diện. Do bản thân các máy tìm kiếm cũng có các hạn chế như không nhất quán, các số liệu bị làm tròn, thiên lệch về địa lý và phạm vi ngôn ngữ, có thay đổi thường xuyên và không rõ ràng trong quy trình làm việc nên phải dùng phối hợp sử dụng một số công cụ tìm kiếm. Trong đó, yêu cầu đối với máy tìm kiếm là: công cụ tìm kiếm độc lập, có cơ sở dữ liệu lớn nên sử dụng 4 máy tìm kiếm: Google (và Google Sholar), Yahoo Search, Live (không phải là Academic Live), Exalead và Alexa.

1.2. Chuẩn hóa chỉ số và xác định trọng số cho các chỉ số

Đầu tiên là chuẩn hóa các số liệu thu về từ máy tìm kiếm theo công thức sau:

Chuẩn hoá số liệu

Sau đó đi xác định các chỉ số:

Các chỉ số

Xác định trọng số cho các chỉ số như sau

Trọng số của các chỉ số

Kết quả xếp hạng được xác định như sau:

Đánh giá trọng sốTổng hợp kết quả webo

Kết quả xếp hạng được Webometrics công bố vào tháng 1 và tháng 7 hàng năm.

2. Mô hình thực nghiệm phương pháp dựa độ đo web trong xếp hạng các trường đại học Việt Nam

Qua nghiên cứu phương pháp xếp hạng trường đại học thông qua độ đo web, chúng tôi nhận thấy hoàn toàn có thể áp dụng phương pháp này với các trường đại học Việt Nam. Mô hình chung của phương pháp được xác định như sau:

Mô hình chung

Hình 1. Mô hình thực nghiệm chung

Chúng tôi thực hiện thực nghiệm với danh sách 100 trường đại học Việt Nam.cùng với 5 trường trong khu vực để so sánh. Danh sách các trường đại học Việt Nam cùng website được thống kê từ trang web chính thức của Bộ Giáo dục và Đào tạo (có bổ sung – Phụ lục 1).

2.1. Xác định các chỉ số

2.1.1. Chỉ số nhận diện (V – Visibility)

Chỉ số đại diện cho khía cạnh ảnh hưởng giáo dục và sự nổi tiếng của trường đại học. Ý tưởng chung cùa việc xác định chỉ số về khả năng nhìn thấy được dựa trên đồ thị web với các link liên kết giữa các nút của đồ thị.

Ý tưởng cơ bản của phương pháp này dựa trên đồ thị web đã được xây dựng trên các máy tìm kiếm: Google, Yahoo, Alta vista để xác định inlink đến các trang web trong đó có các trang web của các trường đại học. Chúng tôi đưa ra tập các câu truy vấn thích hợp, cho qua máy tìm kiếm để xác định số lượng các liên kết đến.

Ưu điểm của phương pháp này là đưa ra được ảnh hưởng của các trường đại học với nhau, các trường đại học trong nước và ngoài nước, các tổ chức giáo dục, các tổ chức xã hội trên cơ sở đồ thị web đã được xây dựng bởi máy tìm kiếm. Tuy nhiên vấn đề đặt ra cho phương pháp này đó là việc xác định câu truy vấn như thế nào cho thích hợp với các máy tìm kiếm khác nhau, và việc chọn lựa máy tìm kiếm nào cũng là một vấn đề cần xem xét kỹ lưỡng. Hiện tại, Google, Yahoo, Alta vista là các máy tìm kiếm phổ biến nhất hiện nay, vì vậy chúng ta hoàn toàn có thể chọn lựa các máy tìm kiếm trên để sử dụng trong phương pháp này. Với mỗi máy tìm kiếm chúng ta xác định các tập câu truy vấn riêng.

Việc đưa ra cách giải quyết cho vấn đề trên là hoàn toàn có thể chấp nhận được. Tuy nhiên một vấn đề khác cũng được đưa ra: Trường đại học A có 100 website liên kết đến trong đó có 70 website nói về giáo dục, 30 website nói về các lĩnh vực khác, hoặc các báo tin tức. Trường đại học B có 100 website liên kết đến: 50 website nói về giáo dục, 50 nói về các lĩnh vực khác. Như vậy có thể đánh giá theo khía cạnh giáo dục thì trường A phải có chỉ số V cao hơn trường B. Giải quyết vấn đề này như thế nào? Có một hướng giải quyết cho vấn đề này là thêm bộ phân lớp xác định tập các trang thuộc lĩnh vựa giáo dục và không giáo dục rồi đánh trọng số cho từng tập.

Các câu truy vấn chỉ số V

Bảng 1: Các câu truy vấn trong xác định chỉ số V

Chỉ số V được xác định theo công thức:

V = 1/2 (V_yahoo | V_altavista)

2.1.2. Chỉ số kích thước (Size – S)

Chỉ số đại diện cho kích cỡ website của trường đại học. Mô hình chung để xác định chỉ số S cũng tương tự việc xác định chỉ số V dựa trên ý tưởng tận dụng khả năng của máy tìm kiếm

(Hình 1).

Trong đó, chúng ta đi xác định một tập các câu truy vấn cho từng máy tìm kiếm: Google, Yahoo, Alta vista. Ví dụ Google: site:vnu.edu.vn, Yahoo: site: vnu.edu.vn….. Chúng ta nhận kết quả từ máy tìm kiếm trả về để đưa ra giá trị cuối cùng cho chỉ số S theo công thức sau:

S = 1/3 (S_google + S_yahoo + S_altavista)

Câu truy vấn chỉ số S
Bảng 2: Câu truy vấn xác định chỉ số S

2.1.3. Chỉ số phong phú tài liệu (Rich files – R)

Chỉ số đại diện cho kết quả nghiên cứu, tài liệu học tập được các trường công bố trên internet.Chỉ số được xác định dựa trên máy tìm kiếm Google. Trong đó các kiểu file được đưa ra là: Microsoft Word (.doc), Microsoft Power Point (.ppt), Adobe Acrobat (.pdf). Mô hình xác định chỉ số R dựa theo hình 1.

Với các câu truy vấn (bảng 5) ví dụ: filetype:.doc + site:vnu.edu.vn. Chỉ số R sẽ là tổng kết quả của từng loại file mà máy tìm kiếm Google trả về, được tính theo công thức:

R = DOC + PPT + PDF

Câu truy vấn chỉ số R
Bảng 3: Câu truy vấn xác định chỉ số R

2.1.4. Chỉ số bài báo khoa học (Scholar – Sc)

Chỉ số này cùng với chỉ số R đại diện cho kết quả nghiên cứu của từng trường. Chỉ số Sc được xác định dựa trên Google Scholar. Do không có khả năng lấy về chính xác chỉ số Sc từ cơ sở dữ liệu của Google Scholar, vì vậy chúng tôi dựa vào http://www.scholar.google.com cùng tập câu truy vấn thích hợp để lấy kết quả trả về.

2.2. Xác định trọng số cho các chỉ số

Các chỉ số sẽ được tổ hợp lại theo các trọng số khác nhau để đưa ra kết quả cuối cùng cho việc xếp hạng

Trọng số các chỉ số
Bảng 4: Trọng số cho các chỉ số S, V, R, Sc

Xác định trọng số

3. Bảng xếp hạng – Phân tích đánh giá

Xếp hạng các trường ĐH Việt Nam - 1
Bảng 5. Bảng xếp hạng các trường đại học Việt Nam

Phòng thí nghiệm Cybermetrics cũng xếp hạng các trường đại học Việt Nam dựa trên các tiêu chí đã xếp hạng các trường quốc tế. Năm 2008 Cybermetrics xếp hạng 71 trường đại học Việt Nam, trong đó có 7 trường được xếp hạng top 100 trong khu vực. Tuy nhiên có nhiều mơ hồ hặc nhầm lẫn về tên tiếng Anh của trường được xếp hạng. Ví dụ như Ho Chi Minh City University of Technology. Điều này dẫn đến 2 cách hiểu khác nhau: người thì khẳng định đây là Đ Bách khoa thuộc ĐHQG-HCM, nhưng cũng có những người cả quyết rằng đó là ĐH Dân lập Kỹ thuật và Công nghệ TP Hồ Chí Minh vì tên tiếng Anh trên trang web của trường này chính là Ho Chi Minh City University of Technology. Dưới đây là bảng các trường hàng đầu Việt Nam và một số trường trong khu vực được Webometrics xếp hạng:

Các trường Việt Nam được Webometrics xếp hạng
Bảng 6. Danh sách các trường Việt Nam được Webometrics xếp hạng

Kết quả bảng 5 và bảng 6 cho thấy rằng: Việc áp dụng phương pháp xếp hạng trường đại học dựa trên đọ do web với mô hình chúng tôi áp dụng cho kết quả tốt so với kết quả phòng thí nghiệm Cybermetrics đã thực hiện. Hai kết quả trên là khá giống nhau, có một số sai khác có thể được giải thích do biến động website từ thời điểm Cybermetrics thống kê và thời điểm chúng tôi làm thực nghiệm.

4. Kết luận và định hướng nghiên cứu

Chúng tôi đã nghiên cứu và áp dụng phương pháp xếp hạng các trường đại học trên thế giới dựa trên các chỉ số web vào bài toán xếp hạng các trường đại học Việt Nam và đã đưa ra một bảng xếp hạng tốt và khá hoàn thiện. Mặc dù hiện tại việc xác định chỉ số về Scholar còn có nhiều khó khăn tuy nhiên chúng tôi sẽ khắc phục và thu thập dữ liệu tốt hơn để đưa ra một bảng xếp hạng hoàn chỉnh nhất cho các trường đại học Việt Nam. Một trong những cải tiên của phương pháp tiếp cận thứ 2 trong đánh giá chỉ số V cũng được chúng tôi nghiên cứu theo 2 hướng: Dựa theo url để tách các trang web trả về thành 2 lĩnh vực: lĩnh vực giáo dục, lĩnh vực khác, hoặc dựa vào nội dung các trang web để phân lơp chúng thành 2 lớp tương ứng (academic, non-academic). Qua đó sẽ xác định được chỉ số V hiệu quả hơn

 

Phụ lục 1: Bảng xếp hạng 100 trường đại học Việt Nam.

Toàn văn Báo cáo nghiên cứu khoa học.

Người thực hiện:

KhanhTN, HuyPV, ThanhNT