后缀树聚类在专用搜索引擎中的应用研究与改进

作    者:刘文婷 滕奇志
单    位:四川大学电子信息学院 图像信息研究所
基金项目:教育部科学技术研究重点项目资金资助项目(107094)
摘    要:
为了提高专用搜索引擎的分类精确度和可控度。本文提出了一种新算法,根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的特点进行改进,将文本分类和文本聚类有机地结合起来,使改进后的算法能够通过人工的干预,不断修正自己的分类结果。实验表明,相比传统的文本分类算法,这种算法能通过自我修正能力不断提高分类准确度,并且计算开销和传统文本分类算法相当。因此,本文所提出的算法通过结合文本分类和文本聚类算法,在专用搜索引擎结果处理上提出了新的思路。
关键词:计算机应用;文本分类;文本聚类;搜索引擎;后缀树;词频;降维;召回率

The research and improvement of STC on Dedicated Search Engine

Author's Name: Liu Wen-Ting Teng Qi-Zhi
Institution: Electronic Information College of Sichuan University, Institute of Image Information
Abstract:
Keywords: computer application; text categorization; text clustering; search engine; STC; term frequency; dimensionality reduction; recall rate
投稿时间:2010-01-22  
查看pdf文件    


 
主办单位:成都信息工程学院 版权所有《成都信息工程学院学报》编辑部 蜀ICP备05006389号
地址:四川省成都市西南航空港经济开发区学府路一段24号 邮编:610225 电话:028-85966485   Email:xbbjs@cuit.edu.cn
技术支持:南京杰诺瀚软件科技有限公司