观察者模式之四:基于知识库的信息推荐系统(本科毕业论文,学术道德问题,严禁抄袭)

基于知识库的信息推荐系统

Knowledge lib based information recommendation system 

姓    名:谢    松

学    院:数学科学学院   

专    业:信息与计算科学 

届    别:2008届本科        

指导老师:林 荣 德        

基于知识库的信息推荐系统

摘要

在使用互联网时,用户希望能够尽可能简单快捷的找到自己想要查找的信息。传统的信息服务满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的查询请求,个性化信息服务就显得越来越重要。这种本质上仍然是属于“人找信息”。为此本项目试图从用户的行为中挖掘出一些可用的信息,并通过这些信息来描述用户的兴趣所在,然后从互联网抓取用户感兴趣的内容推荐东西给用户。 本项目主要面临的问题是:

(1)、怎么评价一个互联网的网页与用户兴趣之间的关系。系统访问互联网抓取到的网页与用户的兴趣之间应该有一个可以模糊度量的关系。这种度量可以让本项目评价用户是否对该网页是否感兴趣。例如,本项目得到一个描述”水果苹果”的网页,本项目如果把这个网页推荐给一个对水果不感兴趣的苹果公司的支持者,显然是有失公允的。因此评价算法的好坏直接影响着用户的体验和系统的精度。

(2)、怎么描述用户的行为。用户行为是一个抽象的概念,本项目所指的用户行为并不是用户的身体动作,而应该使用用户浏览过的网页的内容来度量,这涉及到本项目需要采用一个良好的分词算法来描述用户浏览过的页面。

(3)、怎么动态收敛到用户不断变化的兴趣。通常来说,一个用户的兴趣分类可以分成短期的和长期的。短期的兴趣可以是用户临时产生的,本项目不能把这种突然产生的临时的用户兴趣归类到长期的兴趣中。此外,一个用户她(他)的兴趣爱好也应该是一个缓慢变化的过程。系统应该能够及时的收敛到用户变化的兴趣。

关键字

相关度评分  分词  文本聚类  文本篇章分析  知识库 

Abstract

The information age has made it easy to store large amounts of data. The proliferation of documents available on the Internet, on corporate intranets, on news wires, and elsewhere is overwhelming. However, although the amount of data available to us is constantly increasing, our ability to absorb and process this information remains constant. Search engines only exacerbate the problem by making more and more documents available in a matter of a few key strokes.

Text mining is a new and exciting research area that tries to solve the information overload problem by using techniques from data mining, machine learning ,natural language processing ,information retrieval ,and knowledge management. Information extraction, term extraction, the storage of the intermediate representations, the techniques to analyze these intermediate representations, and visualization of the results.

In fact we want to find the hidden information behind user’ behavior. We believe that information will help us to know what information those web user wanted. The user’ behavior is described by text in those web pages. So we turn to find information behind text in those pages, rather than look into those pages. In fact, those web pages are nothing but text.

We use the traditional search engines like Google, Bing, Baidu, and Youdao. We are not building a search engine in this project. We just use those existed search engines to get those possible results, which we will present to our users.in this aspect; we are similar to Meta search engines, but exactly the same. Of course we need to grade all those results from search engine, then decide which result should introduced to our user and which should not.

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zgwdss.html