1 数字图书馆个性化服务的含义
>近10年来,随着“数字化生存”方式逐渐为人们所接受,数字图书馆因其信息量大、占用空间少、更新速度快、不受时空限制等特点而越来越受到人们的关注。但人们在享受着数字图书馆所带来便捷的同时,也深受其庞大而形式多样的信息资源困扰。因为信息资源具有较强的目标导向性,同样的信息对于不同的个体表现出不同的价值。对单个用户来说,不可能对数字图书馆的所有信息资源都需要,而同样的信息也不一定会满足所有的用户。个性化服务是解决用户“众口难调”问题的关键,它是适应用户多样化需求的重要手段,也是图书馆应对信息资源多样化的一个重要措施。
>数字图书馆个性化服务是基于信息用户的信息使用行为、习惯、偏好、特点及用户特定的需求,向用户提供满足其个性化需求的信息内容和系统功能的一种服务。首先,它应该是一种能够满足数字图书馆用户的个体信息需求的服务,即根据用户提出的明确要求提供信息服务,或通过对用户个性使用习惯的分析而主动地向用户提供其可能需要的信息服务;其次,应该是一种培养个性、引导需求的服务,这样可以帮助个体培养个性、发现个性、引导需求,促进社会的多样性和多元化发展。数据挖掘是近年新兴的计算技术与方法,它在科学发现、商业零售以及信用管理、医学等领域已得到广泛应用,并显示出巨大的威力。最近几年,数据挖掘技术开始应用于数字图书馆领域,使数字图书馆的功能有了较大的变化和发展。
>2 数据挖掘及相关技术
>数据挖掘也称知识发现,是从数据库中获取人们感兴趣的知识,这些知识是隐含的、潜在的。传统的决策支持系统、知识库中的知识和规则是由专家和程序人员由外部输入的,是已知的,决策者可以用联机分析处理等工具直接使用;而数据挖掘是从大量的内部数据库中获取尚未被发现的知识、关系、趋势等信息。数字图书馆的数据挖掘是从数字图书馆大型数据库、数据仓库和浩瀚的网络信息空间中发现并提取隐藏在其中的信息,目的是帮助信息工作人员寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。数据挖掘根据其主要研究对象的数据结构形式的不同,一般粗分为数据挖掘、Web数据挖掘、文本数据挖掘3类。
>2.1 数据挖掘(Data Mining)
>面向数值数据的数据挖掘,通常称数据挖掘。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
>(1)关联分析(association analysis):两个或两个以上变量的取值之间存在某种规律性就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联,关联分析的目的是找出数据库中隐藏的关联网,一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
>(2)聚类分析(clustering):聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。
>(3)分类(classification):分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
>(4)预测(predication):预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
>(5)时序模式(time-series pattern):时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
>(6)偏差分析(deviation):在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
>常见的数据挖掘方法主要有:统计分析、归纳学习方法、仿生物技术、神经网络、决策树、遗传算法、贝叶斯信念网络、模糊集、粗糙集等,由于各种方法都有自身的功能特点以及应用领域,因此不同方法的选择将影响最后结果的质量和效果,通常是将多种方法结合使用,形成优势互补。
>2.2 Web数据挖掘
>数据挖掘的对象是传统的数据库或数据仓库,而Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、商务交易信息等在内的各种Web数据,应用数据挖掘方法及技术以发现有用的知识来帮助人们从万维网中提取知识,改进站点设计,更好地开展电子商务或改进服务。Web数据挖掘分为Web内容挖掘、Web访问信息挖掘、Web结构挖掘。
>2.3 文本数据挖掘(Text Mining)
>面向文本信息的数据挖掘,通常称文本挖掘。当数据挖掘的对象完全由文本类型组成时,结合使用数据挖掘算法与信息检索算法对巨量文本信息进行自动化信息处理与分析的过程叫文本数据挖掘。它包括特征提取、文本摘要、文本分类与聚类、概念操作以及探索性数据分析等工作。文本数据挖掘所应用的技术包含用于表示文档的词频反文献频率(TFIDF)向量表示法、词串表示法,用于文本分类的贝叶斯分类算法(Bayesian classifier)、词集合算法(Bag of word),基于概念的文本聚类算法以及K—最近邻参照分类算法等。
>3 数据挖掘在数字图书馆中的应用
>3.1 个性化服务
>数字图书馆的个性化服务在整个数字图书馆系统中是很关键的部分,如同网络向智能化方向发展一样,信息服务也应“智能化”,即由被动服务转向主动服务,由单纯的信息呈现转向信息生成。数字图书馆的个性化服务主要表现为两个层次:第一层