“机器学习”是人工智能的核心研究领域之一, 其最初的研究动机是为了让计算机系统具有人
的学习能力以便实现AI,因为众所周知,没有学习能力的系统很难被认为是具有智能的。目
前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”[1]。事实上,由于“经
验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据来进行分析,这就使
得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。
“数据挖掘”和“知识发现”通常被相提并论,并在许多场合被认为是可以相互替代的术语。
对数据挖掘有多种文字不同但含义接近的定义,例如“识别出巨量数据中有效的、新颖的、潜在有
用的、最终可理解的模式的非平凡过程”[2]。其实顾名思义,数据挖掘就是试图从海量数据中找出
随着计算机技术的飞速发展,人类收集数据、存储数据的能力得到了极大的提高,无论是科学
研究还是社会生活的各个领域中都积累了大量的数据,对这些数据做多元化的分析以发掘数据中蕴含的有
用信息,成为几乎所有领域的共同需求。正是在这样的大趋势下,机器学习和数据挖掘技术的作用
是如何利用以往的网络访问数据来建立可以对今后的访问模式进行分类的模型,而这正是机器学习
实际上,机器学习和数据挖掘技术已开始在多媒体、计算机图形学、计算机网络乃至操作系
统、软件工程等计算机科学的众多领域中发挥作用,特别是在计算机视觉和自然语言处理领域,机
器学习和数据挖掘慢慢的变成了最流行、最热门的技术,以至于在这些领域的顶级会议上相当多的论文
都与机器学习和数据挖掘技术有关。总的来看,引入机器学习和数据挖掘技术在计算机科学的众多