< 周志华:数据挖掘与机器学习pdf_新闻中心_华体育app官网登录|华体会手机版
2025-02-07 新闻中心

  机器学习与数据挖掘周志华南京大学计算机软件新技术国家重点实验室,南京 210093 “机器学习”是人工智能的核心研究领域之一, 其最初的研究动机是为了让计算机系统具有人的学习能力以便实现AI,因为众所周知,没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”[1]。事实上,由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据来进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。“数据挖掘”和“知识发现”通常被相提并论,并在许多场合被认为是可以相互替代的术语。对数据挖掘有多种文字不同但含义接近的定义,例如“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”[2]。其实顾名思义,数据挖掘就是试图从海量数据中找出有用的知识。大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。因为机器学习和数据挖掘有密切的联系,受主编之邀,本文把它们放在一起做一个粗浅的介绍。 1 无处不在随着计算机技术的飞速发展,人类收集数据、存储数据的能力得到了极大的提高,无论是科学研究还是社会生活的各个领域中都积累了大量的数据,对这些数据做多元化的分析以发掘数据中蕴含的有用信息,成为几乎所有领域的共同需求。正是在这样的大趋势下,机器学习和数据挖掘技术的作用日渐重要,受到了广泛的关注。例如,网络安全是计算机界的一个热门研究领域, 特别是在入侵检测方面,不仅有很多理论成果,还出现了不少实用系统。那么,人们如何进行入侵检测呢?首先,人们可以通过检查服务器日志等手段来收集大量的网络访问数据,这一些数据中不仅包含正常访问模式还包含入侵模式。然后,人们就可以利用这一些数据建立一个可以很好地把正常访问模式和入侵模式分开的模型。这样,在今后接收到一个新的访问模式时,就可通过这个模型来判断这一个模式是正常模式还是入侵模式,甚至判断出具体是何种类型的入侵。显然,这里的核心问题是如何利用以往的网络访问数据来建立可以对今后的访问模式进行分类的模型,而这正是机器学习和数据挖掘技术的强项。实际上,机器学习和数据挖掘技术已开始在多媒体、计算机图形学、计算机网络乃至操作系统、软件工程等计算机科学的众多领域中发挥作用,特别是在计算机视觉和自然语言处理领域,机器学习和数据挖掘慢慢的变成了最流行、最热门的技术,以至于在这些领域的顶级会议上相当多的论文都与机器学习和数据挖掘技术有关。总的来看,引入机器学习和数据挖掘技术在计算机科学的众多分支领域中都是一个重要趋势。机器学习和数据挖掘技术还是很多交叉学科的重要支撑技术。例如,生物信息学是一个新兴的交叉学科,它试图利用信息科学技术来研究从 DNA 到基因、基因表达、蛋白质、基因电路、细胞、生理表现等一系列环节上的现象和规律。随人类基因组计划的实施,以及基因药物的美好前景,生物信息学得到了蓬勃发展。实际上,从信息科学技术的角度来看, 生物信息学的研究是一个从“数据”到“发现”的过程,这中间包括数据获取、数据管理、数据分析、仿真实验等环节,而“数据分析”这个环节正是机器学习和数据挖掘技术的舞台。正因为机器学习和数据挖掘技术的进展对计算机科学乃至整个科学技术领域都有

CONTACT US
欢迎随时与我们联系