在过去几年中,深度学习已成为大多数AI类型问题的***技术,掩盖了经典的机器学习。其中明显的原因是深度学习已经在包括言语、自然语言、视觉和玩游戏在内的各种各样的任务中多次表现出优异的表现。然而,尽管深度学习具有如此高的性能,但使用经典的机器学习和一些特定的情况下,使用线性回归或决策树而不是大型深度网络会更好。
在这篇文章中,我们将比较深度学习与传统的机器学习技术。在这样做的过程中,我们将找出两种技术的优点和缺点,以及它们在哪里,如何获得***的使用。
***的表现:深度网络已经实现了远超于传统ML方法的精确度,包括语音、自然语言、视觉和玩游戏等许多领域。在许多任务中,经典ML甚至无法竞争。例如,下图显示了ImageNet数据集上不同方法的图像分类准确性,蓝色表示经典ML方法,红色表示深度卷积神经网络(CNN)方法。
使用数据来进行有效缩放:与传统ML算法相比,深度网络使用更多的数据可以更好地扩展。下面的图表是一个简单而有效的例子。很多时候,通过深层网络来提高准确性的***建议就是使用更多的数据!使用经典的ML算法,这种快速简单的修复方法甚至基本上没有效果,并且常常要更复杂的方法来提高准确性。
不需要特征工程:经典的ML算法常常要复杂的特征工程。首先在数据集上执行深度探索性数据分析,然后做一个简单的降低维数的处理。***,必须仔细选择***功能以传递给ML算法。当使用深度网络时,不需要这样做,因为只需将数据直接传递到网络,通常就能轻松实现良好的性能。这完全消除了整一个完整的过程的大型和具有挑战性的特征工程阶段。
适应性强,易于转换:与传统的ML算法相比,深度学习技术能更容易地适应不一样的领域和应用。首先,迁移学习使得预先训练的深度网络适用于同一领域内的不同应用程序是有效的。
例如,在计算机视觉中,预先训练的图像分类网络通常用作对象检测和分割网络的特征提取前端。将这些预先训练的网络用作前端,能减轻整个模型的训练,并且通常有助于在更短的时间内实现更高的性能。此外,不相同的领域使用的深度学习的基本思想和技术往往是相当可转换的。
例如,一旦了解了语音识别领域的基础深度学习理论,那么学习怎么样将深度网络应用于自然语言处理并不是太具有挑战性,因为基准知识非常相似。对于经典ML来说,情况并非如此,因为构建高性能ML模型需要特定领域和特定应用的ML技术和特征工程。对于不同的领域和应用而言,经典ML的知识库是非常不同的,并且常常要在每个单独的区域内进行广泛的专业研究。
对小数据更好:为实现高性能,深层网络需要非常大的数据集。之前提到的预先训练过的网络在120万张图像上进行了训练。对于许多应用来说,这样的大数据集并不容易获得,并且花费昂贵且耗时。对于较小的数据集,传统的ML算法通常优于深度网络。
财务和计算都便宜:深度网络需要高端GPU在大量数据的合理时间内进行训练。这些GPU非常昂贵,但是假如没有他们训练深层网络来实现高性能,这在实际上并不可行。要有效使用这样的高端GPU,还需要快速的CPU、SSD存储以及快速和大容量的RAM。传统的ML算法只需要一个体面的CPU就可以训练得很好,而不需要***的硬件。由于它们在计算上并不昂贵,因此能更快地迭代,并在更短的时间内尝试许多不同的技术。
更容易理解:由于传统ML中涉及直接特征工程,这些算法很容易解释和理解。此外,调整超参数并更改模型设计更简单,因为我们对数据和底层算法都有了更全面的了解。另一方面,深层网络是“黑匣子”型,即使现在研究人员也不能完全了解深层网络的“内部”。由于缺乏理论基础、超参数和网络设计也是一个相当大的挑战。
你用过GoogleTrends吗相当酷,输入一些关键词,然后能看到它们在谷歌中的搜索趋势变化。刚好arxivsanity论文数据库在过去5年内有28303份机器学习相关论文,所以我想,为啥不做一些类似的事情,来看看机器学习研究在过去5年是如何进展的结果相当有趣,所以我想我该写篇文章分享一下。
图像匹配应用:目标识别、目标跟踪、超分辨率影像重建、视觉导航、图像拼接、三维重建、视觉定位、场景深度计算。方法:基于深度学习的特征点匹配算法、实时匹配算法、3维点云匹配算法、共面线点不变量匹配算法,以及基于深度学习的图像区域匹配等。分类:局部不变特征点匹配、直线匹配、区域匹配。Part1:局部不变特征点匹配2D1.什么是图像特征点?关键点...
Hadoop之所以广受欢迎,主要是因为它为使用大众化硬件处理大数据提供了一种就没有限制的环境。添加节点是个简单的过程,对这个框架没有一点负面影响。虽然Hadoop统一了分布式计算,但是配备和管理另外的数据中心、更不用说与远程员工打交道,增添了复杂性和成本。结果就是,Hadoop集群可能显得过于孤立。
很多数据库管理员可能对存储引擎并不熟悉,但接触MySQL以及其他一些NoSQL分布式数据库比较多的人可能对存储引擎就会深有感受。不同的存储引擎对数据的结构、数据的存储方式、数据的读取方式等都有不同的要求和特点。存储引擎的基本思想是决定具体数据库产品的适用场景的最最终的原因,本文希望能够通过这些原理性的讨论和分析展示给大家有一个宏观的视图,从而指...