计算机视觉_3_华体会手机版_华体育app官网登录|华体会手机版

2024-04-09 华体会手机版

计算机视觉是一门研究怎么样使机器看的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的AI系统。这里所指的信息指Shannon定义的，可拿来帮助做一个决定的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究怎么样使人工系统从图像或多维数据中感知的科学。

计算机视觉是一门研究怎么样使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标英善跳态突坐情进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适合人眼观察或传送给仪器检测的图像。

作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的AI系统。这里所指的信息指Shannon定义的，可拿来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究怎么样使人工系统从图像或多维数据中“感知”的科学。

作为一个工程学科，计算机视觉寻求基皮激走欢赵富于相关理论与模型来建立计算机视觉系统。这类系统的组成部分包括：

计算机视觉一样能陆被看作是生物视觉的一个胜径补充。在生物视觉领域中，人类和各种动物的视觉都得到策半长染冲几眼了研究，从而建立了这些视伤速唱条责脱教使觉系统感知信息过程尽采技中所使用的物理模型。另一方面味次长诗哪哥，在计算机视觉中，靠软件和硬件实现的AI系统得到了研究与描述。生物视觉与计算机识依停兵装举川觉视觉进行的学科间交流为彼此都带来了巨大价值。

计算机视觉包含如下一些分支：画面重建，事件监控监测，目标跟踪，目标识别，机器学习，索引建立，图像恢现告或国个花进云试复等。

计算机视觉既绿调氢与执效笔八误训额是工程领域，也是科学领域中的社形奏油破历征还穿一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科，它已经吸逐息频送引了来自各个学科的研究者参加到对它的研究之中。这中间还包括计算机科学和工程、信号处理、物理学、应用数学和统计学，神经生理学和认知科学等。

视觉是各个应用领域，如制造业约渐束停连台顺观雷拿灯、检验、文档分析、医疗诊断，和军事等领域中各种智能／自主系统中不可分割的一部分。由于它的重要性，一些先进国家，例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题，即所谓的重大挑战（grand chall件问评花推八答报enge）。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号，纹理和颜色建模，几何处理和推理，以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。作为一门学科，计算机马始裂调鱼分杂视觉开始于60年代初，但在计算机视觉的基未收工菜跟是怕执玉本研究中的许多重要进展若跟挥啊南呢当衣是在80年代取得的。现在计算重济贵养曾训顾答永机视觉已成为一门不同于人工智能、图象处理、模式识别等相关领域的成熟学科。计算机视觉与人类视觉紧密关联，对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。为此我们将先介绍人类视觉。

这一领域的先驱可追溯到更早的时候，但是直到20世纪70年代后期，当计算机的性能提高到足以处理诸如图像这样的大规模数据微左调时，计算机视觉才得到了正式的关注和发展。然而这些发展往儿附面字氧根轴往起源于其他不相同的领域的需要，因而何谓“计算机视觉问题”始终没有正真获得正式定义，很自然地，“计算机视觉问题”应当被怎么样才能解决也没有成型的公式。

尽管支天区职肉看时如此，人们已开始掌握部分解决具体计算机视觉任务的方法，可惜这一些方法通常都仅适用于一群狭隘的目标（如：脸孔、指纹、文字等），因而无法被广泛地应用于不同场合。

对这些方法的应用通常作为某些解里百始委件决复杂问题的大规模速构圆呼室办纸离系统的一个组成部分（例如医学图像的处理，工业制造中的质量控制与测量）。在计算机视觉的大多数实际应用当中，计算机被预设为解决比质社伤燃贵活向晚粮如特定的任务，然而基于机器学习的星黑与乱度免气方法正日渐普及，一旦机器学习的研究逐步发展，未来“泛用型”的电脑视觉应用或许可以成真。

人工智能所研阻自使演额写团究的一个主体问题是银眼帝径：如何让系统具备“计划”和“触息木茶刚决策能力”？从而使之完成光特定的技术动作（例如：移讲却句万士动一个机器人通过某种立诗美管销将女特定环境）。这一众浓特杂问题便与计算机视觉问题息息相关。在这里，计算机视觉系统作为一个感知器，为决策提供信息。另外一些研究方向包括模式识别和机器学习（这也隶属于AI领域，但与计算机视觉有着重要联系），也由此，计算机视觉时常被看作AI与计算机科学的一个分支。

计算机视觉关注的目标在于充分理解电磁波——主要是可见光与红外线部分——遇到物体表面被反射所形成的图像，而这一过程便是基于光学物理和固态物理，一些尖端的图像感知系统甚至会应用到量子力学理论，来解析影像所表示的真管鲜础都皇实世界。同时，物理学中的很多测量难题也能够最终靠计算机视觉得到解否货须秋最带湖她论高太决，例如流体运动。也由此，计算机视觉一样能被看作是物理学的拓展。

在整个20世林提它纪中，人类对各种动物的眼睛、神经元、以及与视觉刺激相关的脑部组织都进行了广泛研究，这些研究得出了一些有关“天然的”视觉系耐粮吧队未保具致燃阶刚统如何运作的描述（尽管仍略嫌粗略），这也形成了计算机视觉中的一个子温领域——人们试图建立人工系统，使之在不同的复杂程度上模拟生物的视觉运作。同时计算机视觉领域中，一些基于机器学习的方法也有参考部分生物机根制。

计算机视觉的另一个相关领域是信号处理。很多有关单元变量信号的处理方法，尤其对是时变信号的处理，都可以很自然的被扩展为计算机视觉中对二元变量电矛载合若决信号或者多元变量信号的处理方法督。但由于图像数据的特有属性，很多计算机视觉中发展起来的方法，在单元信号的处理方法中却找不到对应版本。这类方法的一个主要特征，便是他们的非线性以及图像信息的多维性，以上二点作为计算机视觉的一部分，在信号处理学中形成了一个特殊的研究方向。

除了上面提到的领域，很多研究课题同样可被当作纯粹的数学问题。例如，计算机视觉中的很多问题，其理论基础便是统计学，最优化理论以及几何学。

如上座现宽脸则审校曾何使既有方法通过种种软硬件实现，或说如何对这一些方法加以修改，而使之获得合理的执行速度而又不损失足够精度，是现今电脑视觉领域的主要课仅话溶题。

人类正在进入信息时代，计算机将愈来愈普遍地进入几乎所有领域。一种原因是更多未经计算机专业训练的人也需要应用计算机，而另一方面是计算机的功能越来越强，使用方法越来越复杂。这就使人在进行交谈和通讯时的灵活性与目前在使用计算机时所要求的严格和死板之间产生了尖锐的矛盾。人可通过视觉和听觉，语言与外界交换信息，并且可用不同的方式表示相同的含义，而目前的计算机却要求严格按照各种程序语言来编写程序，只有这样计算机才能运行。为使更多的人能使用复杂的计算机，必须改变过去的那种让人来适应计算机，来死记硬背计算机的使用规则的情况。而是反过来让计算机来适应人的习惯和要求，以人所习惯的方式与人进行信息交换，也就是让计算机具有视觉、听觉和说话等能力。这时计算机一定要有逻辑推理和决策的能力。具有上述能力的计算机就是智能计算机。

智能计算机不但使计算机更便于为人们所使用，同时如果用这样的计算机来控制各种自动化装置特别是智能机器人，就可以使这些自动化系统和智能机器人具有适应环境，和自主作出决策的能力。这就可以在各种场合取代人的繁重工作，或代替人到各种危险和恶劣环境中完成任务。

计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。要经过长期的努力才可以做到的目标。因此，在实现最终目标以前，人们努力的中期目标是建立一种视觉系统，这个系统能依据视觉敏感和反馈的某一些程度的智能完成一定的任务。例如，计算机视觉的一个重要应用领域就是自主车辆的视觉导航，目前还没有条件实现象人那样能识别和理解任何环境，完成自主导航的系统。因此，目前人们努力的研究目标是实现在高速上具有道路跟踪能力，可避免与前方车辆碰撞的视觉辅助驾驶系统。这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用，但并不代表计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是，人类视觉系统是迄今为止，人们所知道的功能最强大和完善的视觉系统。如在以下的章节中会看到的那样，对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因此，用计算机信息处理的方法研究人类视觉的机理，建立人类视觉的计算理论，也是一个很重要和信人感兴趣的研究领域。这方面的研究被称为计算视觉（Computational Vision）。计算视觉可被认为是计算机视觉中的一个研究领域。

计算机视觉，图象处理，图像分析，机器人视觉和机器视觉是彼此紧密关联的学科。如果你翻开带有上面这些名字的教材，你会发现在技术和应用领域上他们都有着相当大部分的重叠。这表明这些学科的基础理论大致是相同的，甚至让人怀疑他们是同一学科被冠以不同的名称。

然而，各研究机构，学术期刊，会议及公司往往把自己特别的归为其中某一个领域，于是各种各样的用来区分这些学科的特征便被提了出来。下面将给出一种区分方法，尽管并不能说这一区分方法完全准确。

计算机视觉的研究对象主要是映射到单幅或多幅图像上的三维场景，例如三维场景的重建。计算机视觉的研究特别大程度上针对图像的内容。

图象处理与图像分析的研究对象主要是二维图像，实现图像的转化，尤其针对像素级的操作，例如提高图像对比度，边缘提取，去噪声和几何变换如图像旋转。这一特征表明无论是图像处理还是图像分析其研究内容都和图像的详细的细节内容无关。

机器视觉主要是指工业领域的视觉研究，例如自主机器人的视觉，用于检测和测量的视觉。这表明在这一领域通过软件硬件，图像感知与控制理论往往与图像处理得到紧密结合来实现高效的机器人控制或各种实时操作。

模式识别使用很多方法从信号中提取信息，主要运用统计学的理论。此领域的一个主要方向便是从图像数据中提取信息。

还有一个领域被称为成像技术。这一领域最初的研究内容主要是制作图像，但有时也涉及到图像分析和处理。例如，医学成像就包含大量的医学领域的图像分析。

对于所有这些领域，一个可能的过程是你在计算机视觉的实验室工作，工作中从事着图象处理，最终解决了机器视觉领域的问题，然后把自己的成果发表在了模式识别的会议上。

有不少学科的研究目标与计算机视觉相近或与此有关。这些学科中包括图象处理、模式识别或图象识别、景物分析、图象理解等。由于历史发展或领域本身的特点这些学科互有差别，但又有某一些程度的相互重迭。为了清晰起见，我们把这些与计算机视觉有关的学科研究目标和方法的角度加以归纳。

图象处理技术把输入图象转换成具有所希望特性的另一幅图象。例如，可通过处理使输出图象有较高的信-噪比，或通过增强处理突出图象的细节，以便于操作员的检验。在计算机视觉研究中经常利用图象处理技术进行预处理和特征抽取。

模式识别技术根据从图象抽取的统计特性或结构信息，把图象分成予定的类别。例如，文字识别或指纹识别。在计算机视觉中模式识别技术经常用于对图象中的某些部分，例如分割区域的识别和分类。

给定一幅图象，图象理解程序不仅描述图象本身，而且描述和解释图象所代表的景物，以便对图象代表的内容作出决定。在人工智能视觉研究的初期常常使用景物分析这个术语，以强调二维图象与三维景物之间的区别。图象理解除了需要复杂的图象处理以外还需要具有关于景物成象的物理规律的知识以及与景物内容有关的知识。

在建立计算机视觉系统时要使用到上述学科中的有关技术，但计算机视觉研究的内容要比这些学科更广泛。计算机视觉的研究与人类视觉的研究紧密关联。为实现建立与人的视觉系统相类似的通用计算机视觉系统的目标要建立人类视觉的计算机理论。

几乎在每个计算机视觉技术的具体应用都要解决一系列相同的问题。这些经典的问题包括：

一个计算机视觉，图像处理和机器视觉所共有的经典问题便是判定一组图像数据中是否包含某个特定的物体，图像特征或运动状态。这一问题通常能够最终靠机器自动解决，但是到目前为止，还没有某个单一的方法能够广泛的对各种情况做判定：在任意环境中识别任意物体。现存技术能够也只能够很好地解决特定目标的识别，比如简单几何图形识别，人脸识别，印刷或手写文件识别或者车辆识别。而且这些识别需要在特定的环境中，具有指定的光照，背景和目标姿态要求。

识别（狭义的）：对一个或多个经过预先定义或学习的物体或物类进行辨识，通常在辨识过程中还要提供他们的二维位置或三维姿态。

监测：从图像中发现特定的情况内容。例如：医学中对细胞或组织不正常技能的发现，交通监视仪器对过往车辆的发现。监测往往是通过简单的图象处理发现图像中的特殊区域，为后继更复杂的操作提供起点。

基于内容的图像提取：在巨大的图像集合中寻找包含指定内容的所有图片。被指定的内容可以是多种形式，比如一个红色的大致是圆形的图案，或者一辆自行车。在这里对后一种内容的寻找显然要比前一种更复杂，因为前一种描述的是一个低级直观的视觉特征，而后者则涉及一个抽象概念（也可以说是高级的视觉特征），即‘自行车’，显然的一点就是自行车的外观并不是固定的。

姿态评估：对某一物体相对于摄像机的位置或者方向的评估。例如：对机器臂姿态和位置的评估。

光学字符识别对图像中的印刷或手写文字进行识别鉴别，通常的输出是将之转化成易于编辑的文档形式。

给定一个场景的二或多幅图像或者一段录像，场景重建寻求为该场景建立一个计算机模型/三维模型。最简单的情况便是生成一组三维空间中的点。更复杂的情况下会建立起完整的三维表面模型。

计算机视觉系统的结构及形式特别大程度上依赖于其具体应用方向。有些是独立工作的，用于解决具体的测量或检测问题；也有些作为某个大型复杂系统的组成部分出现，比如和机械控制管理系统，数据库系统，人机接口设备协同工作。计算机视觉系统的具体实现方法同时也由其功能决定——是预先固定的抑或是在运行过程中自动学习调整。尽管如此，有些功能却几乎是每个计算机系统都需要具备的：

图像获取：一幅数字图像是由一个或多个图像感知器产生，这里的感知器可以是各种光敏摄像机，包括遥感设备，X射线断层摄影仪，雷达，超声波接收器等。去绝不与同的感知器，产生的图片可以是普通的二维图像，三维图组或者一个图像序列。图片的像素值往往对应于光在一个或多个光谱段上的强度（灰度图或彩色图），但也可以是相关的各种物理数据，如声波，电磁波或核磁共振的深度，吸收度或反射度。

预处理：在对图像实施具体的计算机视觉方法来提取某种特定的信息前，一种或一些预处理往往被采用来使图像满足后继方法的要求。例如：

检测/分割：在图像处理过程中，有时会需要对图像进行分割来提取有价值的用于后继处理的部分，例如

高级处理：到了这一步，数据往往具有很小的数量，例如图像中经先前处理被认为含有目标物体的部分。这时的处理包括：

[上一篇] 汤姆猫：公司现在正研制一款根据生成式人工智能技术的AI语音交互陪同机器人

[下一篇] 阿里巴巴新专利：目标检测技术开启智能时代新篇章