2023拥抱AI视觉时代：机器视觉的机会与挑战

更新时间：2023-07-14 点击次数：1579

机器视觉与AI的机会

近年来，传统科技公司和新创公司竞相将机器视觉与人工智能/机器学习结合，使其能够超越传感器像素数据，从而在各种应用中开创新的机会。这一结合的潜力巨大，相关的新创公司在交通运输、制造业、医疗保健和零售等各个市场中筹集了数十亿美元的资金。然而，要充分实现其潜力，这项技术需要应对许多挑战，包括提高性能和安全性，以及设计灵活性。

从根本上讲，机器视觉系统是软件和硬件的结合，可以以数字像素的形式捕捉和处理信息。这些系统可以分析图像，并根据其编程和训练来采取相应的行动。典型的视觉系统包括图像传感器（摄像头和镜头）、图像和视觉处理组件（视觉算法）以及SoCs（片上系统）和网络/通信组件。

无论是静态图像还是视频数字相机，都包含图像传感器。汽车感测器（如激光雷达、雷达、超声波）也能以数字像素形式提供图像，尽管分辨率可能不同。尽管大多数人对这些类型的图像都很熟悉，但机器也能够“看见”热和音频信号数据，并分析这些数据以创建多维图像。

Synopsys公司的战略市场经理Ron Lowman表示：“在过去几年中，CMOS图像传感器取得了显著的改进。传感器的带宽不再优化用于人类视觉，而是用于提供人工智能的价值。例如，主导视觉传感器接口的MIPI CSI不仅提高了带宽，还增加了智能ROI（Region of Interest）和更高的颜色深度等人工智能功能。虽然这些颜色深度增加对人眼来说无法察觉，但对于机器视觉来说，它可以大大提高服务的价值。”

机器视觉系统的基本组成

机器视觉系统由软件和硬件组成，其中关键的组件是图像传感器。在过去几年中，CMOS图像传感器取得了显著的改进，这使得传感器的带宽不再仅仅优化于人类视觉，而是为了提供人工智能的价值。MIPI CSI作为主要的视觉传感器接口，不仅增加了带宽，还增加了智能ROI（Smart Region of Interest）和更高的颜色深度等人工智能功能。虽然这些颜色深度的增加对人眼而言无法察觉，但对于机器视觉来说，它可以大大提高服务的价值。

除了图像传感器外，机器视觉系统还包括图像和视觉处理组件以及片上系统和网络/通信组件。这些组件协同工作，使机器能够理解和解释图像数据。图像和视觉处理组件包括视觉算法，它们能够分析图像并根据其训练和编程进行相应的处理。此外，片上系统和网络/通信组件则负责数据处理和传输，以实现机器视觉系统的功能。

图 1：机器视觉系统包括用于执行图像处理和分析的硬件、软件和芯片。 AI 通常是解决方案的一部分，并且 MV 通常连接到云。来源：Arcturus 网络

机器视觉与计算机视觉的区别

机器视觉是计算机视觉的一个子集，两者在很大程度上依赖于对图像数据的观察来推断信息。然而，机器视觉更加强调在工业或工厂环境中的“检测类型”应用。Cadence公司的Tensilica Vision and AI DSPs的产品管理、市场营销和业务拓展总监Amol Borkar指出，机器视觉在感测方面高度依赖摄像头。然而，“摄像头”这个词是个负面词，因为我们通常熟悉的是一个能够产生RGB图像并在可见光谱范围内运作的图像传感器。不过，根据应用的不同，这些传感器可以在红外线下运作，包括短波、中波、长波红外线或热成像等多种变体。最近还引入了对运动非常敏感的事件相机。在装配线上，线扫描相机是与典型的快门相机略有不同的一种变体。当前的汽车、监控和医疗等大多数应用都依赖于这些传感器中的一个或多个，通常结合使用以实现比单个摄像头或传感器更好的感测融合结果。

机器视觉的优势

机器视觉相较于人类有着更出色的视觉能力，这使得机器视觉在制造业中能够提高生产力和品质，降低生产成本。与自动驾驶辅助系统（ADAS）结合使用时，机器视觉能够接管部分驾驶功能。此外，搭配人工智能，机器视觉能够协助分析医学影像。

应用机器视觉的好处包括更高的可靠性和一致性，以及更大的精确度和准确度（取决于摄像头的分辨率）。而且，与人类不同，机器在获得例行维护的前提下不会感到疲劳。视觉系统的数据可以在本地或云端存储，需要时进行实时分析。

此外，机器视觉通过检测和筛选出有缺陷的零件，降低生产成本。同时，通过OCR（光学字符识别）和条码扫描读取，提高了库存控制的效率，从而降低整体制造成本。

如今，机器视觉通常与人工智能结合使用，大大增强了数据分析的能力。在现代工厂中，自动化设备，包括机器人，与机器视觉和人工智能结合，以提高生产力。

机器视觉（MV）和人工智能（AI）是密切相关的领域，它们通常以各种方式进行交互。机器视觉利用摄像头、传感器和其他设备捕捉图像或其他附加数据，然后将其进行处理和分析，以提取有用的信息，而人工智能则使用算法和统计模型来识别模式并基于大量数据进行预测。

AI/ML与MV的交互作用

这还可以包括深度学习技术。Arteris IP公司的产品市场副总裁Andy Nightingale表示：“深度学习是人工智能的一个子集，它涉及使用大量数据对复杂的神经网络进行训练，以识别模式并进行预测。”机器视觉系统可以使用深度学习算法来提高其在图像或视频中检测和分类对象的能力。机器视觉和人工智能之间的另一种交互方式是通过使用计算机视觉算法。计算机视觉是机器视觉的一个超集，它使用算法和技术从图像和视频中提取信息。人工智能算法可以分析这些信息并预测场景中正在发生的事情。例如，计算机视觉系统可以使用人工智能算法分析交通模式并预测何时某个十字路口可能会拥堵。机器视觉和人工智能还可以在自主系统（如自动驾驶汽车或无人机）中进行交互。在这些应用中，机器视觉系统用于捕捉和处理来自传感器的数据，而人工智能算法则解释这些数据并对环境进行导航等决策。

AI/ML在自动驾驶中的应用

人工智能在现代车辆中扮演着越来越多的角色，但其中两个主要的角色是感知和决策制定。

Siemens Digital Industries Software公司的混合和虚拟系统副总裁David Fritz表示：“感知是通过车辆内部和外部的感测器阵列来理解周围环境的过程。决策制定首先需要理解周围环境的状态和目标，例如向目的地移动。然后，人工智能根据控制方向盘、制动、加速等车辆内部致动器的方式来决定安全、有效的路线。”这两个关键角色涉及到非常不同的问题。从摄像头或其他感测器获得的原始数据，AI算法将使用这些数据进行目标检测。一旦检测到目标，感知系统将对目标进行分类，例如该目标是否是汽车、人或动物。训练过程非常冗长，需要大量的训练集来展示不同角度的目标。在训练完成后，AI网络可以加载到数字孪生体或实体车辆中。一旦检测到并分类了目标，另一个训练有素的AI网络可以进行决策，控制方向盘、制动和加速等。使用高保真度的数字孪生体来虚拟验证这个过程已被证明比纯粹使用实地测试更安全、更有效。

开发人员经常问到需要多少AI/ML。在现代工厂的情况下，机器视觉可以仅用于在装配线上检测和筛选出有缺陷的零件，或者用于组装汽车等工序。后者需要更高级的智能和更复杂的设计，以确保装配过程中的时机、精确度、运动和距离的计算等。

Flex Logix公司的执行官Geoff Tate观察到：“机器视觉和机器人在现代工厂中提高了生产力，许多应用中使用了人工智能。一个简单的

应用，例如检测标签是否正确贴上，不需要太多智能。另一方面，进行复杂、精密的三维运动的机器人手臂需要更多的GPU算力。在第一个应用中，一个AI IP的核心将足够，而在第二个应用中可能需要多个核心。拥有灵活且可扩展的AI IP将使机器视觉和机器人的设计更加容易。

机器视觉的应用

机器视觉的应用几乎没有限制，只受想象力的限制。只要需要视觉和图像处理的工业和商业领域，机器视觉都可以应用其中。以下是部分应用领域的例子：

交通领域（自动驾驶、车内监控、交通流量分析、违规行为和事故检测）；
制造和自动化领域（生产力分析、质量管理）；
监控领域（运动和入侵检测）；
医疗领域（影像学、癌症和肿瘤检测、细胞分类）；
农业领域（农场自动化、植物病害和昆虫检测）；
零售领域（顾客追踪、货架缺货检测、盗窃检测）；
保险领域（通过图像进行事故现场分析）。

还有许多其他应用。以饮用水或软饮料瓶装为例。机器视觉系统可以用于检查填充水平，这通常由高效的机器人完成。但是机器人偶尔会犯错。机器视觉可以确保填充水平一致，并确保标签正确贴上。

检测任何偏离测量规范限制的机器零部件也是机器视觉的一项工作。一旦机器视觉根据规范进行了训练，它可以检测出超出规范限制的零部件。

机器视觉可以检测均匀的形状，如正方形或圆形，以及奇形怪状的零部件，因此它可以用于识别、检测、测量、计数，并与机器人一起进行抓取和放置。

最后，通过结合人工智能，机器视觉可以实现轮胎组装的精确和高效。如今，原始设备制造商（OEM）使用机器人自动化车辆组装的过程之一是安装四个轮胎。利用机器视觉，机器人手臂可以检测正确的距离，并施加适当的压力，以防止任何损坏的发生。

机器视觉的类型

机器视觉技术根据处理的图像维度可以分为一维（1D）、二维（2D）和三维（3D）。这些不同的类型在应用中具有各自的特点和优势。

一维机器视觉系统主要用于条形码和二维码的识别和读取。它们通常使用扫描设备，按行扫描产品上的条形码或二维码，并从中提取信息。这种技术被广泛应用于零售行业、物流和运输领域，以实现快速且准确的产品识别和追踪。

二维机器视觉系统可以用于更复杂的图像处理任务。它们使用摄像头逐行扫描物体，形成一个区域或二维图像。这种技术可以应用于图像分类、目标检测、人脸识别等各种任务。在工业自动化中，二维机器视觉系统可以用于检测和验证产品的外观特征，确保产品符合设计和质量要求。

三维机器视觉系统通常使用多个摄像头或激光传感器来捕捉物体的三维形状和结构。这种技术可以实现对物体的精确定位和测量，对于需要进行三维分析和处理的应用非常重要。例如，在机器人导航和自动化领域，三维机器视觉系统可以用于对环境进行三维建模和障碍物检测，实现更精确和安全的运动控制。

除了以上提到的类型，还有其他形式的机器视觉技术，如超光谱影像和热像仪等。超光谱影像可以捕捉物体的不同光谱特征，拥有更丰富的信息，广泛应用于农业、食品安全和医疗诊断等领域。热像仪则可以检测物体的热能分布，用于温度监测、火灾检测等应用。

每种机器视觉类型都有其特定的应用场景和优势。根据不同的需求，选择适合的机器视觉类型可以提高系统的性能和效果，实现更准确、高效和可靠的图像处理和分析。

MV设计的挑战

训练机器视觉系统仍然存在一些挑战。MV的准确性和性能取决于其训练程度，因此需要大量的标注数据和强大的计算能力。MV设计所面临的挑战包括：

首先，检测的范围可能涵盖方位、表面变化、污染程度以及直径、厚度和间隙等精度容限。当检测到化妆品和服务变化效应时，3D系统通常比1D或2D系统表现更好。然而，在遇到不寻常的情况时，人类可以借助其他领域的知识，而机器视觉和人工智能可能无法具备这种能力。

其次，数据流管理和控制是当今的关键挑战之一，特别是在具有实时延迟要求（例如汽车应用）的情况下，同时需要保持带宽的最小化。在基于摄像头的系统中，图像质量（IQ）至关重要。这要求硬件设计支持超宽动态范围和局部色调映射，同时还需要进行IQ调整，传统上需要由人类专家进行主观评估，使得开发过程冗长且成本高昂。然而，对于机器视觉而言，这种专业知识可能不一定能获得良好系统性能，因为感知引擎可能会根据任务的不同而更喜欢以不同于人类和其他机器之间的方式看待图像。

此外，确保机器视觉的安全性也是一个重要问题。随着网络攻击不断增加，确保产能不受干扰或遭受来自威胁行为者的干扰至关重要。尤其在关键应用中，如自动驾驶等，保证机器视觉的安全性至关重要。

"安全对于确保机器视觉技术的输出不受破坏至关重要，" Arm的Zyazin表示。"汽车应用是展示硬件和软件安全性重要性的一个很好的例子。例如，从机器中处理和提取的信息会影响到制动或车道保持辅助等决策，如果处理不当，可能对车辆内部的乘客构成风险。"

总结来说，训练机器视觉系统的过程面临着一些挑战。为了提高准确性和性能，需要丰富的标注数据和强大的计算能力。同时，确保机器视觉的安全性也是一个重要问题，特别是在关键应用如自动驾驶中。这些挑战需要在系统设计和实施中得到充分考虑，以实现可靠和高效的机器视觉应用。

新兴的MV创业公司和创新

新兴的机器视觉（MV）创业公司和创新技术正推动着机器视觉的应用和发展。像是Airobotics、Arcturus Networks、Deep Vision AI、Hawk-Eye Innovations、Instrumental、lending AI、kinara、Mech-Mind、Megvii、NAUTO、SenseTime、Tractable、ViSenze、Viso等公司，正在开发新的机器视觉解决方案，其中一些已成功筹集了超过10亿美元的资金。

在运输领域，保险公司可以利用机器视觉来分析事故场景的照片和视频，进行财务损害评估。基于人工智能的机器视觉还可以用于安全平台，分析驾驶行为，提升道路安全性。

在软件领域，创业公司正在开发无需编程知识的计算机视觉平台，使更多人能够使用机器视觉技术。机器视觉身份验证软件也是市场上的一个创新解决方案。

体育产业也在探索人工智能、视觉和数据分析的潜力，以向教练提供有关选手在比赛中的决策过程的洞察。此外，有一家创业公司通过将人工智能和机器视觉结合到无人机设计中，提出了一种节省成本的监视方案。

机器视觉和人工智能都在快速发展，其性能，包括准确度和精确度，不断提高。高性能GPU和机器学习能力的成本也有望降低，推动新的机器视觉应用的应用。

Arteris公司的Nightingale表示，随着硬件（如传感器、摄像头和处理器）的进步以及算法和机器学习模型的改进，机器视觉系统的准确性和速度将得到进一步提高。深度学习算法尤其在近年来推动机器视觉技术的进步方面发挥了重要作用，并有望在未来扮演更重要的角色。这些算法能够自动学习数据的特征和模式，从而提高准确性和性能。机器视觉系统将具有更强大的能力，能够快速而准确地处理和分析大量的数据，从而开展更为复杂和

智能的应用。

此外，预计机器视觉和人工智能将与其他技术相结合，提供更多高性能、实时的应用。

Nightingale指出，机器视觉技术已经与机器人技术和自动化等其他技术整合，这一趋势有望持续发展，我们可能会看到更多机器视觉在医疗保健、交通和安全等领域的应用。此外，对于需要实时处理的应用，机器视觉技术已经被广泛应用，例如人脸识别和物体追踪。未来，我们可能会看到更多需要实时处理的应用，例如自动驾驶汽车和无人机。

结论

机器视觉（MV）的设计涉及芯片（处理器、存储器、安全芯片）、IP核、模块、固件、硬件和软件的结合。芯片组件和多芯片封装的推出将使这些系统能够更容易、更快速地进行组合，添加新功能，提高系统的整体效率和能力。

Winbond的DRAM经理Tetsu Ho表示：“已知良好晶片（KGD）解决方案可以提供成本和空间效率高于有限接触点和线材的封装产品的替代方案。”这有助于提高设计效率，提供增强的硬件安全性能，特别是产品上市的时间。这些晶片经过热激测试，测试程度与离散部件相同。需要KGD 2.0来确保2.5D/3D组件和2.5D/3D多芯片设备的末端良率，以实现带宽性能、功耗效率和面积等PPA的改进，这是由边缘计算和人工智能等技术爆炸所推动的迷你化趋势。

这将为机器视觉在新旧市场中开拓新的选择。它将用于在自动驾驶中协助人类，帮助机器在制造业中实现精确高效，并通过无人机进行监控。此外，机器视觉将能够探索对人类而言危险的地方，并为保险、体育、交通、国防、医疗等众多领域提供数据输入和分析。

随着技术的不断发展和应用的扩大，机器视觉将继续成为推动自动化、智能化和数字化革新的关键技术之一。机器视觉系统的进一步提升和创新将为我们的生活和工作带来更多的便利和效益。无论是在工业生产、医疗保健、交通运输还是其他领域，机器视觉的应用都将继续拓展，为未来的科技发展带来更多的可能性。

上一篇：Nature Nanotechnology : 单层MoS2的光电潜力
下一篇：2023Joule实现空穴传输双层的印刷碳电极钙钛矿太阳能电池效率達19.2%