机器视觉资讯20240322

文章目录[隐藏]

行业资讯

行业资讯

OpenCV 5进度每周更新：2024-03-20T17：09：16+00：00

您好，社区！这篇文章总结了 OpenCV 5 在上周（2024 年 3 月 13 日至 3 月 20 日）的开发情况。您始终可以在 OpenCV 5 工作板上找到最新信息。非常感谢吴佳的精彩笔记！

GSoC 申请截止日期：友情提醒一下，Google Summer of Code （GSoC）申请的截止日期是

...... 长按二维码访问原文

2024年图像分类：见解与进展：2024-03-20T12：47：52+00：00

计算机视觉的核心是图像分类，这是一种使计算机能够将图像分类为不同组的技术。这种能力为无数应用奠定了基础，这些应用已成为我们日常生活中不可或缺的一部分。从保护我们设备的面部识别到对我们的数字河粉进行分类的分类算法

...... 长按二维码访问原文

Devin：介绍世界上第一位人工智能软件工程师：2024-03-15T12：05：12+00：00

介绍

当前的人工智能市场正在蓬勃发展，尤其是在生成式人工智能领域，OpenAI 的 ChatGPT-4 于 2023 年推出，Anthropic AI 的 Claude 3 于本月早些时候推出。这些模式正在减轻内容开发人员的工作，现在镇上有一名软件工程师。

不到 72 小时前，Cognition 发布了世界上第一个 f

...... 长按二维码访问原文

超恩推出采用最新英特尔®酷睿™ Ultra处理器SPC-9000嵌入式系统--机器视觉网 2024-03-22 15:26:10

2024-03-22 15:26:10 来源: 中国机器视觉网

超恩股份有限公司近日宣布推出极精巧嵌入式系统SPC-9000系列，并可开始接受订单出货。超恩SPC-9000系列采用最新第14代英特尔®酷睿™ Ultra处理器，展现优异的运算表现、最佳能源效率与专用AI加速功能，协助推动工厂管理、资料撷取和监控、机器视觉、AMR、智能零售等嵌入式应用的创新。

全新英特尔®酷睿™ Ultra技术

超恩SPC-9000 将嵌入式运算系统的效能提升到前所未有的水准。SPC-9000采用最新的英特尔®酷睿™ Ultra处理器，结合多个运算引擎– P-core(效能核心)、E-core(效率核心)、LP E-core(低功耗核心)、英特尔® Graphics与英特尔® AI Boost 整合在于SoC，展现无与伦比

......长按二维码访问原文

维视实验室方案助力院校设备全面升级--机器视觉网 2024-03-22 15:11:04

2024-03-22 15:11:04 来源: 中国机器视觉网

人工智能+教育如何推进？新工科人才培养成落地关键

3月19日，教育部正式揭晓了2023年度普通高等学校本科专业备案与审批结果，一批紧扣国家战略与区域发展需求的创新专业如智能视觉工程、农林智能装备工程、电子信息材料以及智能海洋装备等，被正式纳入《普通高等学校本科专业目录》的最新版本。

3月9日，在备受瞩目的十四届全国人大二次会议民生主题记者会上，教育部部长怀进鹏强调，政府工作报告中所提出的“人工智能+”行动，对于教育系统而言，无疑是开启新时代的“金钥匙”。会议上集中探讨了人工智能相关学科的进步与高层次人才的培养问题，提出应积极探索学科建设与人才培养的深度融合新模式，为取得引领性原创成果的重大突破提供坚实的人才保障。

作为引领新一轮产业革命的核

......长按二维码访问原文

小米CyberDog采用银牛3D视觉感知方案--机器视觉网 2024-03-22 14:35:36

2024-03-22 14:35:36 来源: 中国机器视觉网

2024年3月21日，合肥银牛微电子宣布小米CyberDog系列仿生四足机器人的AI多模态融合感知决策系统正式采用银牛的双目立体视觉产品解决方案。银牛将为小米提供高性能的双目立体视觉解决方案和强有力的本土化支持，以满足CyberDog系列产品在障碍物识别、自主避障、实时定位与建图等功能上的需求。

小米CyberDog系列产品的AI多模态融合感知决策系统每秒可达21万亿次运算量，路遇复杂情况也能机敏应对，可做到将智能变成本能。同时，内置多达19个传感器，具备多维感知能力，不仅能够识人，还能认路。

本次合作采用的产品为银牛全栈自研的双目立体深度视觉产品，搭载银牛自研的3D空间计算芯片，可快速应用到机器人/人形机器人以及各类泛机器人、3D扫描和

......长按二维码访问原文

2024工业AI，是机遇还是挑战？--机器视觉网 2024-03-22 14:12:56

2024-03-22 14:12:56 来源: 中国机器视觉网

我们正在步入人工智能时代，人工智能（AI）已经成为工业领域的一股强大力量。从生产流程的优化到质量控制的提升，再到供应链管理的智能化，工业领域的各个流程都在被AI日益渗透，传统的工业模式不再适应时代的发展，这也给大中小企业提出了新的议题：如何突破固有的工业模式做到与AI相结合？

从 2022 年 11 月 ChatGPT 开始，AI大模型的落地正在给工业制造业带来一场系统性的重构，大模型 AI 技术在工业领域中的应用已经从理想走进现实。另外，边缘计算充分利用物端的嵌入式计算能力，以分布式信息处理的方式实现物端的智能和自治，并与云计算结合，通过云端的交互协作，实现系统整体的智能化。面向分布式的感知、决策与控制的通信与计算将迎来革命性的发展机遇。

......长按二维码访问原文

易思维“汽车车身表面缺陷智能检测与修复系统”入选杭州市重大科技项目--机器视觉网 2024-03-21 11:19:30

2024-03-21 11:19:30 来源: 中国机器视觉网

近日，杭州市科技局公布了“2023年度高端装备、新材料、绿色能源领域市重大科技创新项目”立项项目，易思维“汽车车身表面缺陷智能检测与修复系统”凭借产品的创新性和突破性荣幸入选。

伴随着新一代汽车产品对汽车制造的柔性、效率、质量提出更高的要求，数字化、自动化已经成为汽车制造的必然趋势。而在涂装车间，虽然已经实现了自动化喷漆，但车身表面漆面质量的检测和修复工作依然以人工作业为主，不仅阻碍了涂装工艺的自动化进程，缺陷检出率和返修成本也得不到保障，成为全球汽车制造业面临的重大技术难题。

易思维于2021年推出汽车制造领域首套国产“漆面缺陷自动检测系统”，打破了国外产品在该领域的垄断局面。不仅如此，易思维早已于2019年战略投资禹奕智能科技(杭州)有限

......长按二维码访问原文

OPT（奥普特）获评“国家级制造业单项冠军企业”--机器视觉网 2024-03-21 11:00:50

2024-03-21 11:00:50 来源: 中国机器视觉网

近期，国家第八批制造业单项冠军企业公示名单出炉，广东奥普特科技股份有限公司成功入选。制造业单项冠军企业，是指长期专注于制造业某些特定细分产品市场，生产技术或工艺国际领先，单项产品市场占有率位居全球前三名的企业。

根据调研数据，2020~2022年间，全球排名前20名的机器视觉光源企业中，OPT分别以13.45%、16.01%、20.53%的市占率，稳居全球第二位，国内市占率三年蝉联榜首。同时，OPT在机器视觉光源的照度、均匀性、稳定性等性能上达到了国内领先、国际先进水平。

OPT成立以来，坚持自主研发与创新，成功打破外资品牌对机器视觉光源技术的垄断，并依托持续性的研发人才投入，以及机器视觉实验室、科研平台、智能工厂等硬件资源，将产品扩展至机器

......长按二维码访问原文

高光谱相机如何工作--机器视觉网 2024-03-22 16:45:06

2024-03-22 16:45:06 来源: 中国机器视觉网

本文概述了光谱学、光谱传感和光谱传感器的概念。它解释了光谱传感的工作原理、它可以提供的信息以及如何将其用于研究和工业应用。

什么是光谱学？

光谱学，也称为光谱传感，研究光如何与材料相互作用。它提供有关对象或场景的反射率或发射属性的详细信息。它是研究和识别材料以及定义材料特性的出色工具。光谱学通过检查光在目标中的行为方式，根据其独特的光谱特征来识别材料。

光谱学用于各种应用领域中的材料识别、分类和量化。

光谱有许多不同类型，包括吸收光谱、发射光谱、反射光谱和荧光光谱。不同类型的光谱学用于特定的应用，并且可以在实验室中或在现场中进行。使用高光谱成像最常见的方法是测量反射光谱。

什么是光谱特征？

材料的光谱定义了目标在每个波长下发射、反射或

......长按二维码访问原文

创科纽扣电池原材料筛选视觉检测方案助力客户降本增效--机器视觉网 2024-03-22 16:26:48

2024-03-22 16:26:48 来源: 中国机器视觉网

项目背景

纽扣电池（button cell）也称扣式电池，是指外形尺寸像一颗小纽扣的电池，直径较大，厚度较薄。其稳定的放电特性，能长时间提供稳妥可靠的电力，广泛应用于电脑主板、储存卡、音乐卡、计算器、电子钟表、电动玩具、微型仪器仪表、医疗器械、LED闪灯、读卡器、小家电、防道器、遥控器、电子秤、电子词典、MP4、数码相机等各类电子产品的后备电源。

纽扣电池视觉检测的内容主要包括外观缺陷和尺寸变形。外观缺陷可以是划伤、裂纹、缺齿、异色、混料、错漏装等。尺寸变形可以是形状不规则、变形、变厚等。通过对这些缺陷和变形进行检测，可以及时发现不良品，并进行处理，保证产品质量。

纽扣电池视觉检测应用

检测要求：

1、检测项目：

翻边盖视觉检

......长按二维码访问原文

高速摄像机在单细胞分离技术中的应用--机器视觉网 2024-03-22 16:19:05

2024-03-22 16:19:05 来源: 中国机器视觉网

1.背景介绍

细胞异质性广泛存在，制约干细胞疗法在再生医学和临床医疗领域更大应用。单细胞分离与收集技术是解决异质性问题的关键一环，探索无损伤、高效高通量单细胞分离与收集技术，愈发受到科学家们重视。

图1 单细胞分离示意

传统的流式细胞分选技术需要进行荧光标记预处理，耗时效率低下且影响细胞功能。常见的微流控分选技术如液滴微流控，将单个细胞包裹后置于液滴内，但根据泊松分布，单细胞捕获效率不高，且包裹后微液滴位置不固定，无法实时观测。

来自中国科学技术大学的研发团队基于将实时细胞识别和微流体冲击打印结合的原理，设计一套单细胞分离系统，实现无标记、高效率、实时识别、高通量地分离单细胞。

2.研究内容

此套单细胞分离系统由信号控制模块、图像处理

......长按二维码访问原文

为ITS 和其他机器视觉应用选择图像传感器要考虑哪些因素?--机器视觉网 2024-03-22 16:10:19

2024-03-22 16:10:19 来源: 中国机器视觉网

机器视觉有哪些特点，与人类视觉相比如何?

虽然人类一直希望看到全彩色和高分辨率，但对于各种机器视觉应用而言，这并不是必需的。在机器视觉中，图像本身并不是最重要的。最重要的是存储在图像中的信息：例如，硅晶片上缺陷的位置和大小、存储在条形码或二维码中的数据，或者车牌上的数字和字母。

机器视觉有哪些快速增长的应用领域?

智能交通系统(ITS)就是其中之一，尤其是在中国。安装在交通信号灯杆上的摄像头会监控车牌号并侦测是否有闯红灯和其他违规行为。对于超速或违法闯入特定区域，也以数字化方式进行抓拍甚至强制执行罚款。当发生违规行为时，ITS会记录驾驶员的行为，例如开车时使用手机。用于 ITS 应用的摄像头通常每通道至少需要 1,000 到 1,500 像

......长按二维码访问原文

逐光IsCMOS像增强相机拍摄激光烧蚀铝靶产生等离子体羽流--机器视觉网 2024-03-22 15:58:12

2024-03-22 15:58:12 来源: 中国机器视觉网

1、研究背景

近年来，由于激光烧蚀在脉冲激光沉积、激光硬化、激光抛光表面、激光材料加工、激光诱导击穿光谱和脉冲激光烧蚀推进等方面的广泛应用，对激光烧蚀过程的研究越来越多。在这些应用中，脉冲激光的激光烧蚀推进(laser ablation propulsion, LAP)在一些日益重要的太空领域展现出潜在的解决方案，如清除太空碎片，用于纳米卫星轨道和姿态控制的激光烧蚀微推进器，以及对非合作太空目标的远程清除。这些在太空中的应用主要是基于远离目标表面的快速膨胀的烧蚀羽流所产生的反冲。因此，脉冲激光烧蚀羽流的基本原理及其对产生冲量的影响引起了人们的极大关注。

脉冲激光的激光烧蚀推进(laser ablation propulsion, LAP)通常

......长按二维码访问原文

中科融合研发可靠性测试确保3D成像模组稳定性和持久性--机器视觉网 2024-03-22 15:41:13

2024-03-22 15:41:13 来源: 中国机器视觉网

一个工厂级的设备需要经过严格测试通过后才能用于工业用途。与民用或商用设备不同，工业应用中使用的电子设备可能会受到持续的工作压力，如机器振动、EMI噪声、电涌等影响。要使我们第二代3D成像平台的产品能够在设备制造、汽车组装及其他重工业作业中使用，它们必须能够应对严苛和具有挑战性的工作环境，同时对目标进行成像而不受干扰。为了确保3D成像模组的质量和可靠性，研发阶段我们设计了一系列严格的可靠性实验，来对其进行验证。具体来说，主要有：

气候环境测试

1.高温/低温存储测试

高温存储70℃和低温存储-20℃：设备存储环境千差万别，有些可能放在东北零下几十摄氏度；又有些设备可能是在炎热的热带，环境温度五十多摄氏度，车内甚至可以到七十多摄氏度，因此我们有

......长按二维码访问原文

中科融合自主研发的MEMS微振镜投射芯片，看芯片“小强”如何精准打光--机器视觉网 2024-03-21 13:57:22

2024-03-21 13:57:22 来源: 中国机器视觉网

*芯片跌落测试可以评估芯片在跌落或冲击情况下的机械强度和可靠性、检测芯片封装材料和焊接的可靠性、验证芯片内部结构和连接的稳定性，以防止内部部件松动或脱落、评估芯片在实际使用中受到物理冲击时的性能损坏情况。本次中科融合MEMS芯片直接跌落演示为极端场景演示，冲击性远高于常规跌落测试强度。

MEMS微振镜投射芯片是实现动态结构光条纹投影的核心部件，其每秒钟会产生数万次的振动，整个生命周期需要振动数千亿次，且每一次光学扫描都要非常精准，对可靠性、准确性要求极其苛刻。

生而强悍：高可靠超精准

中科融合自主研发的MEMS微振镜投射芯片，厚度仅40微米（0.04毫米），可通过1.5mm旋转轴控制4mm镜面达到70°大视场，同时实现全寿命千亿次重复。拥

......长按二维码访问原文

AI+3D点云多尺度算法融合，赋能焊接质量检测--机器视觉网 2024-03-21 13:49:52

2024-03-21 13:49:52 来源: 中国机器视觉网

在锂电池领域，机器视觉扮演着许多重要的角色，包括生产质量控制、生产自动化、数据追溯与管理等，随着越来越多的智能工厂建设需求的推动，对先进的机器视觉解决方案的需求日益增加。

当下，锂电行业需要的是更高效的图像处理分析、逻辑控制、运动控制的解决方案。

在智能制造时代，机器视觉在智能产线的检测、测量、定位、识别环节应用广泛。章鱼博士认为，基于自主研发的章鱼型工业操作系统和边缘应用层工业软件，集成线体智能控制器+PLC+运动控制器+视觉控制单元的解决方案，将是智能产线建立的基础，而机器视觉分析是产线智能化升级的核心模块。

其中，密封钉焊接是实现电池内部与外部环境完全隔离的重要工序，电芯上盖和密封钉之间是通过激光焊接工艺进行密封，焊接时不可避免的带来

......长按二维码访问原文

2024 CIOE 24万平大展共铸全球商贸新机遇―新闻频道- 视觉系统设计 2024/3/22 22:55:27

光电技术行业的迅猛发展，各项创新技术不断涌现，为产业进步注入强劲动力。作为光电领域的年度盛会，第25届中国国际光电博览会（简称“CIOE中国光博会”）将于2024年9月11-13日在深圳国际会展中心举办，本次展会占地12个馆共计24万平方米，汇聚超3700家海内外展商，预计吸引超过120,000名专业观众，为全球光电产业的技术创新、市场应用以及产业链整合提供交流合作的广阔平台。

光电技术成为新质生产力引擎

现如今，新质生产力成为发展性力量，主要聚焦行业包括战略性新兴产业和未来产业。如新一代信息技术、新能源、新材料、高端装备、新能源汽车、人工智能等等产业。而光电技术正是支撑性关键力量，是新质生产力的发展引擎。

覆盖光电全产业链的CIOE中国光博会深耕光电行业发展25年，见证了中国光电的飞跃之路, 也见证了全

......长按二维码访问原文

火热报名 2024中国智能汽车技术展，“渝”你相约！―新闻频道- 视觉系统设计 2024/3/22 11:15:55

三月春意盎然，万物复苏

作为西部地区专业的汽车行业盛会

2024中国智能汽车技术展焕发生机

2024年3月27-29日

将在重庆国际博览中心隆重开幕

15000�O 展示面积、300 家参展企业

150+名行业大咖、25000+专业观众

6大热门主题展区、5场同期高端活动

行业年度盛会，汇聚知名企业

展会聚焦重点领域，设置“智能网联、汽车芯片及软件、新能源汽车（电池技术、充换电和配套设施）、汽车用钢及轻量化材料、智能制造、汽车模具内外饰”等热门主题展区，广泛邀请全球知名汽车主机厂、零部件企业、材料企业、产业园区及相关技术企业参与展览。

阿维塔、理想汽车、鞍钢、宝钢、河钢、中信泰富特钢、涟钢、重庆平伟、东晶电子、佳南电气、米思米、杭州之江、万凯高分子材料、凯荣激光、黄岩品恒、上海继尔、凯姆茵电

......长按二维码访问原文

超恩推出采用最新英特尔®酷睿™ Ultra处理器SPC-9000嵌入式系统―新闻频道- 视觉系统设计 2024/3/21 23:49:39

超恩股份有限公司 (Vecow，以下简称超恩)近日宣布推出极精巧嵌入式系统SPC-9000系列，并可开始接受订单出货。超恩SPC-9000系列采用最新第14代英特尔®酷睿™ Ultra处理器，展现优异的运算表现、最佳能源效率与专用AI加速功能，协助推动工厂管理、资料撷取和监控、机器视觉、AMR、智能零售等嵌入式应用的创新。

全新英特尔®酷睿™ Ultra技术

......长按二维码访问原文

所罗门与NVIDIA合作加速生成式AI应用―新闻频道- 视觉系统设计 2024/3/21 23:36:39

被誉为「全球AI风向标」的 GTC 2024（英伟达GPU技术大会），于3月18至21日在美国硅谷举行，英伟达（NVIDIA）CEO黄仁勋在大会中介绍NVIDIA机器人平台Isaac时，以SOLOMON logo开场，展现双方在AI发展的合作决心。

所罗门在工业自动化领域深耕多年，致力开发AI视觉软件，近年应用拓展至物流、零售等领域。此次在NVIDIA GTC所展示的是3D视觉产品AccuPick，透过各种不同3D相机结合AI导引机器人，可以在摆放凌乱的环境中精准取放各式物件。

除了机器人应用，所罗门在AI瑕疵检测、工业元宇宙（AR+AI）成果也令人瞩目，不管是检测AOI难以判断的复杂瑕疵，还是搭配手机平板/AR眼镜/监控摄像头/Body Camera等各类硬件进行读表针数值辨识、SOP验证及环、安、卫巡检

......长按二维码访问原文

成都AI+机器视觉技术工业应用研讨会―新闻频道- 视觉系统设计 2024/3/21 23:33:52

2024年是中国经济承前启后、继往开来的一年，机器视觉行业亦将面临重要的转型发展机遇。为了积极推动行业企业国际化布局与国内市场的深化拓展，机器视觉产业联盟计划于2024年3月28日在成都举办一场主题为“蓉通视界，引领变革，共创高质量生态圈”的研讨会。

Teledyne旗下子公司Teledyne FLIR IIS受邀出席本次研讨会。Teledyne FLIR IIS是机器视觉面阵相机设计、制造和营销领域的全球领导者。我们提供市上广泛的高质量 1GigE、5GigE、10GigE 和 USB3 机器视觉面阵相机。我们寻求提供真正创新的产品和技术，以帮助我们的客户取得成功。凭借超过 25 年的机器视觉经验及源自于 Point Grey 以及 Dalsa 与 Lumenara 的产品线，Teledyne FLIR I

......长按二维码访问原文

堡盟折冠CAIMRS卓越企业大奖―新闻频道- 视觉系统设计 2024/3/20 22:41:18

继去年荣获CAIMRS新锐企业奖，堡盟稳扎稳打，今年更上一层楼，摘得2024年CAIMRS卓越企业奖。

堡盟自诞生之时就带有创新与进步的基因，在进入中国市场后，堡盟持续发力技术创新与客户服务，深得中国客户的赞誉，这是堡盟不忘初心、与时俱进、锐意进取的结果。

在激烈的中国市场环境中，堡盟在中国树立起了企业发展典范。堡盟取得的众多成果与荣誉源于堡盟对中国市场的深刻认识，以及不惧困难，勇往直前的决心与信心。

持续发力，高歌猛进

2023年工业自动化行业在疫情后如火如荼的高歌猛进，堡盟凭借过硬的实力以及优秀的产品力，在激烈的市场竞争中脱颖而出，获得了行业认可。

CAIMRS卓越企业奖是对堡盟过去一年为中国工业自动化行业做出成绩的认可，为堡盟过去一年的发展画上了圆满的句号。

不断进步，超越自我

堡盟在进入中

......长按二维码访问原文

西克拉线编码器Varioline―产品聚焦频道- 视觉系统设计 2024/3/21 23:46:28

拉线编码器作为可靠控制机器的“无声英雄”，在工业自动化发展日新月异的今天，依然发挥着不可替代的作用。

未来，随着各种新技术的不断引入和创新，拉线编码器将在更多领域得到广泛应用，为推动工业自动化和智能化发展做出更大贡献，西克的拉绳编码器组合除了大家熟知的Highline/Ecoline，拉线编码器产品组合再添一枚重磅新品Varioline，多样化的产品组合总有一款能适应您的需求。

Varioline产品速览

产品特点

1. 安装简单：编码器可在拉线盒双侧进行安装；

2. 灵活定制：可根据客户要求提供定制其他测量长度；

3. 高耐用性：拉线盒材质升级为通体不锈钢，拉线直径0.81mm,使用寿命1，000，000次；

4. 开放式设计外壳：污垢和水可以从底部排出；

5. 设计小巧：设计狭窄小巧坚固，厚

......长按二维码访问原文

光虎低畸变双远心镜头TTL18.5-270-480―产品聚焦频道- 视觉系统设计 2024/3/18 23:21:02

双远心镜头对精密尺寸测量有着非常重要的意义，随着机器视觉的不断发展，对双远心镜头的性能要求也越来越高。本公司致力于双远心镜头的研发，着重提高镜头的各项性能参数。

光虎双远心镜头系列拥有高远心度、低畸变率的性能特点，主要应用于精密测量领域及高精度视觉定位。

TTL18.5系列标准双远心镜头标准C接口，最大兼容1.1"（对角线18.5mm）靶面工业相机。

产品特点

>>光学倍率在1.609x-0.059x

>>视野范围在11.5mm-315mm之间，满足对不同视场的需求

>>工作距离在25mm-545mm之间，满足对不同工作距离的需求

>>低于0.05%的畸变，小于0.05°的远心度

>>双侧远心设计，超大景深，高分辨率

>>多层镀膜设计，光透过率高

>>工业级防水

>>高分辨或大景深两种选择

......长按二维码访问原文

华睿窄体叉车FD150―产品聚焦频道- 视觉系统设计 2024/3/15 22:23:44

华睿科技近期推出新一代堆高式叉取型AMR FD150。

此款叉车具有以下优点：

大负载窄通道

FD150基于AMR专用车身设计，额定负载1500KG，最大举升高度2m，满足最小2.2m通道内自主识别取放货。

安全可靠

车身配备多个激光及视觉等安全检测传感器，实现360°及立体安全防护，基于视觉语义的视觉技术有效的避开行人、叉车叉腿、劳保鞋等低矮物体，还支持向后检测和托盘缺失检测。

高精度货物到点

FD150窄体叉车实现高精度激光SLAM自然定位导航，根据环境和场景可选视觉辅助、视觉语义识别等辅助导航技术，适配复杂环境和复杂场景的运行。可以满足高精度货堆货场景，货物堆高上架出入库场景，密集存储场景，毫米级特定超高精度对接场景，电梯，传输线，机械臂等设备对接场景。

智能感知

基于视觉语义的智能视

......长按二维码访问原文

言曼科技100G超高速工业相机系统―产品聚焦频道- 视觉系统设计 2024/3/15 22:17:46

在工业自动化和机器视觉领域，技术的创新与突破始终是发展的关键。今天，我们将为您带来一款国内首发言曼自主研发的100G超高速工业相机系统的性能实测，带您深入了解其在速度与精度方面的卓越表现。

系统实图一览

言曼100G超高速工业相机和配套采集卡系统采用了最新的技术，具备高速传输、高分辨率成像、低噪声处理等核心功能。通过自主研发和技术创新，成功打破了传统技术的瓶颈，实现了在速度与精度方面的突破。

性能参数

言曼100G超高速工业相机：

言曼100G超高速图像采集卡：

......长按二维码访问原文

W10触摸屏式CMOS激光光电传感器―产品聚焦频道- 视觉系统设计 2024/3/15 21:59:15

触屏式交互界面

SICK光电传感器，一直秉承着开箱即用、便捷设置、高效传感的理念，不断推陈出新，继W12L全能型激光光电、W4迷你型智能光电后，W10系列触摸屏式CMOS激光光电打破常规，采用纯触摸屏式的交互界面，只需简单滑动点击，即可实现示教、前景/背景抑制切换、模式切换、设备上锁等功能，传感器调试从此进入更简洁、更直观、低门槛的新世代！

W10优势速览

►小段差、高反光检测无压力

高精度CMOS芯片，W10对小段差、高反光等难检测物体表面的探测更加游刃有余。

►一机多用

All-in-one的设计理念将前景抑制/背景抑制+响应模式/标准模式/高精度模式集于一体，真正实现一机多用。

►卫生、恶劣环境不是问题

316L不锈钢外壳实现IP69K防护，卫生环境、恶劣环境均可适用。

为了实现快速上手

......长按二维码访问原文

Inspector系列2D智能相机+深度学习方案―产品聚焦频道- 视觉系统设计 2024/3/14 19:43:38

Intelligent Inspection工具集在InspectorP6xx & Inspector8xx 2D视觉传感器上运行，有助于在设备上快速、轻松地创建应用。

工作原理

异常检测工具

异常检测工具可以适合用于无法可想靠预测缺陷样本的复杂应用场合。进行训练时，只需要搜集良好的图像样本。异常检测工具会根据良好样本的训练结果，直接输出OK或者NOK的检测结论，同时会在检测图像中用热区图的形式将缺陷区域显示出来。

异常检测工具支持客户进行简单、快速的on-device应用构建，用户可以在智能相机硬件中训练最多100张良好图像样本。

分类工具

分类工具可以将视觉上很相似的物体进行区分，适用于多变、不稳定、反光材质等复杂应用场合。对于组装核验、缺陷分类等也可以轻松实现。

这个工具在所有类别的类似数量

......长按二维码访问原文

具有3D视觉的自动机器人在物流领域的应用―技术与应用频道- 视觉系统设计 2024/3/22 23:08:43

智能移动机器人可作为内部物流的得力助手。它们采用的3D相机可感知周围环境，并独立做出决定。

什么是具备3D视觉的机器人解决方案？

Magazino公司的自动供应链机器人SOTO是工业和生产流程的理想选择。它具备智能技术，可灵活对不断变化的需求做出反应，能够完全取代货物推车或拖拉式车组，也可以与它们进行互动。它带有巧妙的拾放系统，可满足种类日益繁多的产品。该系统可处理位于不同位置和高度的各种小型载荷装置。借助3D相机，SOTO可以感知周围环境，并自动拾取和放置商品。

此类3D视觉机器人应用会面对什么挑战？

该应用的主要挑战是距离要求和物体表面的性质。由于相机与待检测物体之间的距离相对较近，仅为0.1m - 1.5m，因此3D相机必须具有较大的视场，以便在物体附近可靠地检测箱盒等尺寸更大的物体。此外，相机具

......长按二维码访问原文

堡盟PLP70高速涂布机液位安全除害记―技术与应用频道- 视觉系统设计 2024/3/20 22:37:14

涂布机广泛被应用于锂电池薄膜的制造，是新能源车辆动力电池生产中必不可少的高效生产环节。今天介绍的PLP70就是一款使用在涂布机中的重要设备。

案例介绍

高速涂布机的缓存罐是物料液体的存储介质，液体液位的检测与控制对于整个生产极其重要，一旦液位测量不够精准，发生低液位或空罐的现象，将导致残品的产出，为生产企业带来难以弥补的损失。而连续测量液位，可以帮助高速涂布机缓存罐避免空罐等安全问题，实现连续精准的液位安全测量，为涂布机提供高速持续稳定的工作提供保障。

为了能够解决液位检测的准确性和连续性。客户在高速涂布机罐体内采用了堡盟PLP70电位计式物位传感器，使得其物位测量变得更简单、便捷。

参数好与精度高是PLP70的最大特点，而耐用性是堡盟产品一直以来的绝对标签。

01.PLP70精度极高，测量电导率非常

......长按二维码访问原文

自动驾驶卡车帮助物流配送站点降本增效―技术与应用频道- 视觉系统设计 2024/3/20 22:17:41

图1：一辆自动驾驶的货运站卡车，在AI的协助下，正将载货拖车倒入装卸区。

Outrider公司是一家专注于物流中心可持续、货运站自动化运营的机器人公司，该公司开发了一种在货物配送站移动和跟踪载货拖车的系统。

在物流供应链中，货物配送站是牵引式拖车在物流中心和开放道路之间转运货物的地点。事实上，全球每年有超过200亿吨的货物运输，都要在货物配送站点进行中转。

通常，配送站点的工作过程是这样的：一名长途公路运输卡车司机将满载货物的卡车开进货物配送站，办理入场手续，然后被引导到停车区域。司机将车开到停车区域后，将卡车与装载集装箱的拖车脱离，将集装箱挂车留在停车位。接着，货场工作人员找到该集装箱拖车，并将其挂在货场内的卡车上——这是一种专用的半挂卡车，用于在货场周围移动集装箱拖车。集装箱拖车被移到装卸货区卸货。卸

......长按二维码访问原文

基于光谱共焦技术的柔性PCB焊盘检测―技术与应用频道- 视觉系统设计 2024/3/19 19:51:13

3月14日，全球三大家电及消费电子展之一中国家电及消费电子博览会AWE 2024在上海开幕，三星、TCL、海信、长虹、联想、创维等终端厂商亮相AWE 2024，共同聚焦创新显示，并展出各自采用最新显示技术的新型产品。

当新型显示技术逐渐成熟，已经完美应用在大型产品后，下一步的技术迭代需要克服的难题，产品小型化必是其一。

在今年初的国际消费电子展（CES）期间，我们已经通过《行业应用丨基于光谱共焦技术的Mini-LED基座检测》这篇文章，分享过要对Mini-LED基座进行检测的原因。

一般来说，对于有大量空间的设备，如计算机和电视等产品，使用刚性PCB可以有效节省成本，轻松保证质量；

而柔性PCB是一种特殊类型的电路板，可以弯曲成所需的应用形状；与常规的刚性电路板相比，这种电路板将导电通路和电气元件放置在

......长按二维码访问原文

压铸类工件机器人3D视觉引导上下料解决方案―技术与应用频道- 视觉系统设计 2024/3/19 19:40:31

汽车零配件行业是机器人自动化应用的重要领域，其产品种类多、加工链长、工艺场景覆盖面广，通过制造升级实现产品一致性提升及企业降本增效的必要性强、迫切程度高。

埃尔森作为专业的机器人3D视觉方案提供商，依托可靠的自研工业3D相机、工业视觉应用软件及3D视觉项目方案实施交付经验，已在汽车零配件加工、装配、搬运等多环节实现技术导入及产品覆盖。本次，将为大家分享压铸类工件上下料相关应用。

01.扁平冲压件上下料定位引导

冲压件种类样式多、尺寸各异，在侧围、车顶、前后车体等部件组焊环节及焊装车间白车身焊装环节存在大量的机器人上、下料定位及引导需求。冲压件属于典型的扁平工件，有效识别特征少、刚性差异大，传统视觉定位容易出现识别偏差、识别错误、测距不准等情况，但此类应用工况对于工艺精度要求极高，对视觉定位引导的准确性、品

......长按二维码访问原文

3D相机软件提升相机反光物体成像能力―技术与应用频道- 视觉系统设计 2024/3/19 19:28:57

近期，梅卡曼德发布了全新升级的3D相机软件。新升级的软件可选反光物体模式，极大提升反光物体成像质量，点云准确度提升90%（相较于传统模式）。有效应对筐壁反光、塑料包膜等情况，大幅提高智能机器人在复杂工况场景下对各类反光物体的识别成功率，帮助合作伙伴提升汽车、工程机械等领域各类典型项目的交付效率。

反光物体成像能力大幅提升

更好应对各类工业场景

01 镜面反光

工件经机加工、打磨、抛光等工艺处理后，表面通常呈现强镜面反射特性，漫反射率低，导致相机接收的有效信号过少，造成3D点云缺失。

通过此次软件升级， Mech-Eye工业3D相机对高反光工件也能捕捉到足够的条纹信号。从而精确地提取物体表面细微特征，生成高分辨率、低噪点的3D点云数据，高亮处点云缺失、变形及飞点减少95%（相较于传统模式）。大幅提升机器

......长按二维码访问原文

控制工程网-全球工控自动化和智能制造门户网站 2024/3/28 14:00:00

资讯 > 技术文章

作者：Tanya M. Anandan2024.03.18阅读 1079

此图片来源：CEChina

面向未来的制造业有望实现智能互联的工厂，能够利用数据灵活地适应竞争激烈的环境、供应链挑战和苛刻的客户要求。这一征程始于信息化和数字化，这是更好地理解和做出明智决策的第一步。

01 获取手动装配数据

“我们进入工厂，用人工智能模块覆盖一条生产线。”Invisible AI首席执行官兼联合创始人Eric Danziger说，他也是美国推进自动化协会（A3）视觉与成像技术战略委员会的成员。“在一条生产线上可能有20或50个摄像头，所有摄像头都在同一个本地网络上相互通信。我们正在构建这种有凝聚力的实时3D视图。”

视频需要大量的带宽，Danziger说这对云来说是不切实际的。这就是为什么

......长按二维码访问原文

缓解停车难！兆越智慧停车场管理系统让停车更"智慧" 2024/3/28 14:00:00

资讯 > 解决方案

www.cechina.cn2024.03.22阅读 130

前言

系统概述

与传统停车场相比，智慧停车场管理系统具有明显的优势。首先，出入口通行效率高，避免停车场内外车辆排队拥堵。其次，方便快捷找到停车位，车主可以通过车位识别摄像机和LED车位方向指引屏快速找到空车位，离开时可以快速查找车辆的停放位置，实现寻车功能。此外，智慧停车场管理系统还支持多种缴费场景和支付方式，方便车主缴费。

......长按二维码访问原文

拖放式图形编程和UI设计——OPT（奥普特）Smart3视觉软件高效易用 2024/3/18 15:40:49

得到贵公司产品详细资料

得到贵公司产品的价格信息

贵公司产品销售人员联系我

贵公司技术支持人员联系我

......长按二维码访问原文

3M™ SDR线缆组件，1SD26-X1XX-00C-XXX系列 2024/3/17 17:17:12

得到贵公司产品详细资料

得到贵公司产品的价格信息

贵公司产品销售人员联系我

贵公司技术支持人员联系我

......长按二维码访问原文

3M™ Camera Link 工业相机线缆组件, MDR/SDR, 1Mx26-xFxx 系列 2024/3/17 17:09:19

得到贵公司产品详细资料

得到贵公司产品的价格信息

贵公司产品销售人员联系我

贵公司技术支持人员联系我

......长按二维码访问原文

3M™ SDR线缆组件，1MF26-L5XX-00C-XXX 2024/3/17 17:03:09

得到贵公司产品详细资料

得到贵公司产品的价格信息

贵公司产品销售人员联系我

贵公司技术支持人员联系我

......长按二维码访问原文

3M™ CoaXPress 线缆组件 1CXx-xx-0G 系列 2024/3/17 16:56:25

得到贵公司产品详细资料

得到贵公司产品的价格信息

贵公司产品销售人员联系我

贵公司技术支持人员联系我

......长按二维码访问原文

3M™ PoCL线缆组件 2024/3/14 18:42:05

得到贵公司产品详细资料

得到贵公司产品的价格信息

贵公司产品销售人员联系我

贵公司技术支持人员联系我

......长按二维码访问原文

3M™ Camera Link 工业相机线缆组件, MDR, 1WL26 系列 2024/3/14 16:33:17

得到贵公司产品详细资料

得到贵公司产品的价格信息

贵公司产品销售人员联系我

贵公司技术支持人员联系我

......长按二维码访问原文

3M™ USB3 Vision 工业相机线缆组件 1U30E 系列 2024/3/14 16:28:56

得到贵公司产品详细资料

得到贵公司产品的价格信息

贵公司产品销售人员联系我

贵公司技术支持人员联系我

......长按二维码访问原文

3M™ SDR线缆组件，1MD26-X5XX-00C-XXX系列 2024/3/14 16:24:32

得到贵公司产品详细资料

得到贵公司产品的价格信息

贵公司产品销售人员联系我

贵公司技术支持人员联系我

......长按二维码访问原文

3M™ Camera Link 工业相机线缆组件, MDR, 14X26 系列 2024/3/14 16:19:58

得到贵公司产品详细资料

得到贵公司产品的价格信息

贵公司产品销售人员联系我

贵公司技术支持人员联系我

......长按二维码访问原文

Structuring a Sustainable Future: Visual Technology is Advancing the Discovery & Development of New Materials： 2024-03-15T11:38:00-0400

In November 2023, Google DeepMind published a new AI model that uses deep learning to discover new materials faster than ever before. DeepMind’s tool, called Graph Networks for Materials Exploration (GNoME), has already predicted more than 2.2 million hypothetical materials. Over 700 new materials are being manufactured and tested in-lab. Based on combining

......长按二维码访问原文

但是，什么是Gaussian Splatting（一） 2024-03-21 00:45

关注计算机视觉/图形学的朋友肯定早就听过Gaussian Splatting的大名，本文旨在分享笔者对Gaussian Splatting的理解。和大部分同类文章相比，本文

不会涉及任何（难以理解的）数学从可微渲染（Differentiable Rendering）的角度进行思考，这也是笔者认为最能领会3DGS之优雅的切入点从geometry的角度“抨击”3DGS，聊一聊在什么意义下3DGS是不好的

下面开始~

0. Gaussian Splatting是干啥的

一言以蔽之：Gaussian Splatting提出了一种三维表达（3D Gaussian）和配套的渲染方式（Splatting），能够1）迅速地重建现实世界中的场景 2）用重建的场景渲染新视角图片，速度特别快（实时渲染) 3）用重建的场景

......长按二维码访问原文

【AAAI2024】RVQCNIR: Clearer Night Image Restoration with Vector-Quantized Codebook： 2024-03-21 21:39

......长按二维码访问原文

TAPTR: 一个简单高效的追踪任意点基线模型 2024-03-21 14:21

论文：https://arxiv.org/abs/2403.13042

主页：https://taptr.github.io

在线Demo-Trajectory：https://taptr-trajectory.deepdataspace.com

在线Demo-VideoEditing：https://taptr-trajectory.deepdataspace.com

我们思考了TAP任务的本质，并找到TAP任务与检测任务之间具有很强的共性。基于这一共性，我们找到了之前方法设计中的冗余之处，并提出了一个简单高效的Baseline：Tracking Any Point with TRansformer(TAPTR)。我们在多个数据集上取得了sota的结果，并且保持了速度上的优势。我们提供了丰富的abla

......长按二维码访问原文

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.03.10-2024.03.15 2024-03-22 10:27

1.3D-VLA: A 3D Vision-Language-Action Generative World Model

标题:3D-VLA：三维视觉-语言-动作生成世界模型

author:Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan

publish:Project page: https:// vis-www.cs.umass.edu/3d vla/

date Time:2024-03-14

paper pdf:http://arxiv.org/pdf/2403.09631v1

摘要：最近的视觉-语言-动作（VLA）模型依赖于二维输入，缺乏与更广阔的三

......长按二维码访问原文

最新提出！基于动态对象识别和改进的多视图几何方法实现准确而稳健的动态SLAM 2024-03-21 15:42

在不断发展的自主导航领域，传统的可视同步定位和映射（SLAM）系统在动态环境中经常遇到挑战，这主要是由于它们依赖于静态环境的假设。为了应对这些局限性，我们推出了ARD-SLAM，这是一种突破性的动态SLAM方法，创新性地将全局密集光学跟踪与复杂的几何方法相结合。ARD-SLAM的核心创新在于其动态目标识别技术，该技术将几何运动信息与预期运动数据和谐地结合在一起。这种集成有助于对移动物体进行有效分割，从而大大减少它们对相机自我运动估计的影响。先进的多视图几何方法进一步增强了 ARD-SLAM，该方法强调选择匹配良好的特征点。这种方法有助于有效地管理动态场景，同时还可以减少计算负载。

原文：最新提出！基于动态对象识别和改进的多视图几何方法实现准确而稳健的动态SLAM

移步公众号「3DCV」第一时间获取工业3D视

......长按二维码访问原文

高性能计算与深度学习结合；提升云人工智能基础设施可靠性；基于心理测量学的通用型人工智能评估；模仿人脑思维模式的视觉语言规划框架 2024-03-21 18:31

编者按：欢迎阅读“科研上新”栏目！“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里，你可以快速浏览研究院的亮点资讯，保持对前沿领域的敏锐嗅觉，同时也能找到先进实用的开源工具。

「本期内容速览」

01 ConvStencil：突破高性能计算与人工智能的“软硬”边界（PPoPP 2024 最佳论文）

02 Anubis：通过主动验证提升云人工智能基础设施的可靠性

03 基于心理测量学的通用型人工智能评估方法

04 VLP：类似于人类左右脑思维模式视觉语言规划框架

ConvStencil：突破高性能计算与人工智能的“软硬”边界

本文荣获 PPoPP 2024 唯一最佳论文奖

论文链接：

https://dl.acm.org/doi/10.1145/3627535.3638476

......长按二维码访问原文

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.03.15-2024.03.20 2024-03-22 10:24

1.Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models

标题:点链：交互式推理改进大型视觉语言模型

author:Zuyan Liu, Yuhao Dong, Yongming Rao, Jie Zhou, Jiwen Lu

publish:Project Page: https:// sites.google.com/view/c hain-of-spot/

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12966v1

摘要：在视觉语言理解领域，模型对视觉内容进行解释和推理的能力已成为众多应用的基石。然而，对于大型视觉语言模型（LV

......长按二维码访问原文

2D Gaussian Splatting论文阅读笔记 2024-03-21 08:11

核心内容

3DGS在NVS和real-time rendering任务上取得了惊人的效果，但面临难以获得较好表面几何的问题。2DGS通过采用surfels的表达方式，并使用针对surfels的投影方法较好地保证了多视角一致性，进一步的，2DGS通过depth和normal的regularization terms提高了重建几何的质量。

FSGS：少视图输入的实时3D-GS新方法 2024-03-22 10:30

论文标题：

FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting

论文作者：

Zehao Zhu, Zhiwen Fan1, Yifan Jiang, Zhangyang Wang

项目地址：

https://zehaozhu.github.io/FSGS/

导读：在这项工作中作者提出了一个实时少视图输入的框架FSGS，它可以用于在输入的各个视图没有有效重叠情况下的新视图合成任务。FSGS从极稀疏的SfM点云初始化开始，采用了基于点的表示方法，提出了一种通过测量每个高斯值与其相邻点接近度的高斯上采样方法。©️【深蓝AI】编译

1. 工作概述

现有基于NeRF的少样本视角合成技术往往为了获得准确的3D表示而效率往往大打折扣

......长按二维码访问原文

2403211900 粉末涂料的图像清晰度（DOI）是指涂层表面反射图像的清晰程度。高图像清晰度的涂层能够清楚地反映出图像的细节和轮廓，这通常与涂层的光泽度和平滑度有关。 2024-03-21 22:12

2403211900 粉末涂料的图像清晰度（DOI）是指涂层表面反射图像的清晰程度。高图像清晰度的涂层能够清楚地反映出图像的细节和轮廓，这通常与涂层的光泽度和平滑度有关。涂层的图像清晰度可以通过专门的仪器进行测量，例如使用ASTM D5767标准测试方法。

在实际应用中，提高粉末涂料涂层的图像清晰度可以通过以下几个方面来实现：

1. 涂料配方：选择合适的树脂和固化剂，以及优化颜料和填料的类型和用量。

2. 生产工艺：控制涂料的制备过程，如混合、挤出和研磨，以确保颜料分散均匀。

3. 施工技术：采用适当的喷涂技术和设备，确保涂层均匀且无缺陷。

4. 固化条件：调整烘烤温度和时间，确保涂层完全固化且无内部应力。

涂层的图像清晰度不仅影响外观质量，也反映了涂层的整体性能。因此，在粉末涂料的生产和应用中，图

......长按二维码访问原文

【CVPR2024】CricaVPR： 2024-03-21 23:40

......长按二维码访问原文

CVPR 2024 | 长时舞蹈生成：数秒钟可生成极长的3D舞蹈 2024-03-22 12:56

公众号：将门创投(thejiangmen）

作者：李镕辉

1bac49ddff114067881a0be351781a7a.png

目前，视觉扩散生成模型（如Stable Diffusion等）在常规图像生成任务上获得了非常好的效果，但是在内容制作的专业领域，例如对图像进行透明分层制作，现有的方法仍然缺乏这种功能。本文介绍一篇来自斯坦福大学的工作，本文提出了一种名为LayerDiffuse的新型扩散方法，LayerDiffuse允许我们大规模预训练扩散模型来生成专业的透明图层。

本文探索了一种“latent transparency”（隐透明度）的概念，通过将alpha通道的透明度编码到预训练扩散模型的隐空间流形中，并将对透明度的调节设置为对隐空间流形的偏移量。LayerDiffuse仅对基础预训练隐空

......长按二维码访问原文

YOLOv8独家改进: 注意力机制改进 | 上下文锚点注意力（CAA） | CVPR2024 PKINet 遥感图像目标检测 2024-03-21 16:44

本文独家改进：引入了CAA模块来捕捉长距离的上下文信息，利用全局平均池化和1D条形卷积来增强中心区域的特征，从而提升检测精度，CAA和C2f进行结合实现二次创新，改进思路来自CVPR2024 PKINet，2024年前沿最新改进，抢先使用

小目标数据集，涨点近两个点，强烈推荐

改进结构图如下：

1.PKINet原理介绍

论文： 2403.06258.pdf (arxiv.org)

摘要：遥感图像目标检测(RSIs)经常面临一些日益严峻的挑战，包括目标尺度的巨大变化和不同的测距环境。先前的方法试图通过大核卷积或扩展卷积来扩展主干的空间感受野来解决这些挑战。然而，前者通常会引入相当大的背景噪声，而后者可能会产生过于稀疏的特征表示。在本文中，我们引入聚核初始网络(Poly Ker

......长按二维码访问原文

视频内容理解实习生（长期） 2024-03-22 13:54

职位名称：大规模视频内容理解实习生

部门：数据智能

工作地点：上海张江或者线上（特殊不能线下）

职位描述：

作为大规模视频内容理解实习生，您将加入我们充满活力的AI研究与开发团队，参与到前沿的视频分析项目中。您将负责协助开发和优化算法，以提高视频内容分析的准确性和效率。我们期待您能够运用您的专业知识和技术能力，为我们的视频理解技术带来创新和突破。

主要职责：

- 参与研究和开发用于大规模视频内容理解的深度学习模型（多模态特征融合）。

- 协助实现和优化slowfast、TSM等经典模型，以适应不同的视频分析任务。

- 与团队合作，进行模型训练、调优和测试，确保模型性能满足项目需求。

- 跟踪最新的研究进展，将创新的算法和技术应用到实际项目中。

- 编写技术文档，记录实验结果和分析报告。

......长按二维码访问原文

LeCun数十年经验之谈：视觉是建立AGI的核心，视频理解难点在哪？语言模型技术为何难以复用于视觉？ 2024-03-21 16:28

大语言模型（LLM）已经接近人类水平，但视觉理解在世界范围似乎尚未突破，那么为何不能直接将LLM技术用于视觉？让AI看视频的难点在哪？如果语言是AGI必要的能力，为何猫狗、幼儿不会说话似乎也比目前的AI更能理解现实世界？

这些问题非常关键，近日，LeCun 又一次来到 Lex Fridman 的播客，展开了一场接近三个小时的访谈，谈到了这些问题，内容涉及LLM 的局限性、视觉理解与语言理解的区别、通向 AGI 的道路等等，非常精彩。我们精选了一些观点，与大家分享。以下内容受限于篇幅，有删减无修改：

完整视频观看链接：

https://www.youtube.com/watch?v=5t1vTLU7s40

模型没有视觉输入，仅靠语言不会达到AGI

推特原文：https://twitter

......长按二维码访问原文

【CVPR 2024】FRESCO：零样本视频翻译的时空对应（FRESCO） 2024-03-22 10:24

本文引入了FRESCO，将帧内对应和帧间对应结合起来建立更强大的时空约束，以确保跨帧语义相似内容的更一致转换。

FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

Shuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy

The remarkable efficacy of text-to-image diffusion models has motivated extensive exploration of their potential application in video domains. Zero-shot methods seek to extend im

......长按二维码访问原文

深度学习增强的RANSAC！提升杂乱环境下的平面实例分割效果 2024-03-21 19:53

标题：Multi-Object RANSAC: Efficient Plane Clustering Method in a Clutter

链接： https:// arxiv.org/pdf/2403.1244 9.pdf

1、导读

本文提出了一种新的平面聚类方法，专门用于在杂乱环境中使用RGB-D相机进行对象识别，并通过机器人抓取实验验证了其有效性。与现有的方法不同，该方法关注包含不同尺度对象的杂乱环境，通过在深度平面聚类(DPC)模块中生成子平面来增强平面分割，然后通过后处理将这些子平面合并为最终平面。DPC通过投票层重新排列点云，以使在自监督方式下使用RANSAC生成的伪标签进行子平面聚类。与最近的RANSAC应用相比，Multi-Object RANSAC在平面实例分割方面表现更为优越。在机器

......长按二维码访问原文

AI算法盒子|车辆违停检测系统 2024-03-21 18:45

在现代城市管理中，车辆违停已成为一个普遍存在的问题，影响了交通秩序和市容环境。因此，开发一种有效的车辆违停检测算法对于提升城市管理水平至关重要。本文将针对车辆违停检测算法展开深入探讨，以期为城市交通管理提供专业技术支持。

功能介绍：

车辆违停检测算法基于计算机视觉和深度学习技术，旨在实时识别并报警违停车辆。该算法通过对监控摄像头获取的视频数据进行分析，能够准确地检测出在禁止停车区域或限时停车区域停留超过规定时间的车辆。一旦发现违停车辆，系统将立即发出警报通知相关管理人员，以便及时采取措施，维护道路交通秩序。

为确保检测准确性，该算法具备针对不同场景的参数配置功能，可以适应各种环境条件下的车辆违停情况，包括不同光照、天气等因素。同时，算法还能够识别各种类型的车辆，如轿车、卡车等，以满足不同场景下的监测需求。

......长按二维码访问原文

首个！ProMamba：用于息肉分割的Prompt-Mamba 2024-03-22 22:18

ProMamba：一种基于Prompt-Mamba的分割模型，这是第一个将提示和视觉Mamba技术结合到息肉分割中的模型，在六个数据集上性能表现出色！代码即将开源！

点击关注 @CVer官方知乎账号，可以第一时间看到最优质、最前沿的CV、AI、AIGC工作~

ProMamba

ProMamba: Prompt-Mamba for polyp segmentation

单位：北京大学, 华南师范大学

论文：https://arxiv.org/abs/2403.13660

CVPR 2024 论文和开源项目合集请戳—>https://github.com/amusi/CVPR2024-Papers-with-Code

通过结肠镜检测息肉是医学图像分割中的一项重要任务，为临床手术提供重要的帮助和参考价值

......长按二维码访问原文

FMR-NET:用于弱光图像增强的快速多尺度残差网络（已更新三类预训练模型） 2024-03-22 13:24

之前上传的代码存在一定问题，目前已重新更新并上传了三类新的预训练模型供大家使用

paper GitHub CSDN下载

动机：

不按摘要来形式来写，本文的动机在于一个，减少模型参数量，加快运行速度，以及取得还不错的效果。因此，就存在两个方面的技术问题：第一，如何降低参数量；第二，如何降低内存访问的次数(这个观点从FasterNET就可以看出，很多文章也在提这个点)；第三，如何取得还不错的增强效果。

因此，我自己思考的是两个：第一个是输入通道的通道数量应该小（特征冗余很多；相较于FasterNet的局部卷积；直接减少通道感觉也行）；第二个在于特征提取的能力必须很强(1.基本会使用大量残差，但是残差其实是加大了内存访问次数的，因此也不能太多；2.必须加入多尺度的环节，但是许多的多尺度卷积会增大整个网络的复杂

......长按二维码访问原文

悉尼大学&商汤提出LocalMamba：使用局部扫描机制打造更适配视觉任务的Mamba模型 2024-03-22 10:36

近期，以Mamba为代表的状态空间模型（State Space Models）在诸如自然语言理解等序列建模任务中取得了显著进展。然而，其在视觉任务中的应用并没有表现出相较卷积神经网络（CNNs）和视觉Transformer（ViTs）的明显优势。

来自悉尼大学、商汤等机构的研究者指出，不同于视觉Transformer，Mamba中序列的扫描方向对其精度提升至关重要。传统的视觉Mamba（ViMs）方法只是简单地将图像token通过逐行或逐列扫描铺平成一维序列，从而增加了图像中相邻token的距离，弱化了局部2D依赖关系的建模。

因此，作者引入了一种新颖的局部扫描策略，通过将图像划分为不同的窗口，有效地捕捉了局部依赖关系，同时保持Mamba原有的全局依赖能力。此外，作者还提出了一种动态搜索方法，用于为

......长按二维码访问原文

AI算法盒子|人员徘徊检测系统 2024-03-21 14:22

在当今社会，对于人员活动的监测与管理已成为各个领域的重要任务。人员徘徊检测算法作为一种基于人工智能技术的解决方案，旨在实时识别并警示人员在特定区域内的停留情况。本文将深入探讨该算法的设计与应用，为提升各种场景下的安全管理水平提供技术支持。

功能介绍：

人员徘徊检测算法利用深度学习技术，通过对大量人员活动数据的收集和分析，训练出能够自动识别人员徘徊行为的模型。该算法可以实时监测视频画面中的人员活动情况，识别出长时间停留在某一区域的个体，并发出警报提示。当系统检测到人员在特定区域停留时间超过设定阈值时，将立即触发报警机制，以提醒相关人员进行进一步的观察和处理。这一算法的应用可有效提高各类场景下的安全管理效率，预防不必要的事故发生。

为保证检测的准确性，该算法具备多种参数配置功能，可根据不同场景的需求进行灵活调

......长按二维码访问原文

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.02.20-2024.02.25 2024-03-22 10:38

1.Representing Online Handwriting for Recognition in Large Vision-Language Models

标题:在大型视觉语言模型中表示在线手写识别

author:Anastasiia Fadeeva, Philippe Schlattner, Andrii Maksai, Mark Collier, Efi Kokiopoulou, Jesse Berent, Claudiu Musat

date Time:2024-02-23

paper pdf:http://arxiv.org/pdf/2402.15307v1

摘要：配备触摸屏和手写笔的平板电脑越来越多，其中一个关键功能就是将手写转换为文本，从而实现搜索、索引和人工智能辅助功能。与此同

......长按二维码访问原文

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.02.15-2024.02.20 2024-03-22 10:40

1.Your Vision-Language Model Itself Is a Strong Filter: Towards High-Quality Instruction Tuning with Data Selection

标题:你的视觉语言模型本身就是一个强大的过滤器：利用数据选择实现高质量的指令调整

author:Ruibo Chen, Yihan Wu, Lichang Chen, Guodong Liu, Qi He, Tianyi Xiong, Chenxi Liu, Junfeng Guo, Heng Huang

publish:9 pages, 3 figures, 4 tables

date Time:2024-02-19

paper pdf:http://arxiv.org/

......长按二维码访问原文

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.01.25-2024.01.31 2024-03-22 11:31

1.PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition

标题:PVLR：用于多标签图像识别的提示驱动型视觉语言表征学习

author:Hao Tan, Zichang Tan, Jun Li, Jun Wan, Zhen Lei

publish:15 pages, 8 figures

date Time:2024-01-31

paper pdf:http://arxiv.org/pdf/2401.17881v1

摘要：多标签图像识别是计算机视觉领域的一项基本任务。最近，视觉语言模型在这一领域取得了显著进步。然而，以前的方法往往不能有效利用语言模型中的丰富知识，

......长按二维码访问原文

但是，什么是Gaussian Splatting（二） 2024-03-21 21:46

关注计算机视觉/图形学的朋友肯定早就听过Gaussian Splatting的大名，本文旨在分享笔者对Gaussian Splatting的理解。和大部分同类文章相比，本文

本文是第二部分，前文

2. Gaussian Splatting 是什么：

我们已经理解了Gaussian Splatting的核心内容：一套高效的可微渲染框架。本节将详细解释两件事：Gaussian表达到底“是什么”，以及什么叫“Splatting”。在下一节，基于这两个理解，读者可以很轻松地明白Ga

......长按二维码访问原文

关于做实验和分析问题的一些浅见 2024-03-21 07:10

这篇文章简要分享了我对做实验和问题分析的一些浅见，仅供读者参考。如有不合理之处，敬请批评指正。这些经验主要针对计算机视觉和人工智能领域，但其他领域可能也会有相关之处

注：该文章以文字为主，可读性可能较差。

1. 做实验的几个原则

1.1. 从最简单的情形开始实验

在算法设计的早期，在完成代码编写之后，就需要开始做实验来验证想法了。一个良好的习惯是，从最简单的问题设置开始实验，以方便快速调试代码中存在的问题。确认代码没有明显问题后，再逐渐过渡到实际的复杂设置。

简单的问题设置包括使用少量简单的数据、简单的模型和简化后的输入输出。举例来说，我们可以先尝试使用一张图像、一个批次或一个场景进行过拟合训练。如果在这些少量数据上无法成功过拟合，那么很可能存在代码或方法的问题。

1.2. 要保持控制变量

在验证

......长按二维码访问原文

如何使用 PromeAI 将草图转换为逼真的渲染？：2024-03-12T19：55：47+00：00

介绍

在视觉艺术和设计领域，不起眼的素描、素描或涂鸦是创造力和创新的基石。这些在纸上或数字画布上的初始标记不仅仅是粗略的想法;它们是令人叹为观止的艺术作品和功能设计萌芽的种子。从建筑师错综复杂的蓝图到

...... 长按二维码访问原文

AI 工具：14.0.0

我们在 Analytics Vidhya 网站上使用 cookie 来提供服务、分析网络流量并改善您在网站上的体验。使用 Analytics Vidhya，即表示您同意我们的隐私政策和使用条款

...... 长按二维码访问原文

Kostya Zhang：14.0.0

...... 长按二维码访问原文

行业资讯

【动手学】44_单发多框检测(SSD)

Faster-RCNN参考文章

相关推荐

搜索