文章目录[隐藏]
- 视觉招聘小黑板
- 行业资讯
- Top Research Universities in the US: Leading the Way in Computer Vision Innovation: 2023-12-27T12:55:45+00:00
- 第六镜科技与德国传感器巨头西克SICK进行专业技术交流--机器视觉网 2023-12-28 18:27:50
- 思谋与格力、域塔达成战略合作 持续赋能大湾区智慧物流--机器视觉网 2023-12-28 18:10:44
- 商汤牵头制定的两项AR国家标准下达,推动行业大规模、规范化应用--机器视觉网 2023-12-28 17:24:10
- 特控新品无风扇工控机MEC-T1922 推动数控机床智能化发展--机器视觉网 2023-12-27 10:15:11
- Teledyne e2v发布全新高水准CMOS图像传感器系列 2023-12-27 09:40:54
- InteVega-AI视觉零门槛一站式开发平台--机器视觉网 2023-12-28 16:24:25
- 工业4.0时代的质量控制与逆向工程利器--机器视觉网 2023-12-28 15:03:54
- 工业AI视觉检测模型开发平台(RAIDI):让工业图像处理更智能、更高效--机器视觉网 2023-12-28 10:16:25
- 体积测量如何做到快、准、稳?海康机器人用三套方案给出了答案--机器视觉网 2023-12-27 16:04:57
- 阿丘助力攻克动力电池复杂瑕疵检测难题--机器视觉网 2023-12-27 15:35:43
- In-Sight 3800加速食品饮料检测并提升可追溯性--机器视觉网 2023-12-27 14:22:23
- 兆龙六类综合布线系统“实力助力”打造“数字化”“信息化”的智慧党校--机器视觉网 2023-12-27 14:11:50
- 3D结构下的引线键合检测有哪些挑战与突破?--机器视觉网 2023-12-27 14:03:24
- 机器视觉的应用场景总结-电子发烧友网 2023-12-26 10:57
- 机器视觉的基础知识-电子发烧友网 2023-12-26 10:54
- PCIe-8622双口Intel千兆网卡:机器视觉系统的高性能选择-电子发烧友网 2023-12-28 14:33
- 网卡-电子发烧友网 2023-12-26
- 工业相机搭配的镜头品牌-电子发烧友网 2023-12-28 09:53
- AI大模型工业应用现状 2023-12-22 17:08:34
- 第五届CHINAPLAS x CPRJ 塑料回收再生与循环经济论坛暨展示会―新闻频道- 视觉系统设计 2023/12/27 9:45:10
- CHINAPLAS 2024“科技讲台”―新闻频道- 视觉系统设计 2023/12/27 9:40:21
- Teledyne e2v发布全新高水准CMOS图像传感器系列 2023/12/26 23:10:24
- 超恩推出搭载英特尔®至强®D-2800处理器高效能ICS-1000嵌入式系统―新闻频道- 视觉系统设计 2023/12/26 22:27:34
- 基于3D视觉的自动化无序分拣应用―技术与应用频道- 视觉系统设计 2023/12/27 21:56:10
- 3D激光轮廓传感器守护涂胶质量―技术与应用频道- 视觉系统设计 2023/12/27 21:49:22
- JAI:非可见光成像将是新的市场增长契机―业界采访频道- 视觉系统设计 2023/12/28 12:40:14
- 北京微视:去海外市场发掘新的增长机会―业界采访频道- 视觉系统设计 2023/12/28 12:26:48
- 控制工程网-全球工控自动化和智能制造门户网站 2023/11/14 14:00:00
- ICCV2023 I Nerf超进化?快速高效的的城市渲染方法 2023-12-28 15:39
- 从Block Matching到PSMnet:立体匹配算法的深度学习转型 2023-12-28 17:04
- ICRA 2023 I Sonicverse:一个多感官模拟平台,让AI具体任务成为可能 2023-12-28 15:45
- 冠军方案大公开!MICCAI 2023 3D图像分割挑战赛 直播回放&问答文字版 2023-12-27 15:33
- IEEE 2023 I 立体三角测量为什么在无人机距离估计中不起作用? 2023-12-28 15:55
- 视觉SLAM领域 | 知乎优质文章&问答&资源 | 收录 2023-12-28 00:49
- Meta最新开源!跟踪一切升级版!性能超越OmniMotion! 2023-12-28 18:08
- 中科院最新开源!无需训练也能让DETR轻松涨点!真正的"即插即用"来了! 2023-12-28 17:57
- 顶刊TPAMI 2023!终于开源!TextSLAM:语义平面文本特征的视觉SLAM 2023-12-28 17:20
- 3DV 2024 Oral | SlimmeRF:可动态压缩辐射场,实现模型大小和建模精度的灵活权衡 2023-12-27 15:20
- AAAI 2024 | 三头优于一头:长尾半监督学习的互补专家 2023-12-28 10:28
- 2023年后,AI 还有什么研究方向有前景? 2023-12-27 12:52
- 论文解读 DetGPT: Detect What You Need via Reasoning 2023-12-27 03:44
- 论文速览:扩散模型在目标检测的应用——DiffusionDet: Diffusion Model for Object Detection 2023-12-28 10:53
- 120倍加速!PanopticNeRF-360:快速生成大量新视点全景分割图像! 2023-12-28 18:00
- NeRF革新?PF-LRM:Transformer引领的稀疏NeRF模型——三维重建的未来 2023-12-28 16:06
- 超越自注意力!用于医学图像分割的可变形大核注意力 | WACV 2024 2023-12-27 11:35
- 上线3周就1k star!DreamCraft3D:如何用一张2D图片创造出高保真的3D物体? 2023-12-28 17:21
- Talk | ACM MM 2023最佳论文,CATR:基于组合依赖和音频查询的视频分割模型 2023-12-28 12:00
- Building an IoT-Powered Exercise Tracker with Computer Vision: 2023-12-28T11:02:08.000Z
- Case Study: Sentiment Analysis and Behavior Detection for a Leading Analytics Platform: 2023-12-27T13:29:03+00:00
视觉招聘小黑板
欲了解详情,请在公众号后台回复:231228
行业资讯
Top Research Universities in the US: Leading the Way in Computer Vision Innovation: 2023-12-27T12:55:45+00:00
Introduction
Computer vision is a rapidly growing field in technology, where computers are taught to understand and interpret the visual world around us. By using images and learning from them, these systems can recognize and categorize objects just like humans, but faster and sometimes even more accurately.
This technology is becoming a big part of our li
......长按二维码访问原文
第六镜科技与德国传感器巨头西克SICK进行专业技术交流--机器视觉网 2023-12-28 18:27:50
2023-12-28 18:27:50 来源: 中国机器视觉网
为更好地帮助智能制造相关企业实现智慧化需求,进一步加强智能制造行业的创造力,第六镜科技与西克SICK于近日开展了专业的技术交流会。
第六镜科技集团联合创始人&首席研究员胡峻毅、副总工程师何贤昆、技术总监庞天吉及相关技术人员,同西克SICK产品经理Amber Wang、技术赋能经理Addiso Guo及相关专业人员就“3D激光传感器”技术问题,进行了专业探讨,交流会全程以英文进行对话,双方各抒己见,直截痛点,现场气氛热烈。
西克SICK:成立于1964年的西克SICK,总部位于德国西南部的瓦尔德基尔希市,目前已在全球建立了接近50个子公司,其对于激光颜色的把控令其在行业独树一帜。历经多年的发展与积累,已成为极具影响力的智能传感器解决方案供应商,
......长按二维码访问原文
思谋与格力、域塔达成战略合作 持续赋能大湾区智慧物流--机器视觉网 2023-12-28 18:10:44
2023-12-28 18:10:44 来源: 中国机器视觉网
继8月和香港物流资产管理公司域塔联手启动香港最大智能自动化物流项目Comboxx后,思谋科技在物流领域再下一城。近日,思谋与格力集团、域塔达成战略合作,为格力旗下的珠海粤港澳综保物流产业园提供智慧物流解决方案,共同打造大湾区智慧物流生态。
此次合作中,格力与域塔计划成立珠海合资公司,围绕智能仓库建设、物流地产资产管理及跨境电商供应链金融等领域进行布局,预计于大湾区投资超十亿元人民币,思谋将作为战略伙伴负责科技创新部分,以智慧应用为支点,为深化三方合作添势赋能。珠海市科技创新局局长王雷,格力集团党委书记、董事长周乐伟,域塔资本(珠海)董事总经理陈晓信,域塔集团顾问、前摩根大通首席执行官黄国滨等领导共同见证了签署战略协议这一重要时刻。
思谋物流科
......长按二维码访问原文
商汤牵头制定的两项AR国家标准下达,推动行业大规模、规范化应用--机器视觉网 2023-12-28 17:24:10
2023-12-28 17:24:10 来源: 中国机器视觉网
近日,国家标准化管理委员会发布《关于下达2023年第三批推荐性国家标准计划及相关标准外文版计划的通知》。由商汤科技牵头起草的两项AR国家标准《信息技术 移动设备增强现实系统技术规范》《信息技术 移动设备增强现实系统应用接口》正式下达。
推动移动设备增强现实大规模、规范化应用
商汤科技一直致力于增强现实标准化工作,在国家标准层面,作为增强现实国家标准研究组副组长单位,持续推动增强现实标准体系建设。
其中,《信息技术 移动设备增强现实系统技术规范》旨在针对移动设备增强现实系统中的核心模块提出功能要求、性能要求和测试方法,以改善移动设备增强现实产品的用户体验和服务能力。《信息技术 移动设备增强现实系统应用接口》则针对移动设备增强现实系统应用开
......长按二维码访问原文
特控新品无风扇工控机MEC-T1922 推动数控机床智能化发展--机器视觉网 2023-12-27 10:15:11
2023-12-27 10:15:11 来源: 中国机器视觉网
数控机床是配备程序控制系统的自动化机床设备,其数控系统搭配工控机可使数控机床按照预先设置好的程序进行运动和加工零件,是智能制造、智能机器人、工业互联网发展的重要支撑,在工业电子、消费电子、汽车电子和医疗电子方面有着广泛的应用。在国家政策的持续支持下,我国数控机床产业规模持续扩大,2021年我国产业规模3589亿元,同比增长10.4%。2022年约为3825.1亿元,预计2023年我国数控机床产业规模将达4090亿元。
相较于普通机床,数控机床在加工精度、加工效率、加工能力和维护等方面都具有突出优势,随着人工智能在计算机领域的不断渗透和发展,对数控机床的高柔性化、功能集成化加工要求不断提高,而作为数控机床控制的“核心大脑”——工控机性能也随之提高
......长按二维码访问原文
Teledyne e2v发布全新高水准CMOS图像传感器系列 2023-12-27 09:40:54
2023-12-27 09:40:54 来源: 中国机器视觉网
Teledyne e2v的全新Emerald™ Gen2 CMOS图像传感器系列,以其卓越的性能和出色的图像质量,为机器视觉应用、室外监控以及交通检测与监控相机提供了理想的选择。这一新系列的推出,再次证明了Teledyne e2v在先进成像技术领域的深厚实力。
Teledyne e2v的全新Emerald™ Gen2 CMOS图像传感器系列,以其卓越的性能和出色的图像质量,为机器视觉应用、室外监控以及交通检测与监控相机市场带来了全新的选择。基于Teledyne e2v的先进成像技术,Emerald™ Gen2 在提升性能的同时,保证了出色的图像质量,满足了市场对于高精度、高稳定性图像传感器的需求。
Emerald™ Gen2采用了最新的图
......长按二维码访问原文
InteVega-AI视觉零门槛一站式开发平台--机器视觉网 2023-12-28 16:24:25
2023-12-28 16:24:25 来源: 中国机器视觉网
为什么需要零门槛开发AI视觉
随着人工智能技术的飞速发展,AI已经逐渐渗透到各个行业领域,为企业和开发者带来了巨大的商业价值。然而在机器视觉领域,AI的应用仍有较高的技术门槛,主要体现在以下几个方面:
研发成本高:AI技术涉及到的领域非常广泛,包括机器学习、深度学习、自然语言处理、计算机视觉等。且AI模型的精度、性能也需要经过多次的迭代和优化才能达到理想的效果。AI落地应用需要掌握以上领域知识和技能的专业工程师,而AI视觉工程师技术团队支出高昂众所周知。
AI对柔性生产场景适应性不佳:机器视觉跨多个行业,需要应对复杂物体表面、多尺度的目标检测。产线生产换型频繁,未投入生产前产品型号不确定。导致每次有新的分析需求,从数据采集到模型研发、换型需
......长按二维码访问原文
工业4.0时代的质量控制与逆向工程利器--机器视觉网 2023-12-28 15:03:54
2023-12-28 15:03:54 来源: 中国机器视觉网
在工业4.0的理念框架下,现代企业高度重视数字化技术解决方案,特别是在质量控制和逆向工程方面。MICRON3D green stereo这款3D扫描仪应运而生,它专为工业应用而设计,具有市场领先的2000万分辨率,致力于满足企业对于生产制造转型升级的需求。
与之前的型号相比,在 MICRON3D 立体系列中,该设备的分辨率提高了一倍以上。这使得用户能够更精细地捕捉到物体上的细节或缺陷,相较于市场上当前大多数3D扫描仪,其精准度有了显著提升。采样率也实现了翻倍,使该设备可以精确测量薄壁物体或尺寸小于1mm的缺陷。
该型号使用波长为 500 nm的绿色 LED 光进行测量,以确保系统的无故障运行。通过使用窄带滤波器,消除了外部光线的影响。两个高级
......长按二维码访问原文
工业AI视觉检测模型开发平台(RAIDI):让工业图像处理更智能、更高效--机器视觉网 2023-12-28 10:16:25
2023-12-28 10:16:25 来源: 中国机器视觉网
工业图像处理是指利用计算机视觉技术对工业生产过程中产生的图像进行分析和处理,以实现自动化、高效率和质量控制等目标。然而,工业图像处理面临着多种挑战,例如复杂多变的场景、大规模数据、高精度要求等。为了解决这些挑战,广州瑞沃斯视觉技术有限公司开发了一款专为工业智能化应用场景设计基于深度学习算法的工业AI视觉检测模型开发平台(RAIDI)。与其他公司不同,我们的产品不仅仅是基于人工智能技术的应用,更是提供了一种为其他公司提供生产AI模型的工具。且区别于传统AI的云端服务器算力部署,我们在本地部署高性能AI计算平台,保护工厂数据隐私,同时提供更加高效、安全、且针对工业环境定制化的计算资源,适应工业场景快速应对项目信息变更,即时应对实际检测对象的样式更新,
......长按二维码访问原文
体积测量如何做到快、准、稳?海康机器人用三套方案给出了答案--机器视觉网 2023-12-27 16:04:57
体积测量如何做到快、准、稳?海康机器人用三套方案给出了答案
2023-12-27 16:04:57 来源: 中国机器视觉网
随着企业精细化管理运营水平的提升,体积、重量、条码作为物流目标物体的三大基础数据,如何全面实现精准化、自动化、智能化的数据采集是企业急需解决的问题。
体积测量由于被测物体存在异形件、软包、纸箱、反光件、薄件等特殊形态,对体积测量设备提出了更高的技术要求,海康机器人静态体积测量方案基于深度图和RGB图输出更为精准的体积测量数据,有效应对各类体积测量应用场景。
应用挑战
非规则/软包等货物测量难度大;体积数据存在测量误差;人工成本高耗费时间长;数据手动录入系统易出错。
海康机器人体积测量方案优势
边缘智能:相机内置深度学习算法,在体积测量的同时可输出被测物体的类别,辅助客
......长按二维码访问原文
阿丘助力攻克动力电池复杂瑕疵检测难题--机器视觉网 2023-12-27 15:35:43
2023-12-27 15:35:43 来源: 中国机器视觉网
由于动力电池工艺流程复杂、安全性以及质量一致性要求高,产能和质量控制成为这一行业的重要关注点。基于AI的解决方案,正是帮助动力电池行业提升品质和良率的重要突破点。
基于在动力电池行业多年来的工艺沉淀,阿丘科技针对该行业常见复杂检测场景推出标准化AI解决方案,有效帮助电池厂商实现品质管控和良率提升。
方壳电芯AI外观检测
结合方壳电芯缺陷特征,采用独特的FlexOPT成像方案和柔性机构模组,配合专有优化的AI算法模组,即可实现蓝膜破损、膜下异物、气泡、褶皱、划痕等缺陷360 度无死角检出。
方案亮点:准确区分膜下异物和气泡;棱边与R角无死角检测;2.5D重建替换3D相机。
电池极片瑕疵AI检测
采用多分时频闪光学方案,配合工艺沉淀的AI
......长按二维码访问原文
In-Sight 3800加速食品饮料检测并提升可追溯性--机器视觉网 2023-12-27 14:22:23
2023-12-27 14:22:23 来源: 中国机器视觉网
近年来,随着国民经济的不断发展,消费者需求的日益多元化和个性化,驱动了食品饮料行业的发展升级,据国家统计局数据显示,2022年中国食品饮料行业销售收入达11.1万亿元,利润总额0.74万亿元。然而,由此导致的市场扩大与竞争加剧,也让制造商们面临着多重挑战。他们需要加速提高生产量且必须符合监管法规,并逐渐转向可持续包装,以及确保产品和包装的完整性等。
为了应对这些挑战,制造商急需一套能够实现端到端检测的“一应俱全”的解决方案,以快速高效地确保产品安全和质量。然而,许多公司目前仍依赖于人工检测,面临人力成本高、结果不一致、产品退货等问题,可能对品牌声誉造成潜在损害。因此,采用更高效、一致性更强的、能达到“一应俱全”的检测技术变得至关重要,才能满足行
......长按二维码访问原文
兆龙六类综合布线系统“实力助力”打造“数字化”“信息化”的智慧党校--机器视觉网 2023-12-27 14:11:50
2023-12-27 14:11:50 来源: 中国机器视觉网
“智慧党建”是指充分依托现代化信息技术,基于智慧化综合布线的助力,对党的组织活动、党务管理、网络问政、公众服务等活动需求做出智能化响应,将分散的、独立的党建信息化系统协同整合、调控,构建一个智慧的党建发展环境。随着智慧党建的推进,许多党校都开始了其“数字化”“信息化”改造之路,唐山市委党校迁建项目也不例外。
市委市政府规划的重点项目——唐山市委党校拆建项目
作为唐山市委市政府规划的重点项目,唐山市委党校迁建项目意义重大,新党校校园具备教研、培训、住宿等功能,综合唐山市路南区、路北区、开平区、古冶区、丰南区等五区统筹办学,能满足约1000人的办学规模需求。主要建筑包括4栋教学楼、6栋学员楼、学员餐厅、600人报告厅、教研楼、文体馆、学员服务大厅
......长按二维码访问原文
3D结构下的引线键合检测有哪些挑战与突破?--机器视觉网 2023-12-27 14:03:24
2023-12-27 14:03:24 来源: 中国机器视觉网
随着封装层数的增加,对深藏在不同层中的线键进行检测变得越来越困难,有时甚至是不可能的。引线键合技术看似老旧,但它仍然是众多应用的首选键合方法。这一点在汽车、工业和许多消费类应用中尤为明显,因为在这些应用中,大多数芯片都不是采用最先进的工艺技术开发的,同时也适用于各种存储器。
但键合线也存在一系列问题,而且这些问题正变得越来越突出。与加装芯片相比,它们缺乏足够的 I/O 接口,无法满足日益增长的异构设备的需要,而且显得脆弱和过于复杂。这还只是开始。此外,焊球可能会变形,即所谓的 "高尔夫球 "缺陷。导线可能会 "凹陷",这意味着它们不符合正常的形状,或者它们甚至可能无法到达预定的焊盘。最糟糕的是,缺陷可能隐藏在数百根重叠导线的复杂交织中,造成
......长按二维码访问原文
机器视觉的应用场景总结-电子发烧友网 2023-12-26 10:57
机器视觉 是 人工智能 正在快速发展的一个分支,目前中国已是继美国、日本之后的第三大机器视觉领域应用市场。本文将对机器视觉的应用进行简单盘点。
在这里,我们把机器视觉的功能分为 检测 、测量、识别、定位,并以此盘点机器视觉的应用。并在最后介绍一些目前较为火热的重点领域。
工业 检测应用
在工业检测中利用机器视觉的非接触、速度快、精度合适、现场抗干扰能力强等突出的优点,使机器视觉技术得到了广泛的应用,取得了巨大的经济与社会效益。
在板材加工检测、玻璃基板表面检测、 PCB 表面检测、金属表面视觉检测、 二极管 基片检查、印刷电路板缺陷检查、焊缝缺陷自动识别等方面均得到了广泛应用。
在工业检测中采用机器视觉,可提高生产的柔性和自动化程度。一方面可以在一些危险工作环境或人工视觉难以满足要求的场合中采用机器视
......长按二维码访问原文
机器视觉的基础知识-电子发烧友网 2023-12-26 10:54
视觉行业的初学者,甚至是做了1-2年的销售也许还会困惑这样的事情——在拿到 检测 要求后,不知道根据图纸上的公差,应该选用多少万像素的相机。同时还不明确为什么要三个类似的专有名词来描述同一个事情。
这一期内容就是为大家详细介绍:分辨率,精度,公差的关系,从而指导相机的选型。
分辨率(Resolu ti on)
比如我要看的 产品 大小是30mm*10MM,使用200万像素(1600 pi xel*1200pixel)的相机。因为产品是长条形,为了把产品都放入到视野内,我们计算分辨率的时候要考虑长边对应,此时分辨率为
精度( Ac curacy)
精度的单位是mm。根据产品表面和照明状况的不同,我们可以通过放大图像观察辨别稳定像素的个数,从而得出精度。如果条件不允许实际测试观察,一般的规律是,如果使用正
......长按二维码访问原文
PCIe-8622双口Intel千兆网卡:机器视觉系统的高性能选择-电子发烧友网 2023-12-28 14:33
PCIe-8622双口 Intel 千兆网卡是将 工业 级千兆 以太网 控制器 与802.3af 网络 供电 ( PoE )功能结合到一起的 产品 。它采用了INTEL的 最新技术 ,能够提供稳定、高速的数据传输,满足 机器视觉 系统对 网络通信 的严格要求。机器视觉应用可以从PCIe-8622工业级网络性能中大大受益,网卡单个 端口 提供15.4WPoE供电能力,可为器视觉 检测 系统中的PoE型GigE相机供电,为您的网络供电类应用提供最佳性价比。
该双口网卡采用了千兆以太网 接口 ,支持双口并行传输,可以同时处理多路 视频 数据,实现更高效的数据传输。同时,它还支持高速数据传输协议,如TCP/IP、UDP等,能够满足机器视觉系统对数据传输速度和稳定性的要求。采用2颗独立Inteli211-AT千兆以太网
......长按二维码访问原文
网卡-电子发烧友网 2023-12-26
网卡技术
深入了解RDMA技术 Explorer,专注于高性能网络、虚拟化网络及网卡的测试方案研究。熟悉dpdk,rdma,sdn等技术的应用与解决方案。 2023-12-26 标签:数据传输网卡AI 205 0
网卡的四个发展阶段 随着云计算、虚拟化技术的发展,网卡也随之发展,从功能和硬件结构上基本可划分为4个阶段。 2023-12-19 标签:云计算服务器网卡 102 0
通用串行总线控制器感叹号网卡故障 在现代计算机系统中,通用串行总线(USB)被广泛应用于连接各种外部设备,例如鼠标、键盘、打印机和网卡等。通用串行总线控制器是负责处理和管理这些外部设备的... 2023-12-08 标签:控制器网卡硬件 938 0
nuc980双网卡开机启动 nuc980双网卡开机启动 2023-12-07 标
......长按二维码访问原文
工业相机搭配的镜头品牌-电子发烧友网 2023-12-28 09:53
工业 相机是 机器视觉 系统中的一个关键组件,其最本质的功能就是将光 信号 转变成有序的电信号。相比于传统的民用相机(摄像机)而言,它具有高的图像稳定性、高传输能力和高抗干扰能力等。
镜头的基本功能就是实现光束变换(调制),在机器视觉系统中,镜头的主要作用是将目标成像在 图像传感器 的光敏面上。镜头的质量直接影响到机器视觉系统的整体性能,合理地选择和安装镜头,是机器视觉系统设计的重要环节。
工业镜头主要的作用是在工业相机中用于实时采集高清晰度和稳定性的图像,具体实现通过光学或 电子 信号将光线转换成 数码 信号,提供给计算机进行处理,这样可以获取到更多精确可靠的数据,配合各种工业视觉软件,用于 工业自动化 生产控制、品质 检测 、 机器人 导航、物料识别等应用。
那么市面上比较热门的工业镜头 品牌 都有哪
......长按二维码访问原文
AI大模型工业应用现状 2023-12-22 17:08:34
2023年12月22日,首届“通智杯” 人工智能 创新应用大赛期间,通用人工智能与 工业 融合创新 中心 编制的《 AI 大模型工业应用现状、模式与展望》正式发布。
以下为主要内容。
一、背景与意义
党中央、国务院高度重视人工智能发展,习近平总书记指出,人工智能是引领这一轮 科技 革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应。今年4月,中央政治局会议强调,要重视通用人工智能发展,营造创新生态,重视防范风险。刚刚结束的中央经济工作会议再次强调,要大力推进新型工业化,发展数字经济,加快推动人工智能发展。
通用人工 智能 大模型(以下简称“大模型”)作为人工智能从专用化迈向通用化的发展新阶段,是集智能感知、智能分析、智能决策、智能执行等功能于一体的泛在智能技术,通过数据、算力、 算法 三要素深
......长按二维码访问原文
第五届CHINAPLAS x CPRJ 塑料回收再生与循环经济论坛暨展示会―新闻频道- 视觉系统设计 2023/12/27 9:45:10
绿色发展不仅是全球发展的最大共识�o也已成为全球经济复苏重要新动力之一。无论是企业发展�o还是产业出海�o低碳�p绿色�o与自然和谐共生等因素在经济发展以及全球贸易所承担的角色变得越来越重要。
为进一步探讨绿色发展对塑料及下游应用行业带来的影响�o尤其是塑料回收再生与循环经济如何推进产业升级与高品质发展�o作为全球领先国际橡塑展CHINAPLAS(2024年4月23-26日,上海,国家会展中心)重要同期活动——“第五届CHINAPLAS x CPRJ塑料回收再生与循环经济论坛暨展示会”�o将邀请来自全球知名行业协会、品牌商及材料、设备解决方案供应商共议绿色发展之路。
本次论坛由雅式集团旗下“CHINAPLAS国际橡塑展”与“雅式橡塑网(AdsaleCPRJ.com)”携手主办,计划于2024年4月22日在上
......长按二维码访问原文
CHINAPLAS 2024“科技讲台”―新闻频道- 视觉系统设计 2023/12/27 9:40:21
橡塑行业世界最大的展览会,「CHINAPLAS 2024国际橡塑展」将于2024年4月23 - 26日在上海国家会展中心举办,展览规模达到380,000m2 。本届展会以“启新程 ‧塑未来 ‧创新共赢”为主题,汇聚4,000+家来自世界各地的科技创新型供应商,展示海量的创新材料及先进机械装备,倾力打造一个创新科技展示和交流的国际化平台。
“科技讲台”活动,是「CHINAPLAS 国际橡塑展」官方科技发布平台,已连续举办六届,累计发布超过150项创新科技,是CHINAPLAS最重要的科技活动。
本次“科技讲台”以“科技引领变革”为主题,将于4月23-24日在展会现场2.2号馆展台2.2G106展位举办。主办方从大量创新科技中筛选出最新、最热、最具突破的30+项前沿科技,以开放论坛的形式集中发布,是专业买家快速
......长按二维码访问原文
Teledyne e2v发布全新高水准CMOS图像传感器系列 2023/12/26 23:10:24
Teledyne e2v的全新Emerald™ Gen2 CMOS图像传感器系列,以其卓越的性能和出色的图像质量,为机器视觉应用、室外监控以及交通检测与监控相机市场带来了全新的选择。基于Teledyne e2v的先进成像技术,Emerald™ Gen2 在提升性能的同时,保证了出色的图像质量,满足了市场对于高精度、高稳定性图像传感器的需求。
Emerald™ Gen2采用了最新的图像处理技术,能够提供清晰、稳定、抗干扰的图像,使得机器视觉系统能够更准确地识别和分析目标。同时,其优异的低光性能,使得在光线较弱的环境下也能获得清晰的图像,进一步扩大了其应用范围。在设计方面,其紧凑的尺寸和低功耗设计,使得交通检测与监控相机能够更加灵活地安装和使用,大大提高了系统的便捷性和实用性,为机器视觉、室外监控以及交通
......长按二维码访问原文
超恩推出搭载英特尔®至强®D-2800处理器高效能ICS-1000嵌入式系统―新闻频道- 视觉系统设计 2023/12/26 22:27:34
超恩股份有限公司(Vecow,以下简称超恩)近日推出伺服器运算性能ICS-1000嵌入式系统,采用最新16核英特尔®至强® D-2800处理器,并可开始接受订单出货。超恩ICS-1000配置6个PCIe槽可支持1800W AI应用双显卡、8个DDR4、提供丰富I/O介面以及支持高速传输功能,可满足即时视觉与机器人控制应用需求,协助您建构机自驾车、机器人控制、公共安全监控与各种边缘端AI等嵌入式应用的理想解决方案。
伺服器级性能
超恩ICS-1000嵌入式系统采用英特尔®D-2876NT处理器(Eddy Lake D HCC),支持最高16核心,512GB DDR4�却妫�具有高达100W的散热设计功率( TDP),展现优异系统运算效能;不仅如此,ICS-1000内建高速乙太网路,支持2个10G SF
......长按二维码访问原文
基于3D视觉的自动化无序分拣应用―技术与应用频道- 视觉系统设计 2023/12/27 21:56:10
近年来,电商行业蓬勃发展,订单的海量化、订单类型的碎片化,使物流行业朝着“多品种、无边界、分类广”的方向迅速发展。根据许多研究机构的预测,电子商务销售额预计将以每年两位数的速度增长,推动整个行业的规模不断扩大。
物流分拣一直是一项单调乏味的体力活,长期以来存在着招工难的问题。再加上人口老龄化的加剧,未来物流行业将面临用工短缺和人力成本上升等挑战,这些问题会愈演愈烈。
无论是人工分拣还是传统的自动化设备,都无法满足日益庞大且繁杂的物流订单。因此,智能化转型升级已经成为必然趋势。
项目背景
一家重要的物流企业急需进行自动化分拣改造,特别是在铝合金物料分拣线方面。这条分拣线所处理的铝合金物料来自20多种不同规格,呈混乱状态铺放,而且体积较小,每个物料的重量都不超过1kg。
这样的复杂环境通过高效的自动化分拣
......长按二维码访问原文
3D激光轮廓传感器守护涂胶质量―技术与应用频道- 视觉系统设计 2023/12/27 21:49:22
在消费类电子产品和汽车汽配等行业的生产工艺中,涂胶质量直接影响到产品的使用寿命和安全性,而传统的2D视觉无法对涂胶高度进行检测。因此,引入3D视觉来弥补这一短板,不仅能够基于多个工艺标准对涂胶质量进行检测,更能够为企业提供可靠的质量管控保障。
3D激光轮廓传感器基于激光三角测量原理,通过硬件内置的高精度3D算法,实时输出高帧率、微米级精度的点云数据、深度图和亮度图数据。海康机器人提供的胶路检测方案, 广泛适用于3C行业、汽配行业中的涂胶检测场景。
3C行业胶路检测
需求背景
检测手机中框点胶质量,包括胶宽、胶高、断胶及塌胶、爬墙和掉胶
行业痛点
传统检测方式效率低,误判漏判断严重
传统2D视觉无法兼容多种检测需求,例如胶高检测和塌胶检测
检测难点
胶路不规则,拐角处成像易出现噪点
需要把手机
......长按二维码访问原文
JAI:非可见光成像将是新的市场增长契机―业界采访频道- 视觉系统设计 2023/12/28 12:40:14
随着机器视觉成像的波段不断从可见光范围向非可见光范围拓展,越来越多的厂商都在陆陆续续有非可见光波段的成像产品推出,非可见光成像正在不断填补可见光成像的能力空缺。针对短波红外/红外、紫外成像在工业领域的应用机会以及未来等问题,《视觉系统设计》杂志有幸采访了JAI中国区销售经理吴国栋先生,在此将采访内容与读者分享。
JAI中国区销售经理吴国栋
JAI中国区销售经理吴国栋表示,随着我国制造水平的提升,短波红外/红外波段和紫外波段相机逐步在工业领域开始普及,其中食品和半导体行业是两大关键市场。
首先是以食品及食品加工业为导向的非可见光场景视觉识别。随着应用于检测的波长谱段的扩大,短波红外技术的检测速度、准确性、可靠性也得到了提升,从而用于更多的高端检测,做到识别杂质和污染物、提高分拣能力以及提升产品质量。其次是以
......长按二维码访问原文
北京微视:去海外市场发掘新的增长机会―业界采访频道- 视觉系统设计 2023/12/28 12:26:48
尽管从长远的发展角度看,更高程度的自动化、智能化、解放人力是大势所趋,这将为机器视觉应用带来潜在的可观市场;但在刚刚过去的2023年,经济下行等诸多因素如多米诺骨牌般波及众多行业,很多机器视觉企业也难逃影响,遭遇困境。另一方面,近年来机器视觉行业自身的发展热度吸引了众多新企业入局,加之大量资本的涌入,使得这个行业竞争加剧。
面对经济下行、行业竞争激烈,投身机器视觉领域的企业该如何度过困难期?新的市场增长点在哪里?如何更好地规划未来发展,以及对整个行业的良性可持续发展有哪些真知灼见?为此,《视觉系统设计》杂志有幸采访了北京微视新纪元科技有限公司产品总监/营销副总监刘伟,在此将采访内容与读者分享。
北京微视新纪元科技有限公司产品总监/营销副总监刘伟
VSDC:贵司 2023 年的业绩情况如何?增长主要
......长按二维码访问原文
控制工程网-全球工控自动化和智能制造门户网站 2023/11/14 14:00:00
资讯 > 业界新闻
作者:www.cechina.cn2023.12.28阅读 183
价值榜坚持公平、公正、公开的原则 CONTROL ENGINEERING China版权所有 ,依据中国上市公司的市值、盈利能力、股东回报率、发展稳健性、企业声誉、行业地位、创新力、ESG等指标的总体表现,筛选出财务绩效优异、治理水平较高、拥有优秀管理团队及在品牌、战略、ESG等指标上表现突出的中国上市公司,并表彰杰出的中国上市公司年度人物与财经公关团队。
1.年度中国上市公司
“年度中国上市公司”榜单最终入榜100家企业。它们在过去三年中CONTROL ENGINEERING China版权所有,在总营收、净利润和营业收入同比增长率等方面CONTROL ENGINEERING China版权所有,具有强劲表现。作为
......长按二维码访问原文
ICCV2023 I Nerf超进化?快速高效的的城市渲染方法 2023-12-28 15:39
NeRFs是一种神经辐射场模型,在视觉领域取得了巨大成功。然而,现有方法由于射线行进渲染造成了资源消耗过大的问题。为了高效构建城市级辐射场,作者设计了可变形神经网格原语(DNMP),用于参数化整个场景。DNMP是一种神经变体的经典网格表示,具备了栅格化渲染的高效性和强大的神经表示能力,可用于逼真的图像合成。DNMP包含一组连接的可变形网格顶点和配对的顶点特征,用于参数化局部区域的几何和辐射信息。为了优化效果并减少存储开销,作者将每个原语的形状从低维潜空间解码。渲染颜色通过视角依赖的多层感知机(MLP)从顶点特征中解码,结合栅格化插值。DNMP提供了一种新颖的城市级场景表示范式,具有高质量的渲染效果和低计算成本。作者的方法在城市场景的新视角合成方面表现优秀,并且具备快速渲染和低内存使用量的特点。作者还提供了一个轻
......长按二维码访问原文
从Block Matching到PSMnet:立体匹配算法的深度学习转型 2023-12-28 17:04
PSMNet是由Jia-Ren Chang等人于2018年发表在CVPR上的论文,是一种基于金字塔的端到端立体匹配网络,用于利用立体匹配中的全局上下文信息。PSMNet使用空间金字塔池(SPP)和扩张卷积来扩大接受域,将像素级特征扩展到具有不同接受域尺度的区域级特征。这种方法使得PSMNet能够得到全局和局部的深度信息,从而提高了立体匹配的准确性。PSMNet引入了将全局上下文信息纳入图像特征的金字塔池模块和一个以扩展在成本量中的上下文信息的区域支持的堆叠沙漏3D-CNN,对后续的算法开发产生深远影响。
1 前言
立体图像中的深度估计对计算机视觉应用来说至关重要,包括自动驾驶、三维模型重建以及对象检测和识别。给定一对已校准的立体图像,深度估计的目标是计算参考图像中每个像素的视差d。视差是左右图像上一对对应像
......长按二维码访问原文
ICRA 2023 I Sonicverse:一个多感官模拟平台,让AI具体任务成为可能 2023-12-28 15:45
本文介绍了SONICVERSE,这是一个多感官模拟平台,用于训练既能看又能听的家用代理人。该平台在实时的3D环境中实现了逼真的连续音频渲染,并通过新的音频-视觉虚拟现实界面实现与代理人的交互。此外,针对语义音频-视觉导航任务,作者提出了一种新的多任务学习模型,并展示了SONICVERSE通过模拟到真实环境的迁移所达到的真实感。
1 前言
本文介绍了SONICVERSE,一个新的具备多感官功能的模拟平台,用于训练音频-视觉具身代理。该平台实现了实时的3D环境中连续音频渲染,通过使用完整的场景几何和材料属性达到了高保真度的空间音频渲染。同时,还引入了一个多任务学习框架,用于语义音频-视觉导航和占据地图预测,取得了最先进的结果。此外,本文还首次展示了在模拟中训练的音频-视觉导航代理可以成功部署到现实环境中。
作
......长按二维码访问原文
冠军方案大公开!MICCAI 2023 3D图像分割挑战赛 直播回放&问答文字版 2023-12-27 15:33
近期举行的2023年国际医学图像计算与计算机辅助介入会议(MICCAI)上,上海人工智能实验室通用视觉中心(OpenGVLab)的医疗研究团队(参赛队伍名Blackbean)在3D图像分割赛道中取得了2项冠军、3项亚军、4项季军的成绩(MICCI 2023我团队共计获得3项冠军,十余项奖项 点击了解)。
近日,我们直播分享了比赛获胜的关键方法,包括预训练模型的作用、训练细节、模型加速等。观众的热情呼吁下,我们把直播内容要点,问答环节文字版汇总于此,希望对大家有帮助!
直播回放
直播要点文字版
3D医学图像的重要性
3D医学图像分割在医学图像分析领域占据着核心地位,它类似于通用图像领域中的分类问题。从最近3-4年的MICCAI Challenge统计数据来看,分割任务约占比50%,涉及的模态范围也极为广
......长按二维码访问原文
IEEE 2023 I 立体三角测量为什么在无人机距离估计中不起作用? 2023-12-28 15:55
本文建立了一个用于无人机距离估计的UAVDE数据集,通过UWB传感器获取两个无人机之间的距离。实验发现传统的立体测量法在无人机场景中无法应用,原因是无人机位置偏差问题。为了解决这个问题,提出了一种新的位置修正模块(PCM),可以直接预测图像位置和无人机实际位置之间的偏移量,并在立体测量中进行计算补偿。此外,为了进一步提升在难样本上的性能,提出了一个动态迭代修正机制,通过多个堆叠的PCM和门控机制来适应地决定是否需要进一步修正。通过广泛的实验,作者的方法在UAVDE上取得了38.84%的性能提升,证明了其有效性和优越性。
1 前言
本文介绍了群体无人机的研究和应用的重要性,并说明了在无人机场景中准确估计周围无人机距离的难点。存在的方法主要依赖于密集视差预测,但在无人机场景中存在数据注释困难和计算资源有限的问题
......长按二维码访问原文
视觉SLAM领域 | 知乎优质文章&问答&资源 | 收录 2023-12-28 00:49
笔者近期在整理一些知识的过程中,发现很多文章相当精彩,但只是看一遍的话难免水过地皮干,于是在这里做一个小合集,以供随时查阅,常看常新。
鉴于有些文章比较老,比如来自于SLAM兴起初期(17年前后)的,所以每条内容都标注了年份,以供客观参考。另外这是我的个人整理,不以面面俱到为目的,暂时只收录了我看到的,若您有其它优质内容欢迎评论区推荐~
一、视觉SLAM认知、世界观
学习SLAM需要哪些预备知识?(立党#2015:学习SLAM需要哪些预备知识?)
如何研究视觉里程计?(高翔#2017:如何研究视觉里程计?)
如何研究视觉里程计?(庞富民#2017:如何研究视觉里程计?)
Direct Visual SLAM(英文博客#2020:https://www.linkedin.com/pulse/direc
......长按二维码访问原文
Meta最新开源!跟踪一切升级版!性能超越OmniMotion! 2023-12-28 18:08
0.笔者个人体会
最近几个月,CV界真是跟“一切”杠上了。先是Meta在4月5日发布了Segment Anything,可以为任何图像中的任何物体提供Mask。随后又涌现出大量的二创“一切”,例如SAM3D(在3D场景中分割一切)、SAMM(分割一切医学模型)、SegGPT(分割上下文中的一切)、Grounded Segment Anything(检测一切/生成一切)等等,真的是一个大模型统治一个领域了。而在6月8日,谷歌又提出了“跟踪一切”模型OmniMotion,直接对视频中每个像素进行准确、完整的运动估计。 本以为这就完了,结果前两天Meta又新开源了CoTracker:跟踪任意长视频中的任意多个点,并且可以随时添加新的点进行跟踪!性能直接超越了谷歌的OmniMotion,不禁感叹大佬们的世界真是太卷了
......长按二维码访问原文
中科院最新开源!无需训练也能让DETR轻松涨点!真正的"即插即用"来了! 2023-12-28 17:57
0. 笔者个人体会
DETR作为Transformer-based目标检测模型,已经逐渐和YOLO系统的各大模型分庭抗礼,尤其是前段时间RT-DETR的发布,更是证明了Transformer模型大一统的趋势。所以一直使用YOLO的小伙伴也可以尝试使用下DETR模型。
就在这两天,中科院、百度、香港大学又联合开源了RefineBox。本来以为又是像之前一样设计一个Attention变体模块,然后插入到网络里重新训练的套路。结果RefineBox竟然不需要重新训练!直接插入到DETR模型里就可以提高定位能力!而且对Conditinal、DAB、DN-DETR这些DETR-like模型都适用!那么,具体是什么原理呢?我们一起来看看吧~
1. 效果展示
先来看一下具体效果!
可以发现,几乎对于所有DETR-l
......长按二维码访问原文
顶刊TPAMI 2023!终于开源!TextSLAM:语义平面文本特征的视觉SLAM 2023-12-28 17:20
⭐终于开源了!TextSLAM:第一个将文本功能耦合到视觉SLAM的方法,在室内和室外环境中测试结果表明,具有文本功能的视觉SLAM系统变得更加鲁棒,并可以生成更加准确的3D文本地图,这些地图可用于机器人中的导航与场景理解或应用在增强现实之中,代码刚刚开源!
点击关注 @CVer官方知乎账号,可以第一时间看到最优质、最前沿的CV、AI工作~
TextSLAM
TextSLAM: Visual SLAM with Semantic Planar Text Features
单位:上海交通大学(邹丹平团队)
代码:https://github.com/SJTU-ViSYS/TextSLAM
论文:https://arxiv.org/abs/2305.10029
本文提出一种新颖的视觉 SLAM 方法,
......长按二维码访问原文
3DV 2024 Oral | SlimmeRF:可动态压缩辐射场,实现模型大小和建模精度的灵活权衡 2023-12-27 15:20
公众号:将门创投(thejiangmen)
作者:袁士然
目前大多数NeRF模型要么通过使用大型模型来实现高精度,要么通过牺牲精度来节省内存资源。这使得任何单一模型的适用范围受到局限,因为高精度模型可能无法适应低内存设备,而内存高效模型可能无法满足高质量要求。为此,本文研究者提出了SlimmeRF,一种在测试阶段随时(即不需要对模型进行重新训练)通过动态压缩实现模型大小与精度之间权衡的模型,从而使模型同时适用于不同计算预算的场景。实验结果显示,SlimmeRF在不进行动态压缩时能够达到 SOTA 级别的精度,同时动态压缩时的效果明显好于基于 TensoRF 的基准模型。
01. 简介
辐射场(Radiance Fields)是一种通过神经网络等方法对3D场景进行建模的方法。我们观察到,在实际应用中,往往
......长按二维码访问原文
AAAI 2024 | 三头优于一头:长尾半监督学习的互补专家 2023-12-28 10:28
CPE:一种长尾半监督学习新方法,训练多个专家来对各种类别分布进行建模,每个专家都会在一种形式的类别分布中产生高质量的伪标签,在多个数据集基准上实现了最先进的性能,代码刚刚开源!
点击关注 @CVer官方知乎账号,可以第一时间看到最优质、最前沿的CV、AI工作~
Three Heads Are Better Than One: Complementary Experts for Long-Tailed Semi-supervised Learning
单位:中科院, 国科大, 华为诺亚
代码:https://github.com/machengcheng2016/CPE-LTSSL
论文:https://arxiv.org/abs/2312.15702
本文解决了长尾半监督学习(LTSSL)的挑战性
......长按二维码访问原文
2023年后,AI 还有什么研究方向有前景? 2023-12-27 12:52
给几个建议的方向,能实现的话也很容易在工业界落地的
1,提出比Transformer更好的算法模型,我一直觉得Transformer太浪费计算性能了,应该存在性能更好的消耗计算量更小的模型结构
2,真·分布式训练,多机多卡可以分别训练,只需要很少的机器间的通信和数据同步,现在分布式训练多机器间的通信带宽要求太高,必须高速网络互联,这就极大限制了训练资源的调度灵活性和算力利用率
3,多模态模型实现OCR free直接端到端实现文档图片的VQA,现在的技术对于密集文字和复杂版式都还不太行
4,稳定可靠的LLM模型蒸馏技术,可以把任意大模型蒸馏到任意更小的模型,全自动化,精度损失可量化。
5,多模型协作的AIGC,大模型生成大纲梗概,众多小模型去填充细节,这个小模型可以是用第4条技术蒸馏出来的,小模型的推理
......长按二维码访问原文
论文解读 DetGPT: Detect What You Need via Reasoning 2023-12-27 03:44
贴一下论文地址:
一、整体概述
本文介绍了一种新的对象检测范式DetGPT,称之为基于推理的对象检测。
不像传统的对象检测方法,依赖于特定的对象名称,该方法使用户能够使用自然语言指令与系统交互,允许更高水平的交互性。
DetGPT能够基于用户表达的期望自动定位感兴趣的对象,即使该对象没有被明确提及。
总的来说,DetGPT展示了人类和机器更复杂和直观交互的潜力,有利于更通用更交互的目标检测系统的研究。
二、方法
2.1 模型结构
作为基于推理的目标检测的初步尝试,作者提出了一种两阶段的方法。
首先,利用多模态模型来解释图像并列出与用户指令匹配的相关对象名称/短语;
然后,利用开放词汇对象检测器来定位给定多模态模型结果的相关对象。
具体来说,对于多模态模型,使用预训练的视觉编码器来提取图像特
......长按二维码访问原文
论文速览:扩散模型在目标检测的应用——DiffusionDet: Diffusion Model for Object Detection 2023-12-28 10:53
这篇文章发在ICCV 2023。
我发现取个有噱头的标题确实很重要,比如我之前讲的Your Diffusion Model is Secretly a Zero-Shot Classifier,就比其他的论文更吸睛。DiffusionDet也是如此。
动机
扩散模型直接应用到目标检测,为啥说直接,因为迁移确实比较简单粗暴,但实验还是弄出来了。
贡献
论文作者写的贡献
我们将目标检测公式化为生成去噪过程,这是我们所知的第一次将扩散模型应用于目标检测的研究 我们的noise-to-box检测范式具有几个吸引人的特性,例如动态盒子的解耦训练和评估阶段,iterative评估。 我们对COCO、Crowd Human和LVIS基准进行了广泛的实验。DiffusionDet相对于以前成熟的探测器实现了良好的性
......长按二维码访问原文
120倍加速!PanopticNeRF-360:快速生成大量新视点全景分割图像! 2023-12-28 18:00
0. 笔者个人体会
全景分割和实例分割任务的标注是非常庞大的工作量,很多生成模型和NeRF都在尝试直接合成全景分割训练集,但是都存在目标交叉区域的类别模糊问题。
今天笔者将为大家分享PanopticNeRF-360这项工作,是PanopticNeRF的扩展,可以使用3D粗标注快速生成新视点的大量高质量RGB和全景分割。号称将标注时间从1.5h降低到了0.75min(120倍)。
当然笔者水平有限,如果有理解不当的地方欢迎大家一起讨论~
1. 效果展示
PanopticNeRF-360用于生成全景分割,因此输入图像也需要鱼眼相机。整个框架的是输入是前视双目相机和侧视的两个鱼眼相机,还有3D粗标注(3D空间的立方体、椭球、多面体都可以),来生成连续的RGB、全景分割、实例分割。
代码已经开源了,感兴趣的
......长按二维码访问原文
NeRF革新?PF-LRM:Transformer引领的稀疏NeRF模型——三维重建的未来 2023-12-28 16:06
本研究提出了PF-LRM模型,用于从未姿态处理的少数图像中快速重建三维对象。该模型利用自注意力模块进行信息交换,预测每个视图的粗略点云,并通过可微分的透视n点(PnP)求解器获取相机姿态。经过在约100万个对象的多视图姿态数据上训练,PF-LRM表现出强大的泛化能力,并在未见数据集上在姿态预测准确性和三维重建质量方面显著优于基线方法。该模型还可应用于文本/图像到三维任务,并具有快速的前向推理能力。
读者理解:
PF-LRM 与其他方法相比的优势在于其高度可扩展性和强大的跨数据集泛化能力。PF-LRM 方法使用自注意力块在 3D 对象令牌和 2D 图像令牌之间交换信息,从而实现高度可扩展性。此外,当在大量多视角数据上进行训练时,PF-LRM 显示出强大的跨数据集泛化能力,并在各种评估数据集上的姿势预测准确性和
......长按二维码访问原文
超越自注意力!用于医学图像分割的可变形大核注意力 | WACV 2024 2023-12-27 11:35
可变形大核注意力(D-LKA Net)来了!即采用大卷积核来充分理解体素上下文的简化注意力机制,在多个医学分割数据集(Synapse、NIH 胰腺和皮肤病变)上证明了其卓越的性能,代码已开源!
点击关注 @CVer官方知乎账号,可以第一时间看到最优质、最前沿的CV、AI工作~
Beyond Self-Attention: Deformable Large Kernel Attention for Medical Image Segmentation
单位:亚琛工业大学, 西北大学等
代码:https://github.com/xmindflow/deformableLKA
论文:https://arxiv.org/abs/2309.00121
医学图像分割通过 Transformer 模型得到了显著
......长按二维码访问原文
上线3周就1k star!DreamCraft3D:如何用一张2D图片创造出高保真的3D物体? 2023-12-28 17:21
DreamCraft3D是一种分层的3D内容生成方法,可以生成高度逼真和连贯的3D对象。该方法利用2D参考图像来指导几何雕刻和纹理增强的过程。该方法的核心是解决现有方法所面临的一致性问题。为了创造出渲染连贯的几何形状,作者通过视角相关的扩散模型进行得分精馏抽样。这种3D先验知识结合了几种训练策略,优先考虑几何一致性,但会对纹理真实性做出妥协。作者进一步提出了引导纹理增强的引导式分数精馏方法。作者在场景的增强渲染上训练了个性化的扩散模型Dreambooth,使其具备优化场景的3D知识。从这个3D感知的扩散先验中进行的分数精馏提供了对场景的视角一致性指导。值得注意的是,通过交替优化扩散先验和3D场景表示,作者实现了相互增强的改进:优化的3D场景有助于训练特定场景的扩散模型,该模型为3D优化提供了越来越一致的视角指导
......长按二维码访问原文
Talk | ACM MM 2023最佳论文,CATR:基于组合依赖和音频查询的视频分割模型 2023-12-28 12:00
公众号:将门创投(thejiangmen)
本期为TechBeat人工智能社区第558期线上Talk。
这次我“门”有幸邀请到,浙江大学博士生—李可欣来到TechBeat人工智能社区,为我们分享主题为“CATR-基于组合依赖和音频查询的视频分割模型”,Talk已在TechBeat人工智能社区上线!【点击这里】,即可马上免费观看!
本次Talk中,她介绍了她的团队在基于组合依赖和音频查询的视频分割模型所做的研究。
Talk·介绍
众所周知,由多模态引导的视频分割已经在很多应用领域大展身手,尤其是用点击、bounding-box、笔画线以及文字来做引导的任务和模型。而音频是一种常与视频共生的模态,因此,使用音频来引导视频的分割往往能更好地还原当时的场景。本文介绍了CATR,一种基于组合依赖和音频查询的视频
......长按二维码访问原文
Building an IoT-Powered Exercise Tracker with Computer Vision: 2023-12-28T11:02:08.000Z
The article below was contributed by Timothy Malche, an assistant professor in the Department of Computer Applications at Manipal University Jaipur.
With computer vision and Internet of Things (IoT) technology, you can build an application that tracks your performance in exercise. For example, you can count how many push ups you do. Such an automated counte
......长按二维码访问原文
Case Study: Sentiment Analysis and Behavior Detection for a Leading Analytics Platform: 2023-12-27T13:29:03+00:00
An analytics platform specializing in workplace communication tools aims to enhance its services by offering advanced content monitoring capabilities to its clients. The platform’s goal is to assist organizations in fostering healthy, productive communication, while mitigating risks associated with toxic or inappropriate workplace interactions.
AI-driven so
......长按二维码访问原文