南方财经全媒体见习记者马嘉璐 南沙报道
“真实三维动态环境能力的缺失,卡住了机器人进一步智能化的脖子。”5月20日,国家科技创新领军人才、深圳大学计算机与软件学院院长黄惠在大湾区科学论坛“众里寻她”女科学家分论坛上介绍了她在智能图形感知方面取得的研究成果,利用无人机对三维空间进行全自动自主探索,用更小的数据量规模实现更高精度的建模。这一成果可以广泛应用于数字孪生、智能机器人制造等领域,目前处于国际领先水平。
更小的数据规模、更高的精度
中科院物理所曾科普了数字孪生的定义:数字孪生,英文名叫Digital Twin(数字双胞胎),也被称为数字映射、数字镜像。简单来说,数字孪生就是在一个设备或系统的基础上,创造一个数字版的“克隆体”。
2023年初,中国信通院发布的《数字孪生城市产业图谱研究报告(2022)》观察到,我国数字孪生产业发展阶段正处于增长期,数字孪生城市建设市场活跃,市场主体不断扩大。数字孪生可以极大提升“元宇宙”的构建效率和真实体感,是“元宇宙”的重要组成部分,随着“元宇宙”概念的火热,数字孪生这一前沿技术也越来越被人们熟知。
此前,数据孪生需要大量的人力物力去采集数据,再通过大量的计算来得到模型。黄惠指出,数据采集成本高昂、时效性低,三维建模的对象非结构化、无关联,正是当前数字孪生难以实现智能化、模块化、轻量化、结构化、通用化的痛点所在。
针对上述问题,近十年来,黄惠聚焦“智能图形和感知计算”攻克难点,主导提出优视精准摄影测量技术,通过便携无人机全自动采集达毫米级高清分辨率的城市三维快照,整个过程从端到端连续规划、众包协同,用最少视角争取最大覆盖,将大规模城市场景数据量缩减200倍,同时保证低于0.6米的几何细节损失度,使数据采集的设备投入能够缩减70%。实现多元信息的精准映射和良性代谢。据了解,这项技术目前在贴近式高精度城市三维航测单个项目上的应用面积为全球最大,保持着国际领先水平。
以对深圳市约2200平方公里的范围进行建模为例,在实际中,建模面临着空域协调难,高度限制多,天气影响频繁,数据质量差,采集时间长的挑战。如果用传统的建模方式,需要用2年时间采集6000万张图片的数据,建立60TB体量的模型,总成本达1.5亿。这种长周期、低频次的采集方式,也无法实现城市孪生三维基础的实时更新。经过优视精准摄影测量技术的优化,则可以在不降低精度的前提下,在8个月内用2000万张照片数据建立6TB的小模型,总成本降至6000万,降幅达60%。
“在群体智能、无人驾驶、智慧城市、国土安全、工业制造等领域,数字孪生都具有着重要的价值和意义。”黄惠表示,优视精准摄影测量技术利用无人机对三维空间进行全自动自主探索,并实现云上计算,大大降低城市三维重建的成本和门槛,将来可广泛应用于高精度智能驾驶地图构建、实景三维导航、高精度城市管理信息平台等领域。
三维感知能力缺失“卡住机器人脖子”
《数字孪生城市产业图谱研究报告(2022)》提出,近年来人工智能技术逐渐应用于建模领域,图片建模、视频建模成为未来发展趋势。黄惠表示,用人工智能辅助机器人研究,可以提高数据分析的效率,帮助找到三维建模更高效的方法。她透露,她和团队正在运用结合智能图形和人工智能的方式进行探索,希望能够进一步推动的智能机器人的研究。
与ChatGPT相比,智能图形感知的一个难点在于,缺少可以用于大规模训练的数据。黄惠介绍道,ChatGPT所使用的原始数据基本上都经过了人工的筛选、标注,是“干净”的,但这一点延伸到三维空间,难度会大幅增加。“对一个物体可以拍出来1000张照片,但1000张照片可能都无法完全准确描述这个物体。”这就意味着,对大数据训练人工智能模型这一路径,描述小范围三维空间的数据量都将会十分庞大。
“真实三维动态环境能力的缺失,卡住了机器人进一步智能化的脖子。”为什么这么难?黄惠用常见的扫地机器人来类比解释:要让扫地机器人在平面上移动、感知并躲避障碍物、防止自己被卡住,现在并不容易。与它相比,智能图形感知要能够在三维空间内判断物体的形状,进而判断出物体的功能、动静关系,赋予机器人可以更高级感知的具身智能,能够真正地直面和改变真实的三维复杂动态环境,像人一样“看见即理解、所见即所得”,作出决策和行动。
经过二十余年基础研究的沉淀,黄惠带领团队尝试拉通了环境感知、几何建模、语义理解、自主决策的整个链条。但与ChatGPT这样在自然语言理解方面取得显著进步的人工智能技术相比,仍然有很多关键科学问题没有得到解决,“还有很长的路要走”。