深圳教授，入局具身智能

2024年10月08日 11:19 21世纪商业评论杨松

赋能大脑，指挥手脚。

文/杨松编辑/鄢子为

8月底，在北京一家餐厅，《21CBR》记者见到跨维智能创始人贾奎。科研、教学、创业……他的日程表排得满满当当。

“晚上10点前，我都有事情做。”他创业后，工作量大增。

贾奎是学者型创业者。他毕业于伦敦大学，获得计算机科学博士学位，曾在多家高校执教，是人工智能、计算机视觉等领域专家，发表论文百余篇，在TIP、TMLR等学术期刊担任副主编。

2021年6月，贾奎创立跨维智能。从学者到创业者，从技术到产业，贾奎称，转型有两个原因：

一是，近年来，AI“大厂”以丰厚的算力、数据资本发力，学界有滞后于产业界的趋势。

二是自己也想尝试新方法。“学术上，只要论证长期有用就行了，而企业的创新，要产生真正的社会价值，要考虑针对的人群，满足的需求，产品的功能、性价比等因素。”

贾奎带领的跨维智能团队，研发人员占比达70%以上，核心团队成员多拥有顶尖高校人工智能专业博士、硕士学位。

以自研的DexVerse™具身智能引擎为技术底座，跨维智能已形成包括纯视觉空间与具身智能传感器、新一代机器人控制器、PickWiz软件、高精度通用移动操作机器人等在内的产品矩阵，并实现商业落地。

贾奎坦言，每天都在思考，产品如何卡准位置，实现商业化。

以下为其自述，经整理：

归国创业

2016年，我启程回国，进入华南理工大学，做计算机视觉方面的研究。

彼时，在人脸识别、图像理解领域，国内“AI四小龙”做得很好。

我选择了一条小众赛道，将人工智能技术应用于三维空间。图像是一个二维平面，三维就像一个杯子，是曲面、不规则图像。如何处理这样的信号？

这需要运用机器学习、计算机视觉、图形学、机器人等交叉学科的知识。直至2015年，学术界才开始研究此类问题。

早期，团队成立了“几何感知与智能实验室”。当时，大厂尚未涉足这一领域，我们是国内最早将AI应用到三维空间的团队。

文本、图像，是二维的，互联网上有现成的海量数据。三维空间，是立体的，包含位置、角度、尺寸等信息，需要精准标定，不能采用之前的方式获取数据。

举个例子，如果目标是让机器人抓取世界上任何一个鼠标，团队就需要集合成千上万、甚至世界上所有鼠标的数据。这意味着，实验室需要从早到晚，去不同的环境里采集数据。

Sim2Real是适合空间智能、具身智能、机器人的范式，借助物理引擎、物理仿真，它能够自动计算、自动生成数据，来训练大模型。

就是说，鼠标上面的颜色、纹理、材质，全部是解耦的。在引擎空间，你只用改变材质空间参数，就可以把一个木头鼠标变成金属的。

到了2020年，我发现，做AI研究，需要足够多的算力、数据以及场景，高校能做的事情有限，不如大厂。

随着技术逐步成熟，我于2021年开启创业之路。创业三年多，我逐渐适应了企业家身份。

初期，我像一个学者；现在，更看重商业化场景，解决客户痛点才是最重要的。

创业艰难，我每天都在踩坑。碰到问题后，在实践中学习。

经过多年历练，我的能力变得更综合、全面，脸皮厚了。有些性格弱点，克服不了的，可以通过其他人弥补，认清自己，有所不为，有所不能。

沿途下蛋

团队研究的技术方向，跟具身智能、空间智能有关。

我们一开始就是按照Sim2Real（simulation to reality，从仿真到现实）的方式，希望通过智能的“眼睛”，感知空间，实现通用的技能。

一家公司的CEO，需要具备技术洞察力，选择恰当的技术路径，针对某个场景或痛点，拿出解决方案。在走访一系列应用领域后，我选择从智能制造开始。办公司、在大厂上班与教书，是三种完全不同的生活。我既要找准商业化场景，也要找到合伙人。

跨维智能联合创始人吴迪，是相机硬件专家，曾在华为、腾讯等公司工作，拥有十余件发明专利。依托原有经验及技术积淀，跨维推出了一系列3D成像和感知设备。

做销售业务，需要找有经验的。联合创始人解锐，是一名连续创业者，曾担任动视云科技联合创始人，为通信、云计算与人工智能领域专家。

几人组团创业，致力于给机器人安装智能“眼睛”，提升空间感知能力，锤炼智慧的“大脑”，习得“具身智能”技能。

沿着这条路径走，我们逐步实现了规模化商业落地。

目前，在多个商业场景中，跨维智能已经实现了利用100%合成数据，在毫米/亚毫米的操作精度要求下，达到99.9%以上的任务成功率。

在虚拟空间层面，我们不断锤炼“大脑”——底层自研的DexVerse™具身智能引擎。这是公司的技术底座。

在工业和一些商业场景中，我们已实现了无需研发人员介入的自动化操作。只需输入一个操作对象，系统就能自动生成数据、标注计算，并在线传递给相应的AI模型进行训练。

整个过程无需存储数据，高效且精准，是当前实现具身智能通用化技能的最佳路径之一。

我们还持续升级“眼睛”——纯视觉空间智能传感器。

传统的3D相机，需要光线投射，才能获得3D信号，作用距离有限，且容易受环境光的影响而跨维自研的纯视觉空间智能传感器，利用两个相机从不同角度捕捉图像，可以在复杂或半室外强光条件下成像，提升视觉系统的稳定性。

其最快可以实现每秒30帧频率，接近人眼感知世界的方式。

这套3D成像和感知设备，可以安装在机器人身上，适配主流机械臂与机器人，指挥其在工业和商业场景里运作。

以终为始

上一代的控制器，做一个从A点到B点的简单动作，都需要机器人工程师单独写一个程序。它没有眼睛，通过特定程序，精确地做动作。

新一代机器人控制器，像人一样有大脑、眼睛，可以指挥胳膊和手的动作，理解自然语言。

我们在研的新一代机器人控制器，有眼睛，还能通过自然语言的方式沟通，自动理解任务，并将其转换成机器人可以执行的代码。

其将会落地两个场景：工业柔性装配和室内清洁操作。

在工业柔性装配领域，即使要抓取的东西是无序的，Ropilot也可以指挥机械臂去完成动作。

如果机器人需要做好几个动作，比如把内存条插入电脑，中间有几根线挡着，其也能灵巧地拨开线，完成任务。

举个例子，目前室内扫地机器人没有胳膊，只能在地上操作。基于Ropilot产品，其在酒店场景下，可以完成清扫马桶、更换牙刷等复杂动作。

终端客户不关心技术路线，重视价格。

市场上存在着大量人不愿意干或者不能干的场景。现在，年轻人宁愿送外卖，也不去工厂干活。这种情况下，客户有强烈的需求，将机器人变得自动化、智能化、无人化。

这是一个不可逆转的趋势。

商业变现上，跨维智能出售成像感知套件，供应给集成商，安装到机械臂、灵巧手上，再应用到家电、汽车零部件等行业。

随着能力的增强，公司未来能够支撑更多机器人的技能，这个市场会越来越大，工业、农业、商业……人类总是希望智能体在生活中辅助我们。

为什么用具身智能的范式做传统的事？因为它是刚需，是痛点。

公司预计，今年营收可达数千万元人民币，下一年有望过亿。

对一个CEO来说，最重要的是具备洞察力，选择合适的技术路径，找到志同道合的人，把产品做出来。

对一个企业来说，永远的话题是：下一个利润增长点在哪里？要找到有决定价值的商业场景，在关键时间节点，找清自己的生态位，每一步都要看准。

深圳教授，入局具身智能

2024年10月08日 11:19 21世纪商业评论杨松

相关新闻

热文排行

财经日历

数读

每日智库看点

关注我们

公告

深圳教授，入局具身智能

2024年10月08日 11:19 21世纪商业评论 杨松

相关新闻

热文排行

财经日历

数读

每日智库看点

关注我们

公告

2024年10月08日 11:19 21世纪商业评论杨松