【JIUYOU科技动静】据《中国经济网》报导,近日,中国香港科技年夜学(广州)李昊昂传授团队于呆板人导航技能范畴取患了主要冲破,乐成研发出视觉-语言导航技能,为呆板人提供了越发天然、智能、高效的导航与交互能力。

传统的呆板人导航技能重要依靠纯视觉信息,如图象或者视频,来理解周围情况并计划路径。然而,于繁杂多变的情况中,这类导航方式往往存于局限性,致使呆板人导航能力不足。为了降服这一难题,李昊昂传授团队研究出了视觉-语言导航技能,该技能可以或许整合视觉信息和语言指令,实现高效的人机交互。
于办事呆板人的运用中,该技能使患上呆板人可以或许理解人类的语言指令,如“走到客堂,把餐桌上的苹果拿给我”,并经由过程视觉数据辨认要害信息,如“客堂”、“餐桌”、“苹果”等,从而正确地完成使命。这一技能的实现,不仅拓展了呆板人的运用场景,还有提高了呆板人的事情效率及安全性。
此外,针对于现有视觉-语言年夜模子于信息保障方面存于的问题,如对于数据质量及练习场景的敏感性、难以理解恍惚语言指令等,李昊昂传授团队提出了面向视觉-语言导航运用的年夜模子调优计谋。经由过程于呆板人室表里导航数据长进行视觉数据抽取及语言指令标注,并对于模子举行拟合,呆板人可以按照提取的情况视觉特性及人类语言指令来决议其导航线径。

于数据基础方面,团队还有经由过程仿真数据合成的方式解决了现有导航练习数据存于的问题。他们设计了新奇的天生式扩散模子,可以合成年夜量、多样化、高质量的视觉数据及相干的语言描写,从而有用增长练习数据的多样性,提高模子于处置惩罚繁杂、未见场景时的鲁棒性。
版权所有,未经许可不患上转载
-jiuyou.com