2023年12月25日消息,據(jù)國家知識產(chǎn)權(quán)局公告,北京大學(xué)取得一項名為“一種基于多層次跨模態(tài)差異調(diào)和的多模態(tài)行人重識別方法”,授權(quán)公告號CN116682144B,申請日期為2023年6月。
專利摘要顯示,本發(fā)明提供了一種基于多層次跨模態(tài)差異調(diào)和的多模態(tài)行人重識別方法,屬于計算機視覺領(lǐng)域。方法包括訓(xùn)練樣本的獲取,以及行人圖片和相應(yīng)文本描述的預(yù)處理;使用模態(tài)編碼器?模態(tài)共享解碼器架構(gòu),在一組可學(xué)習(xí)的語義查詢嵌入的引導(dǎo)下,提取出模態(tài)對齊的視覺和文本特征;通過交叉身份雙模擬學(xué)習(xí),利用一個差異預(yù)測器,幫助不同身份行人特征間的相關(guān)性在不同模態(tài)間轉(zhuǎn)換,緩解身份級別的跨模態(tài)差異;最后使用模型輸出的模態(tài)對齊的視覺特征和文本特征,計算查詢文本特征和圖像庫中圖像特征之間的相似度矩陣,實現(xiàn)準(zhǔn)確高效的行人重識別。