素有“數(shù)據(jù)挖掘的世界杯”之稱的KDD Cup(國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽跨模態(tài)信息檢索大賽)是當(dāng)今該領(lǐng)域水平最高、影響力最大的全球頂級賽事。該比賽從 1997 年起每年舉辦一次,吸引了無數(shù)來自世界數(shù)據(jù)挖掘領(lǐng)域的頂尖專家、學(xué)者和工程師參賽,是全球頂尖AI團(tuán)隊(duì)的必爭之地。為了充分檢驗(yàn)自身在跨模態(tài)數(shù)據(jù)檢索和識別技術(shù)中的水平,并與全球最先進(jìn)的團(tuán)隊(duì)進(jìn)行學(xué)習(xí)交流,衛(wèi)士通報(bào)名參加了KDD Cup 2020 Challenges for Modern-E-Commerce Platform:Multimodalities Recall,并在激烈的角逐中披荊斬棘榮獲第6名的好成績。
?KDD Cup 2020跨模態(tài)信息檢索大賽決賽排行榜
?
衛(wèi)士通一直致力于以“數(shù)據(jù)分級分類”為核心的數(shù)據(jù)安全治理關(guān)鍵技術(shù)突破和產(chǎn)品研發(fā)工作。基于數(shù)據(jù)內(nèi)容的敏感數(shù)據(jù)識別和定級是其中的關(guān)鍵點(diǎn)之一,跨模態(tài)的數(shù)據(jù)識別技術(shù)則是其重中之重。通過跨模態(tài)數(shù)據(jù)識別,可最終實(shí)現(xiàn)對混雜了文本、圖片甚至音頻或視頻的多模態(tài)復(fù)雜數(shù)據(jù)進(jìn)行自動化的識別和定級。
本次比賽的賽題是根據(jù)一條文本,從多張候選圖片中檢索出與之最匹配的圖片,可以理解為“以文搜圖”,這是跨文本與圖像兩種模態(tài)的信息識別與檢索。跨模態(tài)信息檢索是計(jì)算機(jī)視覺、自然語言處理、大數(shù)據(jù)等的交叉領(lǐng)域,與之相關(guān)的還有跨音頻、視頻等模態(tài)的檢索任務(wù)。實(shí)際上,在我們平時使用瀏覽器搜索圖片和視頻,以及網(wǎng)上購物時用關(guān)鍵字搜索商品的過程中都能看到跨模態(tài)檢索技術(shù)的影子。
?
衛(wèi)士通的參賽代表各盡所能,從算法模型的結(jié)構(gòu)、數(shù)據(jù)擴(kuò)充、目標(biāo)函數(shù)等方面充分挖掘改進(jìn)模型的可能性。然而,比賽提供的模型數(shù)據(jù)有300萬條之多,要在如此龐大的數(shù)據(jù)上訓(xùn)練一個模型至少需要2天的時間,而驗(yàn)證改進(jìn)思路的可行性還需要設(shè)計(jì)大量嚴(yán)謹(jǐn)?shù)膶Ρ葘?shí)驗(yàn)。因此,整個比賽的過程不僅是經(jīng)驗(yàn)和智慧的競爭,更是一場和時間的賽跑。終于,經(jīng)過兩個月的激烈角逐,衛(wèi)士通在決賽中的正確率達(dá)到了79%,在共同參賽的1432支隊(duì)伍中突出重圍,取得了喜人的成績。
?
通過本次比賽,不僅展現(xiàn)了衛(wèi)士通在跨模態(tài)數(shù)據(jù)檢索領(lǐng)域的技術(shù)實(shí)力,也為今后在跨模態(tài)場景下數(shù)據(jù)識別的進(jìn)一步探索給予了寶貴的經(jīng)驗(yàn)和充足的信心。而這些來之不易的技術(shù)成果,衛(wèi)士通也將應(yīng)用在諸如數(shù)據(jù)脫敏系統(tǒng)和數(shù)據(jù)安全治理平臺等一系列數(shù)據(jù)分級分類、安全治理的相關(guān)產(chǎn)品和方案中,以便為廣大用戶提供更加智能、精準(zhǔn)、高效的服務(wù),并為大數(shù)據(jù)場景下的數(shù)據(jù)有序和安全流動提供更加有力的保障。