【文化中國(guó)行 科技賦能典型案例】
◎本報(bào)記者 金 鳳 通訊員 趙志梟
宋錦既然起源于蘇州,為什么叫宋錦?為什么會(huì)有宋錦到蜀錦的發(fā)展轉(zhuǎn)變?繅絲使用梭子的方式與一般織布有何不同?近日,在《中國(guó)世界級(jí)非遺文化悅讀系列》叢書(shū)發(fā)布會(huì)上,一款同步推出的“非物質(zhì)文化遺產(chǎn)大語(yǔ)言模型”引人注目。在模型中輸入上述問(wèn)題,一個(gè)個(gè)翔實(shí)、生動(dòng)的答案躍入眼簾。
南京農(nóng)業(yè)大學(xué)信息管理學(xué)院王東波教授接受記者采訪時(shí)表示,他帶領(lǐng)團(tuán)隊(duì)聯(lián)合南京大學(xué)“術(shù)語(yǔ)與翻譯跨學(xué)科研究基地”推出的這款模型,致力于推動(dòng)非遺文化的數(shù)字化保護(hù),為非遺文化的保護(hù)與傳播開(kāi)辟新路徑。
“非物質(zhì)文化遺產(chǎn)是中華優(yōu)秀傳統(tǒng)文化的重要組成部分,我們希望通過(guò)打造一款非遺領(lǐng)域的人工智能大模型,促進(jìn)中華優(yōu)秀傳統(tǒng)文化的國(guó)內(nèi)外傳播?!蓖鯑|波介紹,目前的通用領(lǐng)域大模型雖然在語(yǔ)言能力與通用知識(shí)領(lǐng)域表現(xiàn)出色,但缺乏對(duì)特定領(lǐng)域知識(shí)的了解。通過(guò)專(zhuān)業(yè)領(lǐng)域的數(shù)據(jù)開(kāi)展預(yù)訓(xùn)練,能夠彌補(bǔ)通用大模型在非遺知識(shí)領(lǐng)域的匱乏。
“在非物質(zhì)文化遺產(chǎn)領(lǐng)域,數(shù)據(jù)的獨(dú)特性與復(fù)雜性是大模型構(gòu)建的關(guān)鍵挑戰(zhàn)?!蓖鯑|波表示,為確保非遺大模型能夠精準(zhǔn)理解和運(yùn)用文化遺產(chǎn)領(lǐng)域的獨(dú)特知識(shí),研究團(tuán)隊(duì)在數(shù)據(jù)收集階段,從中國(guó)非物質(zhì)文化遺產(chǎn)網(wǎng)的政策、資源、學(xué)術(shù)等五大板塊獲取并整理了海量數(shù)據(jù),并利用學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫(kù)中的大量非遺相關(guān)期刊論文摘要,通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容的分類(lèi)解析和論文摘要的整理,構(gòu)建了一個(gè)內(nèi)容豐富、預(yù)訓(xùn)練數(shù)據(jù)總字?jǐn)?shù)超1868萬(wàn)字的數(shù)據(jù)集。
在王東波看來(lái),高質(zhì)量數(shù)據(jù)集的構(gòu)建是非遺大語(yǔ)言模型獲取相關(guān)領(lǐng)域?qū)I(yè)知識(shí)的必要條件。為使模型能夠更好地理解和響應(yīng)非遺相關(guān)問(wèn)題,研究團(tuán)隊(duì)通過(guò)對(duì)數(shù)據(jù)的量化分析和組織專(zhuān)家的深度參與,構(gòu)建了面向非遺的知識(shí)實(shí)體標(biāo)注方案,所完成的知識(shí)實(shí)體精標(biāo)注語(yǔ)料庫(kù)總字符數(shù)超176萬(wàn)。
經(jīng)過(guò)長(zhǎng)期的人工數(shù)據(jù)標(biāo)注與校驗(yàn),團(tuán)隊(duì)實(shí)現(xiàn)了非遺數(shù)據(jù)知識(shí)實(shí)體的精細(xì)標(biāo)注。為進(jìn)一步豐富訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)結(jié)合數(shù)據(jù)生成的特性,與南京大學(xué)術(shù)語(yǔ)與翻譯跨學(xué)科研究基地的魏向清教授團(tuán)隊(duì)合作,依托超大型語(yǔ)言模型,融入了《中國(guó)世界級(jí)非遺文化悅讀系列》叢書(shū)中的對(duì)話內(nèi)容,對(duì)已有非遺文本數(shù)據(jù)進(jìn)行轉(zhuǎn)換與增強(qiáng),構(gòu)建了高質(zhì)量的非遺知識(shí)對(duì)話數(shù)據(jù)。
依托南京農(nóng)業(yè)大學(xué)高性能算力平臺(tái),研究團(tuán)隊(duì)訓(xùn)練出非遺領(lǐng)域基座大模型,又在非遺知識(shí)對(duì)話數(shù)據(jù)的基礎(chǔ)上進(jìn)一步構(gòu)建了非遺對(duì)話大模型。
“非遺對(duì)話大模型可以實(shí)現(xiàn)非遺文化的智能化傳播與知識(shí)普及,目前,這款模型有中英文兩種語(yǔ)言模式。后期我們也將嘗試引入其他語(yǔ)種,將不同地域的非遺文化融合,打破語(yǔ)言障礙,助力中國(guó)非遺文化走向世界。”王東波表示,團(tuán)隊(duì)希望通過(guò)非遺領(lǐng)域大語(yǔ)言模型,促進(jìn)傳統(tǒng)故事、技藝、習(xí)俗等內(nèi)容的數(shù)字化、知識(shí)化、系統(tǒng)化保護(hù)與利用,建立非遺的長(zhǎng)效保護(hù)體系,確保非遺的可持續(xù)發(fā)展。
【科技日?qǐng)?bào)】大語(yǔ)言模型與非遺“共舞”——我高校團(tuán)隊(duì)利用數(shù)字技術(shù)開(kāi)辟文化保護(hù)傳播新路徑
原文鏈接: