推動數(shù)據(jù)標(biāo)注產(chǎn)業(yè)化,不僅夯實了人工智能算法訓(xùn)練的基石,也有助于釋放數(shù)據(jù)要素的價值。新形勢下,促進數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展,需要在需求牽引、創(chuàng)新驅(qū)動、生態(tài)培育等方面找準(zhǔn)發(fā)力點。
日前,一份名為《關(guān)于促進數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》的文件,迅速讓“數(shù)據(jù)標(biāo)注產(chǎn)業(yè)”躍入大眾視野,也引發(fā)很多人的好奇:“數(shù)據(jù)標(biāo)注”究竟是個什么樣的產(chǎn)業(yè)?國家為何如此重視這個新事物?
對于“數(shù)據(jù)標(biāo)注”,專家的解釋很直接:就是給文本、語音、圖片、視頻等各種各樣的數(shù)據(jù)“打標(biāo)簽”。但別小看這些標(biāo)簽,正是有了它們,數(shù)據(jù)才可以更好地被人工智能算法理解和使用,人工智能系統(tǒng)的性能與準(zhǔn)確性才能有效提升。從某種意義上說,沒有高質(zhì)量的數(shù)據(jù)標(biāo)注,就沒有高性能的人工智能系統(tǒng)。
通常情況下,訓(xùn)練一個領(lǐng)先的大模型,需要數(shù)百萬條甚至數(shù)千萬條標(biāo)注數(shù)據(jù)。遺憾的是,我國雖是全球第二大數(shù)據(jù)資源國,但還算不上數(shù)據(jù)資源強國。有機構(gòu)統(tǒng)計顯示,2023年我國數(shù)據(jù)資源為32ZB(澤字節(jié)),保存數(shù)據(jù)僅有2.9%,這一數(shù)字遠低于發(fā)達國家平均水平。換句話說,數(shù)據(jù)質(zhì)量低、大量數(shù)據(jù)被浪費等現(xiàn)象,客觀上制約了我國數(shù)據(jù)資源價值的發(fā)揮,而通過推動數(shù)據(jù)標(biāo)注產(chǎn)業(yè)化,不僅夯實了人工智能算法訓(xùn)練的基石,也有助于釋放數(shù)據(jù)要素的價值。
促進數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展,有其必要性。當(dāng)前,全球主流基礎(chǔ)大模型中,中文語料僅占全部語料的1%,高質(zhì)量中文數(shù)據(jù)不足很大程度是我國基礎(chǔ)大模型能力的短板所在。正因如此,全面提升中文語料質(zhì)量,已成為破解我國大模型發(fā)展的關(guān)鍵環(huán)節(jié)之一。打造具有國際影響力的數(shù)據(jù)標(biāo)注企業(yè)和品牌,將有助于構(gòu)建完整的人工智能產(chǎn)業(yè)鏈,提升我國在全球人工智能領(lǐng)域的市場份額和話語權(quán)。
近年來,人工智能技術(shù)的迭代升級和應(yīng)用場景的持續(xù)拓展,推動數(shù)據(jù)標(biāo)注產(chǎn)業(yè)不斷呈現(xiàn)出自動化、專業(yè)化和高端化的特點,數(shù)據(jù)標(biāo)注產(chǎn)業(yè)正逐步從傳統(tǒng)的勞動密集型產(chǎn)業(yè)向知識密集型產(chǎn)業(yè)轉(zhuǎn)變,數(shù)據(jù)標(biāo)注員作為國家認(rèn)可的新工種,其專業(yè)化要求也在不斷提高。同時,數(shù)據(jù)標(biāo)注的應(yīng)用領(lǐng)域加快拓展深化,除了傳統(tǒng)的語音轉(zhuǎn)寫、圖片文字識別等,來自垂直大模型公司的新需求也越來越多,標(biāo)注的內(nèi)容也更加豐富多彩。
新形勢下,促進數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展,需要在需求牽引、創(chuàng)新驅(qū)動、生態(tài)培育等方面找準(zhǔn)發(fā)力點——
在深化需求牽引方面,通過釋放公共數(shù)據(jù)標(biāo)注需求和挖掘企業(yè)數(shù)據(jù)標(biāo)注需求,依法依規(guī)有序推動公共數(shù)據(jù)標(biāo)注與開發(fā)利用。支持跨部門、跨地區(qū)、跨層級公共數(shù)據(jù)融合應(yīng)用,鼓勵政府部門和企業(yè)協(xié)同開展政務(wù)大模型所需數(shù)據(jù)的標(biāo)注和訓(xùn)練,在現(xiàn)代農(nóng)業(yè)、智能制造、信息服務(wù)等重點領(lǐng)域發(fā)掘公共數(shù)據(jù)標(biāo)注需求。
在增強創(chuàng)新驅(qū)動方面,加強數(shù)據(jù)標(biāo)注領(lǐng)域的關(guān)鍵技術(shù)攻關(guān)、標(biāo)準(zhǔn)制定和創(chuàng)新載體建設(shè)。支持軟硬一體、自主可控的數(shù)據(jù)標(biāo)注領(lǐng)域技術(shù)和關(guān)鍵設(shè)備的研發(fā)應(yīng)用。培育建設(shè)數(shù)據(jù)標(biāo)注領(lǐng)域重點實驗室、技術(shù)創(chuàng)新中心等創(chuàng)新載體。
在培育繁榮生態(tài)方面,著力壯大數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的經(jīng)營主體,推動其規(guī)?;?、標(biāo)準(zhǔn)化、集約化發(fā)展。積極完善產(chǎn)業(yè)生態(tài),暢通數(shù)據(jù)采集、標(biāo)注、人工智能應(yīng)用產(chǎn)業(yè)鏈,推動上下游協(xié)同發(fā)展,培育一批深耕行業(yè)的數(shù)據(jù)標(biāo)注瞪羚企業(yè)、獨角獸企業(yè)。
此外,還要持續(xù)優(yōu)化支撐體系,在加大財稅金融支持力度、推動數(shù)據(jù)標(biāo)注服務(wù)納入政府采購范疇等方面,提升數(shù)據(jù)標(biāo)注的公共服務(wù)能力。尤其是在人才培養(yǎng)上,要深化產(chǎn)學(xué)研融合,鼓勵行業(yè)聯(lián)盟、高校、科研院所與企業(yè)建立長期合作機制,進一步暢通人才發(fā)展通道,強化數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展的人才支撐。 (作者:顧陽 來源:經(jīng)濟日報)
1.本網(wǎng)(張家口新聞網(wǎng))稿件下“稿件來源”項標(biāo)注為“張家口新聞網(wǎng)”、“張家口日報”、“張家口晚報”的,根據(jù)協(xié)議,其文字、圖片、音頻、視頻稿件之網(wǎng)絡(luò)版權(quán)均屬張家口新聞網(wǎng)所有,任何媒體、網(wǎng)站或個人 未經(jīng)本網(wǎng)協(xié)議授權(quán),不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本網(wǎng)協(xié)議授權(quán)的媒體、網(wǎng)站,在下載使用 時須注明“稿件來源:張家口新聞網(wǎng)”,違者本網(wǎng)將依法追究責(zé)任。
2.本網(wǎng)其他轉(zhuǎn)載稿件涉及版權(quán)等問題,請作者或版權(quán)所有者在一周內(nèi)來電或來函。聯(lián)系電話:0313-2051987。