IT 之家 8 月 14 日消息,據(jù)中國(guó)新聞網(wǎng)今天報(bào)道,國(guó)務(wù)院新聞辦公室今天舉行了 " 高質(zhì)量完成‘十四五’規(guī)劃 " 系列主題新聞發(fā)布會(huì),其中國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏作出了相關(guān)報(bào)告、解讀。
劉烈宏還指出,中國(guó)一直在持續(xù)推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)工作,截至今年 6 月底,中國(guó)已建設(shè)高質(zhì)量數(shù)據(jù)集超過(guò) 3.5 萬(wàn)個(gè),總體量超 400PB(409600TB)。
同時(shí),AI 模型訓(xùn)練也推動(dòng)了數(shù)據(jù)交易需求,今年 6 月底前中國(guó)各地高質(zhì)量數(shù)據(jù)集累計(jì)交易額近 40 億元人民幣,數(shù)據(jù)交易機(jī)構(gòu)掛牌的高質(zhì)量數(shù)據(jù)集總規(guī)模達(dá) 246PB(251904TB)。北京數(shù)交所的高質(zhì)量數(shù)據(jù)集占交易總量的比例從去年的 10% 躍升到目前的近 80%。
IT 之家注:Token(常被稱為詞元)是計(jì)算機(jī)科學(xué)與自然語(yǔ)言處理領(lǐng)域中的一個(gè)基礎(chǔ)且重要的概念,通常指文本數(shù)據(jù)經(jīng)過(guò)分詞或標(biāo)記化處理后的最小單位,其中單位可以是單詞、標(biāo)點(diǎn)符號(hào)、數(shù)字或其他任何有意義的符號(hào)。