中文數(shù)據(jù)在國內(nèi)AI大模型的訓(xùn)練性能提升方面發(fā)揮著重要作用。國家數(shù)據(jù)局近日發(fā)布的數(shù)據(jù)顯示,目前國內(nèi)多數(shù)AI模型訓(xùn)練使用的中文數(shù)據(jù)占比已經(jīng)超過60%,有的模型達(dá)到80%。中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力持續(xù)增強(qiáng),推動(dòng)我國人工智能模型性能快速提升。
國家數(shù)據(jù)局局長劉烈宏表示,我國人工智能的快速發(fā)展,與我國高度重視數(shù)據(jù)工作是密不可分的。作為人工智能發(fā)展的核心要素之一,數(shù)據(jù)在推動(dòng)“人工智能+”過程中發(fā)揮著關(guān)鍵作用,高質(zhì)量數(shù)據(jù)集的建設(shè)至關(guān)重要。
“在人工智能時(shí)代,Token,也就是大家通常所說的詞元,是處理文本的最小數(shù)據(jù)單元,如同互聯(lián)網(wǎng)時(shí)代大家所說的‘流量’。”劉烈宏介紹,2024年初,我國日均Token的消耗量為1000億,到今年6月底,日均Token消耗量已經(jīng)突破30萬億,一年半時(shí)間增長了300多倍,反映了我國人工智能應(yīng)用規(guī)模的快速增長。
據(jù)介紹,截至今年6月底,我國已經(jīng)建設(shè)高質(zhì)量數(shù)據(jù)集超過3.5萬個(gè),總體量超過了400PB(1PB可存儲(chǔ)約5億張2MB大小的高清照片),400PB的總量相當(dāng)于中國國家圖書館數(shù)字資源總量的140倍左右。
人工智能模型的訓(xùn)練也推動(dòng)了數(shù)據(jù)交易需求的攀升。截至今年6月底,各地高質(zhì)量數(shù)據(jù)集累計(jì)交易額近40億元,數(shù)據(jù)交易機(jī)構(gòu)掛牌的高質(zhì)量數(shù)據(jù)集總規(guī)模達(dá)到了246PB。
下一步,國家數(shù)據(jù)局將通過體系化布局持續(xù)推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè),加快打造具身智能、低空經(jīng)濟(jì)、生物制造等重點(diǎn)領(lǐng)域數(shù)據(jù)高地,推動(dòng)全社會(huì)強(qiáng)化數(shù)據(jù)要素價(jià)值認(rèn)同,加快推進(jìn)數(shù)據(jù)要素價(jià)值共創(chuàng),培育“為優(yōu)質(zhì)數(shù)據(jù)買單”的市場共識(shí)。
中文數(shù)據(jù)在國內(nèi)AI大模型的訓(xùn)練性能提升方面發(fā)揮著重要作用。國家數(shù)據(jù)局近日發(fā)布的數(shù)據(jù)顯示,目前國內(nèi)多數(shù)AI模型訓(xùn)練使用的中文數(shù)據(jù)占比已經(jīng)超過60%,有的模型達(dá)到80%。中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力持續(xù)增強(qiáng),推動(dòng)我國人工智能模型性能快速提升。
國家數(shù)據(jù)局局長劉烈宏表示,我國人工智能的快速發(fā)展,與我國高度重視數(shù)據(jù)工作是密不可分的。作為人工智能發(fā)展的核心要素之一,數(shù)據(jù)在推動(dòng)“人工智能+”過程中發(fā)揮著關(guān)鍵作用,高質(zhì)量數(shù)據(jù)集的建設(shè)至關(guān)重要。
“在人工智能時(shí)代,Token,也就是大家通常所說的詞元,是處理文本的最小數(shù)據(jù)單元,如同互聯(lián)網(wǎng)時(shí)代大家所說的‘流量’。”劉烈宏介紹,2024年初,我國日均Token的消耗量為1000億,到今年6月底,日均Token消耗量已經(jīng)突破30萬億,一年半時(shí)間增長了300多倍,反映了我國人工智能應(yīng)用規(guī)模的快速增長。
據(jù)介紹,截至今年6月底,我國已經(jīng)建設(shè)高質(zhì)量數(shù)據(jù)集超過3.5萬個(gè),總體量超過了400PB(1PB可存儲(chǔ)約5億張2MB大小的高清照片),400PB的總量相當(dāng)于中國國家圖書館數(shù)字資源總量的140倍左右。
人工智能模型的訓(xùn)練也推動(dòng)了數(shù)據(jù)交易需求的攀升。截至今年6月底,各地高質(zhì)量數(shù)據(jù)集累計(jì)交易額近40億元,數(shù)據(jù)交易機(jī)構(gòu)掛牌的高質(zhì)量數(shù)據(jù)集總規(guī)模達(dá)到了246PB。
下一步,國家數(shù)據(jù)局將通過體系化布局持續(xù)推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè),加快打造具身智能、低空經(jīng)濟(jì)、生物制造等重點(diǎn)領(lǐng)域數(shù)據(jù)高地,推動(dòng)全社會(huì)強(qiáng)化數(shù)據(jù)要素價(jià)值認(rèn)同,加快推進(jìn)數(shù)據(jù)要素價(jià)值共創(chuàng),培育“為優(yōu)質(zhì)數(shù)據(jù)買單”的市場共識(shí)。
本文鏈接:http://m.9105763.cn/v-146-5131.html國內(nèi)多數(shù)AI模型訓(xùn)練使用的中文數(shù)據(jù)占比已超60%
相關(guān)文章:
春節(jié)句子優(yōu)美段落簡短02-19
勸他人想開點(diǎn)的句子07-22
被蚊子咬的幽默朋友圈句子07-05
辦公室秘書簡短年度總結(jié)08-12
銀行客戶經(jīng)理年度個(gè)人總結(jié)12-23
生日晚會(huì)策劃書08-23
學(xué)校的邀請(qǐng)函12-07
你行!你上!觀后感07-27
小學(xué)生我的寒假生活作文07-12
守株待兔讀后感作文05-26
我和白雪公主過一天小學(xué)想象作文02-12
2025年1月遼寧證券從業(yè)資格考試報(bào)名入口已開通(1月3日-9日)01-08
2024年山西執(zhí)業(yè)醫(yī)師醫(yī)學(xué)綜合考試二試報(bào)名時(shí)間及報(bào)名入口(9月24日24時(shí)截止)09-23
幼兒園小班幼兒下學(xué)期評(píng)語【最新21篇】07-25
班主任遠(yuǎn)程培訓(xùn)總結(jié)07-08
詞語惋惜的近義詞09-06
自我介紹簡單大方10-19
折紙小組的活動(dòng)計(jì)劃07-21