中文數(shù)據(jù)在國內(nèi)AI大模型的訓練性能提升方面發(fā)揮著重要作用。國家數(shù)據(jù)局近日發(fā)布的數(shù)據(jù)顯示,目前國內(nèi)多數(shù)AI模型訓練使用的中文數(shù)據(jù)占比已經(jīng)超過60%,有的模型達到80%。中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力持續(xù)增強,推動我國人工智能模型性能快速提升。
國家數(shù)據(jù)局局長劉烈宏表示,我國人工智能的快速發(fā)展,與我國高度重視數(shù)據(jù)工作是密不可分的。作為人工智能發(fā)展的核心要素之一,數(shù)據(jù)在推動“人工智能+”過程中發(fā)揮著關(guān)鍵作用,高質(zhì)量數(shù)據(jù)集的建設(shè)至關(guān)重要。
“在人工智能時代,Token,也就是大家通常所說的詞元,是處理文本的最小數(shù)據(jù)單元,如同互聯(lián)網(wǎng)時代大家所說的‘流量’。”劉烈宏介紹,2024年初,我國日均Token的消耗量為1000億,到今年6月底,日均Token消耗量已經(jīng)突破30萬億,一年半時間增長了300多倍,反映了我國人工智能應(yīng)用規(guī)模的快速增長。
據(jù)介紹,截至今年6月底,我國已經(jīng)建設(shè)高質(zhì)量數(shù)據(jù)集超過3.5萬個,總體量超過了400PB(1PB可存儲約5億張2MB大小的高清照片),400PB的總量相當于中國國家圖書館數(shù)字資源總量的140倍左右。
人工智能模型的訓練也推動了數(shù)據(jù)交易需求的攀升。截至今年6月底,各地高質(zhì)量數(shù)據(jù)集累計交易額近40億元,數(shù)據(jù)交易機構(gòu)掛牌的高質(zhì)量數(shù)據(jù)集總規(guī)模達到了246PB。
下一步,國家數(shù)據(jù)局將通過體系化布局持續(xù)推進高質(zhì)量數(shù)據(jù)集建設(shè),加快打造具身智能、低空經(jīng)濟、生物制造等重點領(lǐng)域數(shù)據(jù)高地,推動全社會強化數(shù)據(jù)要素價值認同,加快推進數(shù)據(jù)要素價值共創(chuàng),培育“為優(yōu)質(zhì)數(shù)據(jù)買單”的市場共識。
中文數(shù)據(jù)在國內(nèi)AI大模型的訓練性能提升方面發(fā)揮著重要作用。國家數(shù)據(jù)局近日發(fā)布的數(shù)據(jù)顯示,目前國內(nèi)多數(shù)AI模型訓練使用的中文數(shù)據(jù)占比已經(jīng)超過60%,有的模型達到80%。中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力持續(xù)增強,推動我國人工智能模型性能快速提升。
國家數(shù)據(jù)局局長劉烈宏表示,我國人工智能的快速發(fā)展,與我國高度重視數(shù)據(jù)工作是密不可分的。作為人工智能發(fā)展的核心要素之一,數(shù)據(jù)在推動“人工智能+”過程中發(fā)揮著關(guān)鍵作用,高質(zhì)量數(shù)據(jù)集的建設(shè)至關(guān)重要。
“在人工智能時代,Token,也就是大家通常所說的詞元,是處理文本的最小數(shù)據(jù)單元,如同互聯(lián)網(wǎng)時代大家所說的‘流量’。”劉烈宏介紹,2024年初,我國日均Token的消耗量為1000億,到今年6月底,日均Token消耗量已經(jīng)突破30萬億,一年半時間增長了300多倍,反映了我國人工智能應(yīng)用規(guī)模的快速增長。
據(jù)介紹,截至今年6月底,我國已經(jīng)建設(shè)高質(zhì)量數(shù)據(jù)集超過3.5萬個,總體量超過了400PB(1PB可存儲約5億張2MB大小的高清照片),400PB的總量相當于中國國家圖書館數(shù)字資源總量的140倍左右。
人工智能模型的訓練也推動了數(shù)據(jù)交易需求的攀升。截至今年6月底,各地高質(zhì)量數(shù)據(jù)集累計交易額近40億元,數(shù)據(jù)交易機構(gòu)掛牌的高質(zhì)量數(shù)據(jù)集總規(guī)模達到了246PB。
下一步,國家數(shù)據(jù)局將通過體系化布局持續(xù)推進高質(zhì)量數(shù)據(jù)集建設(shè),加快打造具身智能、低空經(jīng)濟、生物制造等重點領(lǐng)域數(shù)據(jù)高地,推動全社會強化數(shù)據(jù)要素價值認同,加快推進數(shù)據(jù)要素價值共創(chuàng),培育“為優(yōu)質(zhì)數(shù)據(jù)買單”的市場共識。
本文鏈接:http://m.9105763.cn/v-146-5145.html國內(nèi)多數(shù)AI模型訓練使用的中文數(shù)據(jù)占比已超60%
相關(guān)文章:
主播說聯(lián)播丨“雙方應(yīng)相向而行,言必行、行必果”06-12
文旅融合激活城市新地標06-04
高二語文教學工作計劃07-07
法律工作者聘用合同02-06
英文的道歉信12-31
讀《給教師的建議》有感優(yōu)秀01-12
土木工程畢業(yè)實習體會心得08-30
假文盲小學作文03-25
草莓的作文11-22
編童話作文11-09
顧炎武作文600字10-26
2024年安徽一級建造師成績查詢?nèi)肟冢ㄒ验_通)12-16
2024下半年河南中小學教師資格考試面試審核時間及方式(11月8日-12日)11-01
一棵老樹 閱讀答案05-23
預(yù)防性侵害教案09-10
八年級下冊文言文原文及翻譯12-30
大一新生女生自我介紹11-19