您现在的位置:新闻首页>金融 > 国家层面首次系统部署,六大行动引爆行业高质量数据集

国家层面首次系统部署,六大行动引爆行业高质量数据集建设

发布时间:2026-06-09 10:18编辑:admin已有: 人阅读


  国家数据局8日印发

  国家数据发展研究院院长胡坚波表示,

  今年政府工作报告首次点名“建设高质量数据集”。行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的行业数据的集合,包含行业通识和行业专识数据集。

  国家数据局局长刘烈宏此前公开表示,高质量数据集成为数智化转型的“新型燃料”,就像经过精炼加工的“高标号燃油”,在很大程度上,决定着人工智能技术在制造业应用中能否跑得稳、跑得远、跑出效益。

  

  中国信息通信研究院副院长魏亮认为,数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过“炼化”形成高质量数据集,才能助力大模型精准学习数据特征与规律,有效提升其对不同场景和任务的适应能力。数据集的质量影响人工智能的“智商”。

  魏亮分析,行业大模型对数据的需求多样,不同行业部门对模型场景数据的需求各不相同,增加了数据处理和管理的复杂度。在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,不同行业、不同数据源的数据完整性和准确性可能参差不齐,影响了大模型的训练效果和预测准确性,造成训练资源浪费。

  

  在强基扩容行动中,

  

  数据标注是对原始数据进行采集、清洗、分类、标记、质量检验等专业数据治理活动,能有效提升数据供给质量,是人工智能发展的关键环节。

  2024年4月,全国数据工作会议首次提出“探索建设国家级数据标注基地”,同年5月,国家数据局公布了首批7个国家级数据标注基地名单。12月,国家发展改革委、国家数据局等联合发布

  在价值释放方面,

  词元是大模型处理文本、代码、图像、音频、等所有信息时采用的最小运算单元。AI应用落地的每一个场景,背后都是词元的海量调用。今年3月,我国日均词元的调用量,已经超过了140万亿,相比2024年初的1000亿增长了1000多倍;相比2025年底的100万亿,三个月时间又增长了40%多。

  国家数据局日前召开词元经济座谈会,明确将把推动词元经济发展纳入工作体系,以行业高质量数据集建设和全国一体化算力网建设为着力点,深入推进数据要素市场化配置改革,推动词元经济高质量发展。

  中国工业互联网研究院政策研究所高级工程师朱光认为,词元串联起智能经济的核心要素——数据、算法、算力“铁三角”,把算力消耗、模型运算、服务供给统一转化为可度量、可流通的价值单元,支撑智能服务从定制化“奢侈品”转变为普惠化“必需品”,并催生出模型服务、算力调度、数据运营、智能体应用等一系列原生新业态,将成为智能经济价值转化与商业闭环的核心纽带。


已推荐





图说新闻

更多>>
雷军是小米新任“品牌大使”,小米11的下一次发

雷军是小米新任“品牌大使”,小米11的下一次发