4月15日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》,首次明确提出“探索词元交易等新型数据集交易模式”。这就像给AI时代的数据交易装上了“计量单位”——过去数据交易像卖散装大米,现在要标准化成“一袋袋”明码标价。当数据从资源变成资产,从资产变成可计量的商品,整个大数据产业的游戏规则正在被重写。
新闻分析:四大热点背后的技术逻辑
热点一:国家数据局定调“词元交易”,数据定价有了新标尺
技术动态很明确:国家数据局要建立以词元为基础、可量化、可定价的数据集价值体系。词元就是AI模型处理文本、图像、音频时的最小单位,相当于数据的“原子”。过去数据集交易像卖整本书,现在可以按“章节”甚至“段落”拆开卖。
用生活比喻:这就像菜市场从“论斤卖”升级到“标准化包装”。以前买数据像买散装大米,质量参差不齐、价格混乱;现在有了词元计量,数据就像超市里标好重量、产地、保质期的袋装米,交易透明多了。
对行业影响:数据交易将从“项目制”转向“标准化产品”。我的判断是,未来两年会出现一批专门做数据清洗、标注、词元化的“数据加工厂”,就像芯片行业的封装测试环节,成为产业链不可或缺的一环。
热点二:京东发布全链路具身数据基础设施,60万人采集1000万小时
京东在全球首推覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施。简单说,就是为机器人训练打造了一条“数据生产线”。当前具身智能面临的核心瓶颈是高质量、真实交互数据不足——大语言模型有1000亿小时文本数据,而具身模型有效数据量仅50万小时。
用生活比喻:训练AI就像教小孩认字。以前是给一堆杂乱无章的图画书(非结构化数据),现在京东建了个“标准化识字教室”,有系统教材(采集标准)、专业老师(标注规范)、考试题库(评估体系)。
对行业影响:数据采集从“手工作坊”进入“工业化生产”。我的判断是,具身数据服务将催生新业态,类似“数据众包平台”,普通人戴个采集设备就能成为数据贡献者,按采集时长获得报酬。
热点三:智元觅蜂科技瞄准千万小时数据产能,物理AI数据生态成型
智元机器人控股的觅蜂科技计划在2026年实现千万小时级数据产能。他们发布了无本体、轻量化数据采集工具MEgo,可以由采集员佩戴采集,替代传统机器人采集方式,降低数据采集成本。设备具备超300°全景感知与亚毫秒级数据同步能力。
用生活比喻:传统机器人采集数据像用专业摄像机拍电影——设备贵、操作复杂、场景有限;MEgo就像给普通人发GoPro,随时随地记录生活,成本降了90%,数据量却能翻百倍。
对行业影响:数据采集门槛大幅降低,中小公司也能参与。我的判断是,未来会出现“数据采集师”这个新职业,就像现在的网约车司机,按单计费、多劳多得。
热点四:数据要素“5+3+1”改革体系成型,市场化进入深水区
国家数据局已初步形成数据“供得出、流得动、用得好、保安全”的良好局面,探索形成了数据要素市场化配置改革“5+3+1”的工作体系。截至2026年3月,国家数据局已累计发布241个“数据要素×”典型案例,印发11个领域典型场景指引。
用生活比喻:这就像给数据修了条“高速公路”。以前数据是乡间土路,车难行、易翻车(安全风险);现在有了标准车道(制度)、收费站(交易平台)、交警(监管)、服务区(中介机构),数据流通效率提升十倍。
对行业影响:公共数据授权运营将成为最大增量市场。我的判断是,未来每个城市都会有自己的“数据运营公司”,类似当年的城投公司,负责本地数据资产的管理和变现。
A股关联:哪些公司在赛道上卡位
数据要素产业链正在A股市场形成清晰图谱,不同环节都有代表性公司布局。
在数据存储与基础设施环节,易华录凭借蓝光存储技术在全国布局32个数据湖,存储容量超3000PB。中科曙光作为算力龙头,在全球TOP500超算榜单中系统数量排名第三,其液冷数据中心PUE值低至1.04。浪潮信息则是AI服务器全球领先供应商,2023年AI服务器收入占比30%。
在数据治理与运营领域,深桑达A作为中国电子数据创新业务的核心参与企业,规划今年在公共数据授权运营领域突破数十座城市。海量数据是国内首家以数据库为主营业务的主板上市公司,2026年1月联合清华、清工院共同申报“数据智能北京市重点实验室”获批。海天瑞声深度参与国家数据要素基础设施建设,已与成都、长沙、保定等承担数据标注基地建设任务的城市政府成立合资公司。
在数据交易与流通环节,广电运通参股广州数据交易所30%股权,深度布局数据确权与资产化平台。上海钢联作为大宗商品数据全球龙头,其价格指数被国际期货市场采用,2023年数据服务收入占比60%。迅策科技与深圳数据交易所签署战略合作协议,用“数据Token化”能力为数据资产入表提供基础设施。
在数据安全与应用方面,启明星辰在数据安全领域市场占有率达25%,深度参与数据跨境流动国标制定。安恒信息聚焦云、大数据、物联网等新兴场景的安全布局。熙菱信息作为国家级专精特新“小巨人”企业,为政企用户提供大数据智能应用全生命周期服务,单产品年数据分析量2000亿+。
这些公司的共同特点是:要么有深厚的技术积累,要么有独特的场景数据,要么有国资背景的资源优势。数据要素市场不是赢家通吃的互联网模式,而是“各吃一段”的产业链分工。
警示案例:易华录从概念明星到亏损大户
在数据要素概念最火热的时候,易华录曾是市场追捧的明星股。这家公司主打数据湖业务,在全国布局32个数据湖,存储容量超3000PB,听起来前景无限。但现实很骨感——2024年公司营业总收入暴跌39.24%,从上年的7.65亿元骤降至4.65亿元,归属于母公司股东的净利润为-28.67亿元,同比亏损扩大69.77%。
问题出在哪里?数据湖建设接近尾声,但审计结算中频频出现项目审减,直接拖垮了毛利率。新兴的数据要素、超级存储业务虽然发展势头不错,但单笔订单规模太小,对整体收入贡献微乎其微。更麻烦的是,公司还深陷诉讼泥潭,过去十二个月内作为被告的诉讼、仲裁案件多达数十起,累计涉案金额约3亿元。
易华录的案例揭示了一个残酷现实:大数据不是修路盖楼那种“一锤子买卖”。数据湖建好了,只是有了“仓库”,关键是要有持续的数据流入、加工、流出,形成良性循环。如果只有硬件投入没有运营能力,再大的湖也会变成一潭死水。
更值得警惕的是,尽管经营状况如此糟糕,易华录在资本市场上却一直受到AI、数据要素等概念的强烈驱动。每当相关政策出台,股价就跟着热点蹦跶,让不少投资者对公司寄予了过高期望。这种“概念炒作”与“基本面脱节”的现象,在大数据板块并不少见。
理性看待:技术落地比概念更重要
数据要素市场的建设是一场马拉松,不是百米冲刺。从国家数据局的“词元交易”探索,到京东的具身数据生产线,再到各地方的数据交易所试点,整个产业正在从“野蛮生长”走向“规范发展”。
对于投资者而言,需要关注三个核心指标:一是公司的数据治理能力——能不能把原始数据变成标准化产品;二是场景落地能力——数据在具体业务中产生了多少实际价值;三是持续运营能力——能不能形成数据采集、加工、交易、再采集的闭环。
当你在看大数据公司时,不妨问自己几个问题:这家公司的数据从哪里来?经过什么处理?卖给谁?客户用了之后效果如何?如果这些问题都有清晰答案,那可能是个好标的;如果只有宏大叙事和美好蓝图,那就要多一份警惕。
最后留个问题给大家:数据要素市场化进程中,你认为最大的瓶颈是技术、制度还是商业模式?欢迎在评论区分享你的观察。
