川观智库研究员 徐也晴
数据作为数字经济时代的“新石油”,其战略地位与重要性日益凸显。日前,中国工程院院士邬贺铨公开演讲时提到,2025年将成为我国数据资源建设的元年。
据邬贺铨介绍,目前国内数据资源呈现三个特点。一是中文开源语料库不足,如果过度依赖国外语料库会有价值观对齐的风险。而中国工业门类全、规模大,工业数据全球最多,但由于企业间不共享,导致68%的工业数据未被利用;二是原生数据的获得成本高,用AI自身迭代衍生虽然可合成数据,但这种操作可能会导致模型崩溃,因此训练数据中需要有10-20%的原始数据;三是行业数据清洗标注需要较高专业知识,可利用AI来生成、标注和编目,但需严格管控质量。
过去一年,数据标注行业颇受重视。4月1日,全国数据工作会议提出“探索建设数据标注基地”;5月24日,国家数据局发布了承担数据标注基地建设任务的城市名单,其中包括四川省成都市;近日,国家发展改革委等六部门联合印发《关于促进数据产业高质量发展的指导意见》,提到要强化数据标注、数据合成等核心技术攻关。
除此之外,临近年底,国内多家智库机构也强调数据标注的重要性。比如,国内科技产业智库甲子光年提到,数据标注可能会成为建设高质量中文数据集的重要手段;中国信息通信研究院提到,当前,新一代数据标注成为高质量数据供给的关键。
具体而言,新一代数据标注具备高技术含量、高知识密度和高价值应用的“三高”特性。高技术含量指的是智能化标注、人机协同标注、合成数据技术等将大幅提高标注效率和准确率,从而降低成本;高知识密度指的是从业者将出现高学历背景和多学科融合的特点;高价值应用指的是数据标注整体趋向技术服务多元化、领域场景专业化、质量高标准化等属性。
2025年,数据标注行业会面临怎样的机遇?中国信息通信研究院认为,在技术层面,基于大模型的智能化标注落地使用,人机协同的轻量化标注技术突破,细分行业领域标注需求增多;在产业层面,行业高质量数据集建设元年带来海量标注需求,具身智能数据和逻辑推理数据成为行业增长点,新一代数据标注产业集群加速形成。
版权声明:
1、天府评论所登载文稿均仅代表作者个人观点,不代表天府评论立场。
2、作者投稿确系本人原创作品,严禁剽窃、转投他人作品,若由此引起任何法律纠纷,与天府评论无关。
3、作者向天府评论投稿时,就已表明同意四川在线全权使用本稿件。
4、欢迎网络媒体转载天府评论文章,转载时请注明来源及作者。
5、欢迎传统媒体转载天府评论文章,请与编辑联系获取作者联系方式,并支付稿费与作者。
6、传统媒体转载不支付作者稿费,网络媒体转载不注明来源及作者,天府评论将追究相关法律责任。