切换到宽版
  • 17阅读
  • 2回复

[智能应用]国家数据局破题AI数据荒:7大标注基地已服务163个大模型 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
146344
金币
284157
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17067(小时)
注册时间: 2012-06-21
最后登录: 2025-07-23
只看楼主 正序阅读 使用道具 楼主  发表于: 昨天 08:47
高质量、多模态、精标注的数据,对人工智能发展至关重要,是人工智能发展的不竭动力。当前,业内普遍反应高质量数据集不足导致人工智能发展受限。
7月22日上午,在国家数据局新闻发布会上,国家数据局副局长余英提及破题的办法,包括挖掘医疗、工业、交通等重点领域标杆实践,建设数据标注基地等。
她表示,截至今年上半年,合肥、成都等7个数据标注基地建设数据集有524个,规模超过29PB,服务大模型163个。
此外,在即将举办的2025中国国际大数据产业博览会上,还将开展高质量数据集和数据标注交流活动,举办数据标注和高质量数据集供需对接活动,并发布一批高质量数据集典型案例。
下半年计划布局建设一批数据产业集聚区试点
“当前,全球数字经济正迈入以数据要素市场化为核心、以智能化技术为驱动的新阶段。数据作为数字经济的关键要素,已深度融入经济社会各领域,成为重塑产业格局、培育新质生产力的关键引擎。”余英表示。
她指出,充分发挥我国规模市场和海量数据双优势,大力发展数据产业,培育新的经济增长点,已成为各方共识。
可以看到,无论从政策支持还是各地探索方面,数据要素市场建设正在积极推进。
去年12月,国家数据局等5部门印发《关于促进数据产业高质量发展的指导意见》,聚焦数据产业发展现状和市场需求,推动培育多元经营主体,营造竞争有序、繁荣活跃的数据产业生态。上海、河南等地制定出台促进数据产业发展的实施意见或专项政策,山东、山西等地纷纷开展数据企业培育工作。
数据要素市场建设过程中,政务数据开放一直是重要的议题。在本次发布会中,贵阳市人民政府市长王宏特别指出,贵阳依托贵州省数据共享交换平台建设了贵阳贵安数据专区,推动实现省市一体化政府数据共享开放。目前,贵阳已经面向全国提供数据产品登记、数据资产登记、数据交易登记等服务,打造了气象、电力、算力等22个特色数据专区,上架数据产品2735个,发布高质量数据集939个。
算力资源供应是数据要素市场建设的基础。2025数博会的举办地贵州,作为我国西部大开发战略中“东数西算”的重要枢纽点,目前已经拥有28个大型数据中心,储存能力达到25EB,全省的智算规模也达到了85EFLOPS,占比超过98%,算力基础设施建设和算力服务已经达到较高水平。
记者还从会上获悉一个细节,在国产动漫大片《哪吒2》的云渲染算力工作中,贵州省也发挥了重要作用。贵州已经为全球50多个国家和地区、20多万用户提供了云渲染算力服务,
余英谈及,接下来国家数据局将进一步优化数据产业规划布局,推动数据产业从“单点突破”向“全域发展”来转变。下半年,还将计划布局建设一批数据产业集聚区试点,发挥产业区域聚集和规模效应,探索多元化数据产业的培育发展路径。
将开展数据标注和高质量数据集供需对接活动
伴随着人工智能的快速发展,高质量、多模态、精标注的数据变得尤为重要。
当前,这类数据存在数据供给存在困难,专业领域标注成本过高等问题。
对此,余英提到,国家数据局将开展生态培育专项行动,主要涉及三方面内容。一是征集高质量数据集典型案例并做好示范推广,挖掘医疗、工业、交通等重点领域标杆实践;二是定期举办技术交流活动,围绕数据标注、合成、高质量数据集建设方法论等开展深度研讨;三是搭建常态化供需对接平台,促进数据供给方、技术提供方、场景应用方精准匹配。
余英介绍。下一步,还将充分发挥有效市场和有为政府的作用,着力打造“数据标注+高质量数据集+模型+应用场景+市场化价值化”的闭环生态,推进数据要素市场化配置改革和“人工智能+”行动同向发力、同频共振。
本次数博会上,还会开展高质量数据集和数据标注交流活动,举办数据标注和高质量数据集供需对接活动,并发布一批高质量数据集典型案例。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线jjybzxw

UID: 551814


发帖
171032
金币
298592
道行
2004
原创
2405
奖券
2855
斑龄
36
道券
1035
获奖
0
座驾
设备
摄影级
在线时间: 38832(小时)
注册时间: 2008-10-01
最后登录: 2025-07-24
只看该作者 板凳  发表于: 昨天 09:09
高质量多模态精标注数据不足,确实是当前人工智能发展中的一个关键性挑战,尤其在推动通用人工智能(AGI)和复杂场景应用方面。这个问题不仅涉及技术层面的限制,还牵涉到资源分配、伦理隐私、产业生态等多个维度。以下从多个角度深入分析这一问题是否构成人工智能发展的“主要瓶颈”,并探讨其影响与未来应对策略。

---

一、从技术角度看:标注数据是监督学习的核心基础

1. 监督学习的依赖性
当前大多数主流AI模型,尤其是深度学习模型,严重依赖于高质量、精标注的训练数据。在图像识别、语音识别、自然语言处理等任务中,数据标注的准确性和丰富性直接决定了模型性能。

2. 多模态任务的复杂性
多模态学习(如图文结合、视频-语音融合)对数据的要求远高于单一模态。它不仅要求模态内部标注准确,还需要跨模态之间语义对齐。例如,在视频理解任务中,需要同时标注视觉内容、语音内容、时间轴信息和情感表达等,这对标注工具和人力成本提出了极高要求。

3. 小样本与零样本学习的挑战
虽然近年来小样本(Few-shot)、零样本(Zero-shot)和自监督学习取得进展,但它们的性能仍无法完全替代传统监督学习。尤其是在高风险行业(如医疗、金融),模型的可解释性和稳定性仍是关键,因此对高质量标注数据的依赖依然存在。

---

二、从资源与成本角度看:标注成本高、效率低

1. 人工标注成本高昂
高质量标注通常需要领域专家参与,例如在医学图像识别中,标注者必须是具备专业知识的医生。这导致标注成本高昂、周期长,限制了数据集的规模和多样性。

2. 数据标注的主观性与一致性问题
即便是专家,也可能在标注时存在主观偏差。特别是在情感分析、行为识别等模糊任务中,标注的一致性难以保证,从而影响模型训练效果。

3. 多语种与跨文化标注的缺失
全球化AI系统需要支持多种语言和文化背景,但现实中,非英语、非主流文化的数据标注极少,导致模型在这些领域表现不佳,加剧了AI发展的不均衡。

---

三、从产业发展角度看:数据生态体系尚未完善

1. 数据孤岛现象严重
各行业、企业之间数据壁垒严重,数据难以共享,形成了“数据孤岛”。这不仅限制了数据的多样性,也阻碍了跨领域模型的训练与迁移。

2. 开源数据集的局限性
尽管有ImageNet、COCO、BERT等经典数据集,但它们往往集中在特定领域,缺乏真实场景下的复杂性和多样性。此外,许多数据集已经“过拟合”,难以推动模型进一步突破。

3. 数据标注的标准化缺失
目前缺乏统一的数据标注标准和质量评估体系,导致不同机构的数据难以兼容,增加了模型迁移和集成的难度。

---

四、从伦理与法律角度看:隐私与合规限制数据获取

1. 隐私保护法规日益严格
如GDPR、中国的《个人信息保护法》等法规对数据采集和使用提出了严格要求,使得企业和研究机构在获取真实、多样数据时面临法律风险。

2. 合成数据的局限性
为应对数据不足问题,近年来合成数据(Synthetic Data)技术兴起。然而,合成数据往往缺乏真实数据的复杂性和噪声,难以反映真实世界的多样性。

---

五、未来应对策略与发展路径

1. 强化弱监督与自监督学习
通过引入伪标签、对比学习、掩码建模等方法减少对人工标注的依赖,是当前AI研究的重要方向。

2. 构建开放、共享的数据生态
推动建立跨行业、跨组织的数据共享平台,制定统一的数据标注标准和质量评估机制,是解决数据不足问题的关键。

3. 发展智能标注工具
利用AI辅助标注(如半自动标注系统、主动学习选择最有价值的样本)可大幅提高标注效率和质量。

4. 鼓励多模态数据集的构建
政府和学术界应鼓励构建大规模、高质量、跨模态的公开数据集,覆盖更多应用场景(如教育、医疗、农业等)。

5. 加强伦理与技术的协同治理
在推动数据利用的同时,加强AI伦理审查机制,确保数据采集、标注和使用的全过程符合法律法规与社会责任。

---

结语:瓶颈之一,但非唯一

高质量多模态精标注数据的不足,确实是当前AI发展的重要瓶颈之一,尤其是在推动模型泛化能力、跨模态理解和工业落地等方面。然而,它并非唯一瓶颈。计算资源、算法创新、伦理规范、应用场景的适配等因素同样制约着AI的发展。

未来AI的进步,需要从“数据驱动”向“知识驱动”与“模型驱动”并重转变,构建更加多元、可持续的智能发展体系。唯有如此,才能真正突破瓶颈,迈向更高级别的智能形态。

---

如需进一步探讨某一方面(如自监督学习、数据标注工具、伦理框架等),欢迎继续提问。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
146344
金币
284157
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17067(小时)
注册时间: 2012-06-21
最后登录: 2025-07-23
只看该作者 沙发  发表于: 昨天 08:48
国家数据局推进AI数据要素建设:七大标注基地成效显著
国家数据局于2025年7月22日召开新闻发布会,针对当前人工智能发展面临的“数据荒”问题,提出通过建设数据标注基地、推动重点领域数据应用等举措破题。据副局长余英介绍,截至2025年上半年,合肥、成都等7个数据标注基地已建设数据集524个,规模超29PB,累计服务163个大模型,为AI产业高质量发展提供关键支撑126。

数据标注基地建设成果与核心举措
七大基地的规模化数据供给能力
数据集规模:7个基地累计建成524个高质量数据集,覆盖医疗、工业、交通等重点领域,数据总量突破29PB,可直接用于AI模型训练与优化147。
大模型服务覆盖:已为163个大模型提供数据支撑,有效缓解行业高质量数据短缺问题,提升模型性能与应用落地效率26。
重点领域标杆实践与生态培育
领域深耕:聚焦医疗影像分析、工业质检、智能交通等场景,挖掘标杆案例并推广方法论,推动数据标注与行业需求深度融合15。
生态建设行动:国家数据局计划开展三大专项工作:征集高质量数据集典型案例、举办数据标注技术交流活动、搭建供需对接平台,促进“数据供给—技术研发—场景应用”闭环35。
数据要素市场化配置的多维推进
政策框架与区域试点布局
顶层设计:以《关于促进数据产业高质量发展的指导意见》为核心,上海、河南等地已出台配套政策,山东、山西加速培育数据企业,形成央地联动格局13。
产业集聚试点:下半年将启动数据产业集聚区建设,探索区域协同模式,发挥规模效应与资源整合优势13。
政务数据开放与算力基础设施支撑
贵阳贵安数据专区:依托省级共享平台,打造22个特色数据专区(如气象、电力),上架数据产品2735个,开放高质量数据集939个,提供数据资产登记等全流程服务13。
算力保障:贵州作为“东数西算”枢纽,已建成28个大型数据中心,存储能力达25EB,智算规模占全国98%以上,支撑包括《哪吒2》云渲染在内的全球算力需求37。
数博会平台与下一步工作重点
2025数博会核心活动
供需对接:举办数据标注与高质量数据集专场活动,发布典型案例,促进供给方、技术方与应用方精准匹配13。
产业交流:围绕数据合成、标注技术创新等议题开展深度研讨,推动行业标准与方法论共建57。
未来发展方向
全域化发展:推动数据产业从单点突破转向跨区域协同,强化医疗、工业等垂直领域的数据价值释放13。
市场化深化:加速数据要素价值化,通过基地试点、集聚区建设等路径,培育新质生产力与经济增长极
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个