你的位置:炒股交易配资技巧_股票交易配资成本_股票配资交易平台 > 股票交易配资成本 > 股票配资宝 中国电子首席科学家蒋国飞:高质量数据集是AI发展核心驱动力
股票配资宝 中国电子首席科学家蒋国飞:高质量数据集是AI发展核心驱动力
发布日期:2025-04-12 22:39    点击次数:171

股票配资宝 中国电子首席科学家蒋国飞:高质量数据集是AI发展核心驱动力

  4月9日至11日股票配资宝,第十三届中国电子信息博览会(简称“电博会”)在深圳会展中心举行。

  中国电子首席科学家蒋国飞在会上发表主题演讲,系统阐述了数据如何驱动人工智能发展,强调在算力与模型能力逐步拉平的竞争格局下,高质量数据集已成为AI发展的核心驱动力,而数据基础设施建设与数据处理技术创新是破解行业应用落地瓶颈的关键路径。

数据流通基础设施加速数据开放共享

  蒋国飞谈到,人工智能发展要素可归纳为算力、数据、模型与应用四大维度。

  从长期竞争来看,芯片供给能力与模型开源趋势将逐步消弭技术壁垒,而数据作为具有强知识产权属性的核心要素,正成为AI竞争的主战场。尤其是生成式AI的发展,对大规模高质量数据产生刚性需求。

  他以历史经验佐证,2009年美国通过构建大规模图像数据库,为计算机视觉研究提供标准化数据集,推动了从早期深度学习到当前大模型的技术演进。

  “在Scaling Law规则下,AI模型参数规模已突破2万亿级,理论上需要同等量级的有效数据支撑,否则庞大参数将无法转化为实际效能。”蒋国飞强调,数据规模与质量直接决定大模型的学习精确度与泛化能力,当前大模型训练已消耗50万亿token,预计2025年将触及人类数据总量边界。

  针对行业AI应用面临的数据困境,蒋国飞指出,互联网领域的海量数据积累催生了豆包、元宝、DeepSeek等大模型发展,但进入垂直行业时,数据分散化、碎片化、质量不足等问题成为主要瓶颈。

  因此,大模型非常需要建设数据流通的基础设施,加速数据开放共享,同时归集数据之后才能推动人工智能的发展。最下面一层是数据基础设施,不断汇集原材料,加工高质量数据集,利用这些数据集训练AI模型。

  近两年,国家高度重视数据流通基础设施建设,提出了数场、数联网、数据元件、数据空间、隐私计算和区块链六条技术路线。中国电子作为“数据元件”概念提出者,正在北京、西安等地推进国家数据基础设施试点,致力于构建跨行业数据流动的底层架构。

  高质量数据集成为AI应用发展的重点支点

  数据技术归集后,更大的挑战在于如何加工高质量数据集。

  谈及高质量数据集的核心特征,蒋国飞定义其为“将分散、碎片、杂乱的数据加工为高价值、高密度、标准化的数据集合”,这一过程涵盖数据归集、清洗、标注、评测等多个环节,且对技术创新提出更高要求。

  在技术层面,传统数据标注正从劳动密集型向知识密集型转型。以医疗影像标注为例,医疗行业的图片只有医生能标注,非常难适应AI时代对数据的要求。

  AI学习的本质是在高维的空间里学习复杂的曲线,基于足够的样本拟合曲线。针对医生资源稀缺问题,可通过任务分解技术将复杂标注拆分为普通人可完成的子任务,再经算法合成最终结果。

  其次,真实数据的稀缺性导致模型训练很难覆盖到各个场景。

  数据定义存在认知边界,很多时候数据分布不均匀,必然导致大模型在某些区域的认知盲区,机器从来没有见过,那便会出现幻觉等问题,因为它根本不知道这个区域应该是怎样的结果。

  蒋国飞提出,数据合成技术可通过行业知识引导实现“举一反三”,例如在自动驾驶场景中对特定车辆或路况进行多样化模拟,填补数据分布盲区。质量评测环节则需结合行业知识库,通过算法剔除违背专业逻辑的数据,确保生成数据的真实性与场景适配性。

  他分享了中国电子在交通物流、建筑供应链、农业等领域的实践案例:通过处理千万级行业数据构建智能问答模型,服务物流场景决策;基于数据集开发供应链匹配系统,提升建筑材料采购效率;利用1TB农业数据训练图像识别模型,实现精准施肥指导。

  他强调,行业数据处理必须形成“数据流动-处理建设-智能应用”的完整闭环股票配资宝,方能释放数据要素价值。 “基于大模型,行业数据若未经有效归集处理,100万条低质量数据在万亿级大模型训练中犹如‘一滴盐融入大海’,难以产生实质作用。”