抢占人工智能“超级粮仓”四川加快建设5个国省数据标注基地
人工智能加速融入生产生活,离不开一项关键基础支撑数据标注,人工智能背后线;数据标注员。
数据标注就是人工智能的“超级粮仓”。2024年底,国家发展改革委等部门出台《关于促进数据标注产业高质量发展的实施意见》,提出培育一批具有影响力的科技型数据标注企业,建设一批成效明显、特色鲜明的数据标注基地。
目前,四川布局有1个国家数据标注基地和4个省级数据标注基地。作为生产性服务业的重要细分领域,数据标注是如何为AI“喂料”的?未来呈现怎样的发展趋势?近日,记者对此进行了走访。
临近傍晚,成都与睿创新科技有限公司的参观者依然络绎不绝。该企业推出一款智能外科系统,通过搭载自研的外科手术大模型,能够实时监测、追踪出血点等术中关键信息,辅助医生及时止血,有效降低手术风险。
新装备的出现,像是为外科手术装上了一套“智驾系统”。“练就这双‘智慧眼’,起点是数据标注。”公司首席算法科学家秦典说,要让AI读懂复杂的外科手术,必须从理解外科手术信息做起。
这就涉及AI训练的原理。其逻辑与人识别物体的过程高度相似:先通过人工在手术图片上标注关键特征信息,再将海量标注后的数据输入模型开展学习训练。经过足量数据与周期训练后,AI便具备了一定准确率的基础识别能力,能分辨出画面中的物体是什么;而随着标注的手术样本、场景类型不断丰富,AI的辨识准确率也会随之迭代提升。
“好比AI在学习过海量不同种类的犬只数据后,即使遇到从未见过的犬类,也能做出准确判断。”秦典形象解释了人工智能需要大量数据集支撑的核心逻辑。
教会AI辨认外科手术信息,难度显然呈指数级提升。成都与睿创新科技和国内多家知名医院开展合作,组织团队累计标注了数百万张医学影像:大到人体器官,小到针尖大的出血点,从各类关键管道,如泌尿系统的肾动脉、肾静脉、输尿管,到手术刀、镊子等手术器械,全都标注得清清楚楚。正是这些海量的学习素材,让外科手术大模型变得越来越聪明。自2025年产品上市以来,已在全国超过110家医院完成部署应用,累计辅助手术量超2.5万台。
类似的标注故事,也在四川多个城市上演。可能许多人没有料到,智能驾驶背后有着来自“千年盐都”自贡的“投喂”。2023年7月,百度阿波罗智行(西南)人工智能基础数据产业基地投入使用,短短两年间,腾讯云、火山引擎等头部企业相继落户。这里的数据标注,为全国车道级导航、无人驾驶等人工智能应用提供“原料”,创造出超亿元的年产值。
成都与睿创新科技的“睿术外科高质量数据集”,入选四川省首批人工智能高质量数据集。有意思的是,首批8个数据集均产自成都。
数据标注将原始数据转化为可识别、可训练、可计算的“语言”,没有标注就没有高质量的数据集,成都已被纳入全国首批数据标注基地建设试点。两年来,成都市在成都高新区、金牛区、新津区等地建设数据标注基地,建设储备88个行业高质量数据集。
以新津牧山园区为例,产业载体入驻率接近90%,服务对象包括中国电信、字节跳动、百度、京东、比亚迪等,覆盖智能驾驶、大模型、金融、医疗、低空经济等多个领域。
据省发展改革委(省数据局)介绍,目前全省数据标注从业人员达1.4万人,数据标注规模9420TB,相当于国家图书馆数字资源总量的3倍左右,产业规模达9亿元。
这不只是成都一个城市的贡献。我省支持宜宾、内江、自贡、遂宁四市以数据赋能人工智能发展为重点,布局建设首批省级数据标注基地。
内江市汉安大道一侧,人工智能和服务外包产业园内,随处可见朝气蓬勃的年轻面孔。内江软通动力数字运营有限公司、知道创宇信息技术有限公司等企业依托内容审核业务,切入数据标注赛道,根据合作平台要求,对商家上传的短视频等内容进行分类打标签,其标注结果决定了内容能否进入平台推荐池、触达更多用户。
“结合本地特色优势产业发展实际,我们的数据标注正朝着服务医疗健康方向发展。”内江市大数据中心主任、市发展改革委副主任范铁夫说,该市已建立起覆盖文本、语音、图像、视频的全模态数据生产流水线,园区内企业业务饱和度高,目前还有19个重点标注项目在谈,其中6个落地意向明确。
实际上,四川对省级数据标注基地进行了差异化定位:宜宾聚焦白酒、交通等领域,建设“车路云一体化”创新应用示范区;内江聚焦农业、医疗等领域,打造一核两园数据标注基地;自贡聚焦文旅、交通等领域,打造“1+3+N”数据标注基地空间布局;遂宁聚焦电子信息、医疗等领域,构建覆盖“数据标注数据治理数据应用”的数据要素全产业链集聚区。通过一系列举措,打造各具地方特色的省级基地,并逐步发挥示范带动效应,助力全省数据标注产业加速发展。
数据标注是劳动密集型产业?以前这个特征很明显,但未来未必如此。今年4月9日,路米科技(成都)有限公司在成都市国家数据标注基地产业发布大会上,发布“数米数据标注开源平台”。该企业自研的智能标注平台,支持50余种复杂场景,使得标注效率较纯人工提升了20%至50%。
服务于人工智能的数据标注,如今迎来了人工智能的技术反哺。从“帮AI搬砖”到“研发让搬砖更高效的AI”,智能标注已成为行业公认的未来发展方向。
去年4月,成都中医药大学“AI数据标注助力中医药领域高质量发展”入选全国首批数据标注优秀案例。该案例通过建设120种优势病种、1000个亚种数据集,收录100多名老中医临床病案,形成涵盖诊疗全链条的标准化数据资源体系。在数据标注时,就开发了智能化标注平台,实现“机器+人工”高效标注,数据交付准确率达98%。
很多人觉得数据标注就是“拉框打字”的体力活,其实这个行业的门槛正在快速提升,尤其是在垂直领域,对从业者的要求越来越高。范铁夫说,信息安全、智能驾驶辅助、AI大模型内容审核等领域的标注就是高门槛,“已不是人们印象中的简单重复劳动,而是知识和技术密集型服务。”
秦典的体会更深:“没有医学知识的人,难以标注医学影像。”经过6年沉淀,成都与睿创新科技依托临床及与外科医生协作,打造了专属标注工具和培训流程,50人的团队曾一个月完成40万张外科手术解剖结构标注,有力支撑了AI外科系统功能研发。
总体看,数据标注员以年轻人为主。在内江人工智能和服务外包产业园,30岁以下从业人员占比达83%。这就提出了另外一个命题,如何留住人?
“待遇留人是基础,环境留人是关键。”内江市东兴区服务外包发展中心副主任廖常磊表示,园区着力打造高品质职场环境,一站式满足从业者食住行游娱购需求,常态化组织各类文体活动,为从业者打造追逐梦想、实现价值的理想家园。
2026-04-23 12:33:37
浏览次数:
次
返回列表