首页 > it > > > 正文
海口秀英区与百度智能云联姻 打造大模型数据标注基地

来源:科技日报     时间:2023-08-29 09:37:32


(资料图)

8月27日,记者从海南省海口市秀英区政府获悉,百度智能云(海口)人工智能基础数据产业基地落地秀英区并正式启动运营,这是百度智能云与海口市政府合作共建的国内首个大模型数据标注中心,未来将为各行各业提供大模型数据服务。

海口市秀英区委常委、常务副区长石晟屹表示,海口人工智能技术数据产业基地的落成,最大价值是在人才集约、产业集聚等方面有重要引领作用。目前,基地已经带动近千名大学生就业,对培育本地的数字经济人才作出突出贡献。

据介绍,当前大模型正处在产业落地前期,高质量的数据是大模型实现产业化的关键要素。对于以文心一言等为代表的生成式AI,海量的数据训练、人工标注、指令微调、基于人类反馈的强化学习(RLHF),可以让大模型与人类价值观、思维方式不断对齐,使大模型更加可用。

当记者走进海口数据标注基地看到,数百名大模型标注师正在借助数据标注平台熟练地对大模型生成的内容数据进行打分、排序。大模型数据标注师董志焕介绍:“我们的主要工作就是对大模型生成的内容进行评价、反馈,通过这些人工标注数据,让大模型学习人类的思维方式,从而使大模型更加聪明。”

百度智能云数据标注基地业务产品负责人胡驰表示,为提高数据标注的质量和效率,百度智能云自主研发了业内领先的大模型数据标注平台,支持从大模型微调、强化学习到模型评估的数据生产闭环。结合平台独有的人机协同标注、多轮智能审核等智能化工具,可大幅提升数据标注的产能和质量,同时帮助企业实现降本增效。

为保障数据标注质量,百度智能云还搭建了全流程数据服务人才梯队。海口数据标注基地现拥有数百名专职大模型数据标注师,标注师的本科率达到100%。

“和传统的数据标注师要求不同,大模型标注师都需要本科以上学历,我觉得主要是因为大模型数据涉及的知识面很广,评判标准复杂,非常考验标注师的语言理解能力和逻辑推理能力。在入职前两个月,公司会对我们进行集体培训和考核,通过考核后才能正式上岗。”百度智能云大模型数据标注师王洁玉说。

“大模型标注基地重点要评估三大指标:高效标注工具、高端人才梯队、高级别数据安全,只有三管齐下,才能为大模型提供好的数据。”胡驰说。

优秀的大模型需要具备三大要素:大数据、大算力、好的学习机制。据悉,为了进一步推动大模型的产业化落地,百度智能云和各地政府已经建成了多个“智能新基建”项目。除了落地十余个数据标注基地,解决大数据问题之外,百度智能云还在阳泉、福州、天津等地建设多个智算中心,解决算力问题。

记者还了解到,百度智能云将在9月全面升级大模型服务。8月,百度智能云宣布,千帆大模型平台升级,接入包括文心一言、Llama 2全系列、ChatGLM2-6B等在内的33个国内外最主流的大模型,成为国内拥有大模型最多的平台。

标签:

精彩放送