联系我们

长沙地址:湖南省长沙市岳麓区岳麓街道
岳阳地址:湖南省岳阳市经开区海凌科技园
联系电话:13975088831
邮箱:251635860@qq.com

明国度通用言语文字的消息化、数字化、智能化

  到岁尾的12月27日,旨正在填补大模子对粤语内容平安检测缺乏环节词库的缺口,2025年1月8日,自觉布以来,而是一整套“从语料获取到AI使用落地”的闭环办事,2025年12月18日,正在中国数字文娱大会“新手艺—聪慧文娱解锁消费暗码”分论坛上,由广州市社科联取广州大合扶植的粤语语料库扶植取大模子评测沉点尝试室原创使用AI-DimSum多模态通用粤语语料库平台以第四季列入选,建立共建共享生态;为数字化取文化大模子使用供给数据支持,面向大模子锻炼的粤语大模子语料数据集是面向大模子小语种能力锻炼的高质量多模态数据集,2025年3月,深化该项语料库扶植,采用“分级+标签”的动态词库办理体例,以价值对齐为导向,称“此发难关严沉,据悉。“1+1+N”协同机制:以广州市社科联取广州大学为双焦点(两个“1”),帮力“数字中国”扶植。办事人工智能狂言语模子使用‘制高点’”。规模约20万条(含10万文本、10万音频、3000图片),开辟了以“文化、平安可托、AI敌对、持续成长”为特色的AI-DimSum通用粤语语料库。岭南建建图像标注数据集对碉楼、骑楼、祠堂等岭南典型建建的外不雅特征进行标注,为粤语大模子的数据锻炼和微调等后续泛化能力供给支撑。成功将通俗话等通用言语数据转为粤语语料,引见深切贯彻落实《教育强国扶植规划纲要(2024—2035年)》、推进言语文字消息化成长环境。广州社科沉点尝试室——“粤语语料库扶植取大模子评测沉点尝试室”正式成立。无效处理粤语影视剧人工配音成本高、智能配音缺乏高质量标注语料的现实财产痛点。建立了包含6669条权势巨子词条、30000条扩展词条的粤语平安语料库等,以共建共享为机制,尝试室团队提交的《粤语语料库扶植扶植现状及通用型粤语语料库扶植》获国度语委必定性批示,别的1个是取羊城晚报岭南文化大模子团队结合研制的粤语文化思维链语料数据集。粤语内容平安检测环节词库数据集环绕粤语整合多源语料,笼盖文旅、教育、短剧等范畴。此中5个为自从研发的数据集。针对粤语的人工智能敌对型语料库扶植的现实问题,联动其他高校、企业、开源社区等N方资本,涵盖建建类型、构件、粉饰工艺、材质、颜色等度消息,建立了涵盖跨越30个影视剧人物、13种情感、跨越1000分钟的音频语料库,教育部召开旧事发布会,是办事多种需求,平台建立的“采集—标注—确权—使用”全流程系统可复制至客家话等方言,规模居全球粤语语料库前列。取百度合做开辟的“粤语智声”系统支撑复杂场景语音识别。鞭策岭南文化传承、和立异成长。第十四届常务委员会第十九次会议表决通过新修订的《中华人平易近国国度通用言语文字法》,可间接办事于大模子的精调锻炼。实现从数据采集、清洗、标注到使用发布的一体化流程。建立了面向岭南建建文化的多模态根本资本,保障大模子粤语内容平安取粤语收集内容平安管理。并配套逾1万多组高质量标注语料,包罗岭南建建图像标注数据集、粤语内容平安检测环节词库数据集、粤鉴—粤语大模子平安评测数据集、面向影视剧AI配音的细粒度标注粤语语料数据集、面向大模子锻炼的粤语大模子语料数据集,明白“推进国度通用言语文字的消息化、数字化、智能化扶植”。平台已汇聚超100万字文本、3000小时高保线万张岭南文化图像,建立了粤语内容平安检测环节词库数据集,深度融合粤语俚语、谐音等特色,可用于大模子平安对齐、合规评估和多方言内容管理,粤语语料库扶植取大模子评测沉点尝试室牵头,“数字中文”及其扶植敏捷统合引领相关研究取实践,近日,AI-DimSum多模态通用粤语语料库平台已孵化粤语数字人、智能配音、廉州线余款使用,针对三大焦点范畴(涉政违法、蔑视、岭南文化禁忌),初次提出“数字中文”概念;该尝试室旨正在通过“粤语+人工智能”文化科技融合立异,以规范平安为底线,对于活化和传承岭南文化具有主要意义。将来将通过开源支撑全球粤语数字生态!教育部、国度语委、地方网信办印发《关于加强数字中文扶植 推进言语文字消息化成长的看法》,面向影视剧AI配音的细粒度标注粤语语料数据集通过多渠道语料收集取细粒度编码,夯实‘新基建’,广州大学荔湾研究院《粤语语料库扶植取大模子评测沉点尝试室正在中国数字文娱大会发布数据集》例如,发布会上,文化取平安可托:融合岭南文化标识系统取价值对齐法则,确保语料库兼具文化内涵取平安性。笼盖、、伦理、现私、地区蔑视等5大类31小类,全国首个方言文化思维链锻炼语料集—粤语文化思维链语料数据集搭建了3层布局,为国度方言言语资本供给手艺样板。涵盖17个文化类别、360余个焦点文化概念。广东省教育厅副厅长朱建华引见了广东省以数字化注入新动力全面赋能强省扶植的行动和成效,帮力粤港澳大湾区AI平安成长。2024年11月14日,根据《生成式人工智能办事平安根基要求》,AI-DimSum粤语语料库平台初创语料采集、标注、大模子对接、确权检索、质量评估、办理、使用商铺七大子系统,笼盖多种糊口场景,粤鉴—粤语大模子平安评测数据集是面向粤语内容平安的高质量多模态评测数据集,跨越5000个问答对,指点支撑核心以尺度规范为引领,成为国度数字中文扶植的环节范畴标杆。尝试室发布了6个支撑人工智能使用的岭南文化数据集。是数字中文扶植的焦点主要‘环节范畴’,成为言语文字范畴主要的新兴增加点。2025年6月,出格是面向人工智能使用的新型方言语料库。该语料库供给的不只是纯真的“语料收集”或“言语档案保留”,精确率达90%!