全文 《网络不规范用字用词现象研究报告》发布

由澎湃新闻牵头发起,上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司和上海蜜度信息技术有限公司联合共建的数字内容生态实验室 , 今日发布《网络不规范用字用词现象研究报告》,全文如下:
汉字是中华民族的文化瑰宝 , 是中华文化的重要组成部分 。在互联网成为公众主要表达平台的当下,网络不规范用字(词)现象越发凸显,在引发交流障碍的同时 , 对汉字文化传承造成负面影响 。重视互联网平台语言使用,纠正网络不规范字词现象,促成使用规范字、维护汉字文化的社会氛围,对于与时俱进守护汉字文化、坚定文化自信有重要意义 。
数字内容生态实验室
2 不规范字词使用现状
根据数据库信息,按照不规范字(词)出现频次,整理互联网平台出错较多的错别字,并在括号中标注正确写法,易错前20名分别依次是:帐(账)号、米(美)国、莲(连)花清瘟、姡悖⒆ㄗ┞洹⒙荆▌郏┝ν摹⒑孟螅ㄏ瘢纾ǔ觯](没)、內(内)、彷(仿)佛、愛(爱)、台帐(账)、架式(势)、按耐(捺)不住、颤(战)栗、过份(分)、來(来)、笔划(画)、線(线) 。
表1 TOP20不规范字词
图1 高频不规范字词统计
常见错误是互联网上主要出现的不规范用字(词)形式,在TOP20高频不规范词中占9项 。常见错误中帐(账)号、莲(连)花清瘟等属于误用形近别字 , 颤(战)栗、架式(势)等属于误用读音相近的字 。另外,互联网上还存在为表达其他含意故意使用不规范字的情况,如“米(美)国”来源于网友模仿日本对美国的称呼,该类特殊用法目前在网络平台上已具有一定流传度 。
异形词、繁体字各有5项出现 。异形词因音、义均相同 , 曾经都被广泛使用,虽然经《异形词整理表》确定规范用法,但因宣传不足,公众依然延续旧有的使用习惯,具有易错性 。TOP20中繁体字中岀(出)、沒(没)等与正确用字的字形非常相近,在快速输入或手机等小屏幕输入场景中易混淆;姡悖郏ò┑仁粲诮昀椿チ铣<梅?nbsp;, 被部分网友故意用于表达个性,因此出现频率较高 。
按照错误类型统计,常见错误是出现频率最高的类型 , 占比超过六成;繁体字也是较常出现的错误类型,占比达到20%;异体字、异形词出现相对较少,因异形词、异体字可将规范文件纳入输入法数据库,通过选词推荐等技术手段减少误用 。相较而言,形近字、形近词错选等常见错误以及公众主观通过错用体现个性的情况更易发生,且可能通过输入法记忆功能固化错误选择 , 成为网络不规范字词出现的主要原因 。
图2 不规范字词分类统计
3 不规范字词来源分析
对各条不规范字词的来源数据进行采集,共分为7类,具体范围如表2,对不同来源中不规范字词的出现频率及特征进行对比分析 。
表2 不规范字词来源分类与数量
各来源出现不规范字词的万字错误率平均为0.192/10000 。对比不同来源出现频率 , 数字报错误率最低,仅为0.129/10000,延续媒体对内容严谨性的要求 。视频平台错误率最高,达到0.615/10000 。微博平台错误率低于平均 , 因内容篇幅短,且内容风格更加生活化 , 相较其他平台产生错别字的概率较低 。客户端、网站、微信
图3 不规范字词来源错误频率
对比不同来源不规范字词的错误类型 。互动论坛、微博作为互动性渠道 , 在常见错误外,其他三类错误也超过45%,体现互动性平台语言表达的多元性;繁体字、异体字的频率占比高于其他渠道内容,因互动平台内容更具个性,网友倾向于采用繁体字、异体字表现独特个性 。数字报中使用繁体字的占比相比其他渠道低,体现了书籍报刊简化字使用要求在数字媒体时代的延续 。视频、微信渠道内容异体字使用占比低于其他,因异体字字形复杂,对于视频观看、微信
图4 不规范字词来源中错误类型占比
统计不同来源内容中四类不规范字词的TOP10 。在互动论坛,因字音字形相近导致的常见错误和繁体字误用问题较为突出,如帐(账)号、岀(出)、沒(没)等字词在字号小、书写及阅读速度快时容易混淆 。
表3 互动论坛不规范字词TOP10
微博中不规范用词中口语化、个性化风格明显 , 姡悖郏ò⒚祝溃┕茸执示粲谕缌餍杏?。因其流行性,在出现不规范用字现象后,如不能及时纠正,会导致更加广泛的影响,形成用错字、用繁体的错误风气 。
表4 微博不规范字词TOP10
数字报、客户端作为专业内容生产平台,在内容和常见不规范字词中表现出不同特征 。数字报用词更加书面化 , 除电光火石(石火)等个别知识性错误,其余错误以因字形或字音一致且字义相近导致的误用,错误频次较其他渠道低;数字报渠道没有出现其他渠道高频错误“莲(连)花清瘟”,体现数字报作为媒体的专业性 。客户端中出现频率较高的常见错误既有微博特征,也有数字报特征,错误频率相较数字报高 , 体现了客户端专业主体和多来源主体相结合的内容生产特征 。微信在内容风格方面兼具数字报和客户端的特征 , 符合微信平台发布者与读者群广泛的特征 。同时数字报、客户端、微信渠道误用的异形词重合度大 , 且主要是书面表达中具有文学色彩的词,显示出当前在文学词语规范使用普及中存在短板 。
表 5 数字报不规范字词TOP10
表6 客户端不规范字词TOP10
表7 微信不规范字词TOP10
网站渠道不规范字词出现频率高,异体字、异形词错用也有较高频次;不规范用词类型较多,既包含书面语、口语的常见误用,也存在谐音字的故意误用 。异体字、繁体字使用增多可能与网站多元内容主题有关,也与网站分类中包含境外网站有关,侧面反映了复杂多元的互联网场景中规范字词面临的挑战 。
表8 网站不规范字词TOP10
视频作为以影像、声音为主的复合信息载体,是目前受众最广泛的信息传播手段 。为获取流量 , 机构创
图5 营销号在视频及标题中滥用繁体字吸引观众注意
图6 个人用户在视频标题中使用繁体字表现个性
表9 视频不规范字词TOP10
三、 网络不规范字词成因分析
互联网不规范字词现象应当引发全社会
3 网络个性化表达助推不规范用字用词风气
网络环境相对宽松自由的氛围塑造了网络上的个性化表达,部分网友或通过谐音字词使用增加表意的丰富性,或通过谐音梗等方式展现自身的独特个性,在一定程度上形成反传统 , 追求新、奇、特的网络语言风格;部分网友为借助互联网部分匿名的属性,通过歪曲汉字形、音、义,表达调侃、戏谑、讽刺的情感,或发布违反公序良俗的信息,实际上造成了对汉字规范使用、汉语语法规则的破坏 , 污染互联网语言环境 。
图7 在网络平台通过不规范用字表达讽刺情感
图8 在网络平台通过不规范用字(词)传递不良信息
在互联网的广泛传播下,不当的语言使用易形成错误风气,导致网友的模仿行为,消解大众对于汉字的严肃认识,甚至蔓延到书面语场景中,造成语言的粗俗化倾向 。不规范用字还有引发争议的风险 , 如2022年与明星相关的热搜词条出现不规范用字,引发网友对于明星通过故意误用回避讨论的批评,以及对内容平台整顿不规范用字做法的质疑 , 造成舆情风险 。
图9 网友对明星及内容平台的质疑
4 专业内容平台示范作用有待进一步发挥
语言对现实社会有迅速、直接的反映,社会事件、舆论风向的变化体现在语言中,造就了一批又一批新的词语和词义 。在新的字词及用法出现时,政府、媒体等专业内容发布者应对新词的用法进行考证,面向全社会宣传正确用法 。在本次采集的数据中,数字报作为专业内容平台,是唯一没有在TOP10常见错误中出现“莲(连)花清瘟”误用的渠道,但在扩大公众重视、发挥辐射带动作用方面还有进步空间 。对于文学性较强的词语,专业内容平台应发挥自身优势 , 及时自查、规范使用 , 引导公众正确用词 。数字报平台中较高频误用的“电光火石(石火)”属于具有一定使用门槛的书面词,出现误用后将为公众造成错误示范,在后续工作中应当引起重视 。
四、 互联网汉字规范使用引导措施
1 重视技术作用,推广用字用词规范
以输入法技术优化促进汉字规范使用是减少网络不规范字词最直接的方式之一 。受技术限制,过往输入法仅通过正在输入的拼音等信息进行字词推荐 。结合人工智能语言模型等前沿技术优化输入法功能,实现结合上下文语境推荐选词,提高选词准确性 。在内容发布平台引入智能不规范字词监测工具,优化文本内容检查功能,如微信公众平台的疑似错别字自动检测 , 以及澎湃清穹内容风控智能平台、铀媒等专业的内容校对及管理工具,协助内容发布者正确规范用字用词,形成互联网正确使用字词的氛围;推广针对不同文体、主题的不规范字词检查工具,以技术手段促进汉字文化传承 。
2 发挥政府、媒体正向影响力,做好主流引导示范
在互联网时代,网络平台已经成为政府、媒体发声的重要渠道 。公众对于政府及媒体权威性、专业性的信任赋予政府、媒体等专业机构在语言文字规范使用上更大的责任 。用好网络传播渠道,以身作则保障发布内容中字词使用的规范性;强化内容管理与监督,对错别字出现较多、语言使用不规范的政府、媒体发布平台进行整改,形成严格有力的纠错机制;引导公众的规范用字意识,发挥平台影响力 , 开展贴近生活、形式多样的语言纠错活动,引导公众在积极参与中树立正确规范的用字用词意识,形成自觉维护汉字规范的社会氛围 。
3 内容平台发起倡议,形成规范用字氛围
内容平台是面向公众的互联网内容运营主体,平台应主动承担规范内容的责任,营造规范用字、文明交流的社区氛围 。开展专项行动提高公众对于不规范字词现象的认识,如针对传播范围广、高影响力账号发布内容中的不规范字词进行集中公示 , 普及汉字规范用法及常见错误 , 发起正确规范使用汉字的倡议,帮助公众了解汉字规范用法 。重视内容监管,打击不规范字词表象下违反公序良俗的行为,对滥用谐音、拆字表达恶意信息的现象采取针对性措施,防止不良风气的传播,营造清朗的网络空间 。
4 开展专项监测,支撑语言规范推广
互联网不规范字词现象类型多样、成因复杂 。受互联网信息量大、传播速度快、传播范围广等特征的影响,新的错别字、错别词快速涌现,对推广规范用法造成困难 。在人工智能技术参与下,对互联网内容进行大范围采集,分析常见不规范用法呈现的规律及背后的原因,可以为确定责任主体、明确措施方向提供有力支撑 。组建负责互联网内容监管的技术平台,发挥技术在语言文字规范治理中的作用,响应互联网时代对智慧治理的要求,形成规范语言文字使用的合力 。
五、 互联网语言规范监管平台工作建议
为促进语言文字规范使用 , 营造尊重汉字、尊重文化的正向氛围,针对互联网不规范字词使用现状,结合互联网平台信息传播特征,建议由互联网信息监管部门牵头,联合主流媒体、内容平台、专业技术机构,成立网络语言生态联合体 。开发互联网内容规范监管技术平台,对互联网内容进行持续采集监测;研究确立科学的监测指标体系,进行数据挖掘、阶段性对比分析;定期发布监测研究成果,总结不规范字词成因及公众在互联网平台的语言习惯,聚焦纠错堵点 , 寻找有力抓手,提出具有针对性、可行性的规范用字对策建议 。
平台工作成果建议以多种形式发布,面向政府提交内容监测报告,以客观翔实的研究为政府制定政策措施提供支撑;面向媒体等专业内容生产者发布参考报告,帮助媒体提高规范用字能力,明确引导公众规范用字的工作重点,推动媒体参与规范用字推广工作,根据媒体具体需求可酌情提供脱敏后的监测数据用于参考;面向公众发布易错词榜单,普及正确规范用字知识,帮助公众提升用字水平,营造规范使用汉字的社会氛围 。
六、 关于数字内容生态实验室
数字内容生态实验室由澎湃新闻牵头发起 , 上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司和上海蜜度信息技术有限公司联合共建,旨在打造集产学研用于一体的数字内容安全与治理研究服务机构,开展内容生态演变机理及其调控对策机制研究 , 为数字内容生态创新与治理提供智力支持、技术支撑和决策参考 。
澎湃新闻是以原创新闻为主的全媒体新闻资讯平台 , 拥有互联网新闻信息服务一类资质 , 其自主研发的“清穹”内容风控智能平台,为内容生态领域的平台方、生产方、管理方、从业者等,提供以涉政安全服务为特色的、“人工+智能+制度”的内容安全解决方案 。
上海人工智能研究院是由上海交通大学、上海闵行区人民政府、临港集团、商汤科技等共同投资组建的新型研发机构,承担上海市人工智能研发与转化培育建设任务,重点开展人工智能领域基础与核心技术研发、关键与共性技术应用、成果转化与人才培养等工作 。
上海市信息安全测评认证中心是上海市重要网络安全功能性机构,以建设“国内一流安全测评服务机构”为目标定位,专门从事信息技术产品和系统安全测评、网络安全等级保护测评,密码应用安全性评估、数据安全风险评估、新技术新应用安全评估等业务,在国内首创“一个平台、资源共享、多方授权、服务各方”的集约化测评服务模式 。
【全文 《网络不规范用字用词现象研究报告》发布】上海新华传媒连锁有限公司系我国出版发行业第一家上市公司上海新华传媒股份有限公司的全资子公司 。公司目前拥有零售门店近60家 , 包括新华书店、上海书城、教材书店等一批在读者中享有盛誉的著名品牌,也先后推出了玛德琳童书馆、南村映雪、1925书局等全新品牌特色书店 。
上海蜜度信息技术有限公司是以人工智能技术为核心的国家高新技术企业,专注于跨模态信息检索和智能校对应用,为政府和企业各类办公场景提供数据智能应用软件 。
以上就是朝夕生活(www.30zx.com)关于“《网络不规范用字用词现象研究报告》(全文)发布”的详细内容 , 希望对大家有所帮助!

猜你喜欢