此次流行语发布是北京语言大学“报纸流行语跟踪研究”课题的最新阶段性研究成果。
据北京语言大学专家介绍,“报纸流行语跟踪研究”课题是国家语委“十五”规划项目之一。该课题是借助大规模动态流通语料库以及计算机技术手段和必要的人工干预,对数以亿计的语料进行大规模定量和定性的统计分析,考察流
行语在时间和空间上的分布状况,动态跟踪流行语的产生及传播过程,使流行语的研究具备了科学性。借助报刊动态流通语料库,使流行语的发布进入持续、滚动的新轨道。这一探究对于汉语报刊词汇、新词语及汉语词汇学的进一步研究有重要意义。 在2003年春夏主流报纸流行语评选前,北京语言大学、中国新闻技术工作者联合会、中国中文信息学会,曾在今年1月6日联合发布了2002年中国主流报纸十大流行语:世界杯、短信、降息、三个代表、反恐、数字影像、姚明、车市、CDMA。该评选结果是在15种主流报纸约5亿语料基础上统计得出的。
2002年主流报纸流行语发布在海内外引起巨大反响。先后有国内数十家报纸、2000多个网页刊登或转载有关报道。这种反响还波及国外媒体,俄罗斯《消息报》1月16日发表署名文章指出:“《人民日报》刊登了国家15家大报2002年最流行的词语,说明经济改革20多年来,中国人特别是城里人的思想发生了深刻变化。”―――“海内外媒体热烈反馈说明,中国自己的流行语统计分析研究,已经引起国内外的重视。”张普教授称。
专家认为,此次2003年春夏季主流报纸十大流行语具备的新特点是:发布的周期缩短,从一年发布一次到现在6个月发布一次;发布领域深化,2002年只发布了一项全年的综合性十大流行语,这次发布的是四项十大流行语,除继续发布一项综合性十大流行语外,又增加了一项经济类十大流行语,还针对今年春夏季的特色,增加了“非典专题”和“伊拉克战争专题”。
而在筛选与确定中,还考虑了相关因素:1.词语的频次统计。所有出现在14种主流报纸的词语都有出现频次,该频次反映这个词在主流报纸相关领域的使用情况。如:“非典”在整个语料中出现了146428次,“疫情”出现了28218次。2.词语的散布统计。所有出现在14种主流报纸的词语都有文本的散布数,如:“非典”在5月出现了78523次,散布在14602个文本中。“疫情”在5月出现了13765次,散布在5543个文本中。3.流行语的变化曲线筛选脚本。跟2002年相比,流行语的筛选考虑了更多的限制因素,包括流行语的起点、峰值与谷值的落差、流行高峰持续期等,以及统计属性的历时变化特点,从而使筛选过程更加精密化。如:“非典”自4月以来,在14家主流报纸中一直延续了三个多月,在5月达到高峰,之后平稳下降。
利用语言信息处理技术对词语的频次、散布情况进行科学量化后,课题组对上半年度报纸流行语进行动态跟踪与筛选,得出流行语走势曲线图,通过分析流行语的曲线类型及相关向量,由计算机提取候选流行语,最后确定十大流行语作为结果发布。这使得本次流行语提取的科学性得到进一步提高。