热门图片
 中青在线版权与免责声明

中国青年报手机版

中国青年报手机版二维码

中国青年报-中青在线官方微信

中国青年报-中青在线官方微信平台

2014年12月25日 星期四
中青在线

学生团队用数据技术预测危害公共安全事件

本报记者 李新玲 《 中国青年报 》( 2014年12月25日   12 版)

    是否能根据媒体公开报道、网民舆论、社交平台内容等各类数据,来预测危害公共安全事件的发生和频次?答案是肯定的。“大事件报道可以触发同类小事件发生”、“通过数据收集和算法计算,可以进行预测事件发生率、预测事件发生频次”,这是上海交通大学OmniEye团队的课题成果,他们的“危害公共安全事件的关联关系挖掘及预测”课题在888支参赛团队中脱颖而出,获得了第二届大数据技术创新大赛的冠军,赢得了10万元奖金。

    第二届大数据技术创新大赛是由中国计算机学会和天津滨海新区共同主办的,在12月13日举行的第二届中国大数据技术大会上进行了颁奖。比赛题目不同于其他竞赛,主办方向全社会开放征集题目,经过大数据专家委员会遴选,选择了包括百度、海量、思明、中科云网、腾讯在内的7家企业的题目,赛题都是来自企业的实际问题。参赛的团队可根据兴趣爱好自行选择一道或多道赛题进行比赛。

    上海交通大学OmniEye团队的5个小伙伴都是开放移动网络创新实验室的成员,他们之前做过一些有关时空数据分析的课题,分析在城市中发生重大危害公共安全事故的时候,人的行为模式等。

    “这道赛题是所有题目中唯一同时可以与时间空间特征分析结合起来的题目。”陈夏明,上海交通大学通信与信息系统专业的博士生,是团队的核心人物,他认为数据分析能够解决社会问题才有意义,“这道赛题研究的是危害公共安全的事件,而分析角度是从网络新闻及微博传播。了解突发事件的这种新型传播模式,能够帮助我们更好地理解系列事件发生的内在规律,进而实现从被动处置到主动预防的公共安全事件管理模式的转变”。

    另外,团队的成员也都觉得这道赛题比较有挑战性,除了时空特征之外,可以对原始数据进行扩充,加上其他特征因素,更贴近现实的结果。

    “我们注意到,2014年7月17日至24日,北京于7天内发生6起危害公共安全事件。”陈夏明和同学在对这一时间的数据分析发现,媒体大规模报道、网民舆论是负面信息传播泛滥的温床。了解危害公共安全事件在互联网上的触发、传播机理,找到相关事件间的影响关系和共性,研究意义重大。  

    当然,在课题设计实现过程中,遇到过许多棘手问题。

    “数据的抽取、还原、分析维度的选取等。比如原始数据中的杂质。原始数据中的事件标签有较大比例的杂质。”陈夏明解释,比如对于同一危害公共安全事件的报道,不同媒体的报道方式和关注点是不同的,因此,他们提出基于语境过滤的新闻分类算法,让机器自主学习,实现新闻重新分类。

    在学生团队完成过程中,海量信息技术有限公司一直在给予的数据和平台的支持。根据海量提供的原始数据来源分类,不同的数据来源具有不同的特点,比如新闻报道偏形式化、微博则偏口语化,陈夏明和同学们采取了对新闻报道先进行聚类,提取出事件再将微博数据匹配到事件中。

    “他们针对危害公共安全方面的,提出语境过滤的新闻计算方法,提取事件核心问题表现突出。”在颁奖时,中国人民大学信息学院院长杜小勇教授对课题组给予了高度评价。

    在接受中国青年报记者采访时,杜小勇说:“学术竞赛题目出自企业才是真的题目,是企业真正的需求,力图解决真问题。”

    团队摘金获得10万元奖金后,陈夏明表示:“我们希望将此次作品的源代码、论文公开出来,放在开放数据平台上,与所有人交流。”

    海量公司董事长郝玺龙则表示,我们会让这个赛题成果继续延续下去,把这个课题做深入,让大数据预测能为更多的领域所使用。

2014:细数那些上过头条的IT事件
预测2015:智能大数据分析成热点
学生团队用数据技术预测危害公共安全事件
4G网络或将打造移动互联免费时代
网络生存这一年
2014移动全球合作伙伴大会关注产业链建设
魅族发布全新子品牌“魅蓝”
围脖一周
图片新闻