大数据抓谣言家！ - 新创校友基金会

基于社交痕迹算法与深度网络搜索技术，通过用户网络行为画像锁定造谣者的算法研究与实践

被人网络抹黑咋办？我的回答是看论文，做实验，写论文。你觉得我是脑子进水，对吧？

本文作者是中国科大新创校友基金会负责人，在新创被抹黑之后。我的选择是回去拜读数据挖掘专家熊辉教授的KDD2016英文论文《Catch Me If You Can: Detecting Pickpocket Suspects from Large-Scale Transit Records》），然后整理数据，做实验，写算法和论文，因为我是理科书呆子。

网络误导背景：从质疑到抹黑

C某（网名水木清华BBS网名cabcdefg；中国科大瀚海星云网名bcdefg）。2016年11月后回国任中国某大学某学院教工[引文1]。

2016年10月11日，水木社区cabcdefg在中国科大版发表大量批评新创基金会言论。10月20日之后，bcdefg在瀚海星云科大发展版发表大量批评言论（并刻意忽略新创基金会在前者已有的公开回应），误导网友，新创基金会涉及非法募捐。主要言论为“新创根本就是在非法募捐”（新创不具备公开募捐的资格，因此在BBS等公开媒介上的募捐是非法的）、 “带着真实姓名的诈骗短信一个性质 ”“郭奖等管理费用超过20%”“这样的基金会和贪污犯有什么区别？ ”“他们在财务上也有违法行为”、“还有违法操作、黑箱账务的新创，也够抹黑科大的了”、 “实际上是教育基金会每年向新创输送大量资金，而不是反过来。”“但每年单独这项的管理费常常超过20％是怎么回事？ ” “按比例来算，新创的运营成本比红会高哦”“实际上如果没有教育基金会每年输血，新创根本运行不下去”“如果不算教育基金会转账给新创的钱，新创账户收到的捐款里面大约有三分之一被用于工资与行政支出了”“新创就是一个字——黑！”

12月3日起，多个微信群出现批评，本文作者注意到当天引述的失实信息，完全利用了C某的谣言。典型手段是新创基金会在一个微信群回应，之后立即转下一微信群，只字不提已做公开澄清，误导新创校友基金会存在财务黑洞与募捐资格非法。

缘起：为什么做研究？

我们曾认为在12月3日之后，不实指责已在新创基金会公开澄清后消失。但12月9日，8516校友章晓斌（2007年即通过新创基金会捐赠母校）致电询问为何有私下微信批评，包括财务与募捐资质问题。作为捐赠人，他询问：新创基金会为何不回应？本文作者感到沮丧，意识到抹黑从未停息，决定通过社交痕迹分析等技术，寻找谣言家。

本文作者12月10日提出一种基于社交网络痕迹与网络搜索技术，通过用户网络行为画像分析锁定造谣者身份的算法。本文当天完成之后，立即在当天将算法应用到新创基金会近期的被抹黑的实践中，判定C某为10月11日起的网络误导从质疑到抹黑言论的始作俑者。本文作者推断判定有超过95%可信度。12月10日，新创基金会（含法律事务顾问）致电其单位负责人。C某已对其言论供认不讳，已向新创基金会（含法律事务顾问）发出《致歉信》承认“言论是非常鲁莽和错误的”，并称愿配合律师工作，愿道歉并消除影响。C某的自供验证了基于社交痕迹与网络搜索技术，通过勾勒用户网络行为画像分析技术判定谣言制造者的算法初步有效性。

造谣者网络行为画像：C某个人简介

本文作者通过基于社交痕迹算法与深度网络搜索技术，迅速判定谣言始作俑者的真实身份、生日、毕业中学、大学本科（名校T大学）、博士大学（中国科大某学院某研究室）、所有中英文论文发表迅速、Email账号、博士后大学研究室。我们甚至可通过公开信息判定其个人爱好，极为热爱足球，在瀚海星云足球版发表过近百篇贴文。

造谣者网络行为画像可精确还原其信息为：C某2003年从某中学考入T大学环境工程专业，2008-2013年在中国科大某学院某研究室攻读博士生。2013年前往某洲某国某大学从事博士后研究；2016年11月转任中国某大学某学院某实验室室教工。C某个人信息综合参考文献[1]、[2]。

社交痕迹与网络搜索推断始作俑者的算法与应用

12月起，中国科大新创校友基金会（简称：新创基金会）注意到cabcdefg等人涉嫌断章取义，误导水木网友新创基金会非法集资的言论之后，且有意忽略新创基金会的多次公开澄清，删减事实，以相近ID在瀚海星云继续误导网友。

新创基金会通过社交网络痕迹与Google等网络搜索等公开技术手段，判定中国科大某学院某实验室C某为当事人。推断逻辑过程如下：

1）Google搜索发现Facebook网站https://www.facebook.com/cabcdefg，判定其姓名为[C某英文拼音]。该网页清晰说明，C某英文拼音（cabcdefg）曾就就读于中国科大环境科学专业与T大学，毕业于某中学。生日为198X年X月2X日。

2）cabcdefg高度相似网名bcdefg在瀚海星云多次发帖。该网名最初不区分大小写是bcdefg，曾在瀚海星云“申请整容”，修改为区分大小写的bcdefg。其唯一活跃的院系版面为E（某学院版面），系版发帖22篇。bcdefg曾在瀚海星云2008年注册，自称2010年转博。

3) cabcdefg首次发帖批评新创基金会时间为10月11日即某国感恩节之后，批评“带着真实姓名的诈骗短信一个性质”。新创基金会曾在某国感恩节10月10日前夕发信向留加校友祝贺节日并劝募。该网友在水木社区发帖显示本人在某国留学。且在“*之国”版面活跃（引文[6]）

该时段新创基金会只向某国校友发出信件，某学院校友不超10名。由于其中至少8位为77-85级校友，其离校时间等分析均不存在BBS账号的可能。其余2位该学院年轻校友曾数次捐赠并与新创基金会联络商讨发起某国城市校友会，不可能在网络批评新创基金会非法募捐。

4）cabcdefg的新浪微博网名同样为：http://weibo.com/cabcdefg，且在2014-2015年多次发帖自称在加拿大[引文3]

综上所述，用户网络行为画像与中国科大某实验室C某博士信息高度一致，我们推断C某博士为始作俑者，应对以上事件负责。C某刻意误导中国科大网友，并在新创基金会多次澄清，回应得到网友肯定之后，仍继续在瀚海星云继续抹黑言论，已对中国科大（包括某学院）争取校友捐赠的造成重大损害。

结论：算法的有效性实证：

12月10日上午与晚间，新创基金会（含法律事务顾问）致电其单位负责人。出人意料的是，在网络表现鲁莽的C某对其言论供认不讳，立即向新创基金会（含法律事务顾问）发出《致歉信》承认“言论是非常鲁莽和错误的”，并称愿配合律师工作，愿道歉并消除影响。C某的自供验证了基于社交痕迹与网络搜索技术，通过勾勒用户网络行为画像分析技术判定谣言制造者的算法初步有效性。

本文作者期望中国科学技术大学某学院C某正视本文事实，本着与人为善态度，新创基金会将要求其以网名道歉，可考虑不透露其真实姓名与单位信息（尽管其所有个人信息，均可从其网络舆论通过本文算法公开获取）。如拒绝配合，本文作者已完成50页调查报告，保留追究进一步责任的权利。

参考文献：

[1] C某LinkedIn状态，https://www.linkedin.com/in/....

[2] 中国科学技术大学某研究室人员介绍：http://....ustc.edu.cn/cn/....htm

[3] 新浪微博痕迹分析：http://weibo.com/cabcdefg （包含两条其在某国留学甚至何时回国转机的微博）

[4] 中国科大瀚海星云BBS：申请整容http://bbs3.ustc.edu.cn/....

[5] Facebook网站同名ID：https://www.facebook.com/cabcdefg

[6] 水木社区*之国版面：https://www.ezsmth.com 多个帖子。

[7]KDD-2016 paper: Catch Me If You Can: Detecting Pickpocket Suspects from Large-Scale Transit Records, by Bowen Du, Beihang U.; Chuanren Liu, Drexel U.; Wenjun Zhou, U of Tennessee; Hui Xiong, Rutgers, in proceedings of KDD 2016, 22nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining, San Francisco, Aug 13-17, 2016. 作者包括熊辉（9010）、周文君（0015）、刘传仁（0401）

[8]对话“大数据抓小偷”研究者：提高精准度依靠更多数据，http://news.sina.com.cn/c/2016-09-12/doc-ifxvukuq4273682.shtml

基于惩前毖后，治病救人的原文，新创基金会与人为善，隐去C某所有相关个人信息，本文提及所有“某”信息均已精确锁定。下不为例！言论自由并非不边界！

调查机构与作者：中国科学技术大学新创校友基金会研究部刘志峰（9500），完稿于2016年12月10日。

2016-12-11