Twitter 是一个伟大的社交与分享网站。现在研究人员也更多的利用 Twitter 对人类之间的相互作用进行研究。不过,这个课题听起来容易做起来难,尤其是隐私设置以及访问权限问题将会限制科研人员从社交网站上搜集研究数据。
但是,如果搭建一个虚拟的 Twitter,向它那样提供140字的短消息服务,那么就会方便很多了。现在,来自西班牙电信公司研究院的 Vijay Erramilli 就和她的同事一起搭建了这么一个网站。
Social Network Write Generator(SONG)高度模拟真实的 Twitter 用户生成数据。在2008年11月25日到12月4日期间,这个团队模拟出了240万个用户发出的1200万条微博。他们删除了75%的用户,这些用户在19天的时间里一条微博也没有发送,此外他们还通过考察微博跟随者比例,剔除了另一部分垃圾用户,最终得到了一个大约有35万用户的数据库。
通过分析这些用户的数据,SONG 研究团队得出了一系列结果。他们发现,大多数微博用户在白天发表微博较多,而到夜间则基本不发表微博。尽管发表微博的数量会有些波动,但是分时段的微博数量都是可以预测的。
研究员们还发现,每个人发表两篇微博之间的时间间隔分布,以及从微博发烧友到潜水用户的用户热忱度分布,都符合标准对数正态分布。
为了 SONG 中的这些结果,Erramilli 和他的同时使用了一个由16台计算机组成的局域网来运行他们自己的的一个 Twitter。随着每秒钟微博数目的不断增多,他们发现CPU负荷在逐渐加重。每秒钟超过100条微博时,网络速度会变慢。当增加到每秒钟150条时候,网络就会彻底瘫痪。由此可以推断,Twitter 至少拥有16台计算机。
研究员们表示,他们通过对 SONG 的概念论证可以较为精确的符合 Twitter 的情况,尽管更加强大的硬件支持会得出更加接近真实的结论。研究团队计划公开他们的 SONG 源代码,方便其他研究团队搭建虚拟的 Twitter 服务,并进一步对高负载下的情况进行假设分析,比如话题的趋势分析以及在特定地区爆发增长等问题的研究。
原文信息
标题:Virtual Twitter to help researchers mimic the real thing
作者:Jacob Aron
链接:http://www.newscientist.com/blogs/onepercent/2011/02/twitter-is-great-for-making.html
文章信息
标题:研究员利用虚拟微博探讨真实的社交网络
链接:https://www.xiatian.name/archives/4837
声明:本文为【Xiatian.Name】翻译(或原创),请勿转载。
就喜欢看这种硬核的事件。