微博上6亿多次经纬度的签到数据告诉我们的!

2015-12-24作者:阿里研究院编辑:管志慧

工业革命的时代标志,是煤炭、石油、铁矿石等自然资源的大规模开发应用。人类进入互联网时代后,最开始是硬件设备的发展,比如芯片、光纤、存储。今天我们已经进入了数据互联的时代,时代的新赢家是拥有数据金矿的人。这些数据由互联网用户产生,真正的赢家要思考如何去挖掘数据中的金矿。


个人电脑互联主要靠超链组成,像搜索引擎等产品就是靠超链分析之类的算法和技术,实现个人电脑互联作用的。而移动互联网则通过“关系”来互联,这个关系和个人电脑互联网的超链是不同的。



我们日常生活中存在着很多看上去毫无关联的元素,比如:普通人、明星、专家;再比如说某些电影、公司、旅游景点、汽车,还有经常去购买的商品。作为一个普通人,我们可能会和每一个节点形成一些“关系”。这些关系存在于很多不同的层面,在线下也是能够感觉到的,但是在线下是松散的结构。通过移动互联,这样一些关系可以追踪,也可以沉淀。



新浪微博大数据就是基于这样一些关系网络形成的。数据来源不仅仅限于微博,还有新浪门户网站。新浪微博有比较强的账号体系,用户可以从很多第三方合作伙伴直接登录,因此新浪微博的数据源很多都来自更广泛的数字产品。新浪微博是移动互联网的先行者,目前为止,新浪微博在移动互联网领域占全球用户75%以上的份额,规模非常大。



新浪微博的数据应用

数据是什么?就是底层的知识图谱和兴趣图谱的组织。数据层是知识图谱加上兴趣图谱;平台层把这样一些知识图谱的数据进行组织,实现组件化的输出。在移动互联网上,这是很流行的展现形式。这样图谱的输出可以按照不同的筛选方式,比如会形成一首歌、作词编曲是谁、演唱者是谁,可以进行各种各样的排序。



平台层的输出之后可以直接扩展到各种应用,比如娱乐客户端、博客、游戏、音乐、演出,各个垂直类型应用都输出很多数据,从结构化到套件化、产品化。


微博的信息实时性非常强,流速很快。新浪微博上线以来,积累了大量的数据,这些数据都是可以挖掘的金矿。按照上面提到的数据的组织方式,加上数据挖掘的算法,可以把原始数据转化成专业的知识,再结合数据级服务的平台,实现对移动互联网产品和应用的输出。



比如《致青春》,这部电影的导演赵薇,也是微博的用户,她会以导演的身份在微博上谈论对这部电影的感受。新浪微博区别于其他平台的地方,在于有主创人员、专业影评人和演艺圈专业人士的权威评论,根据用户关注度聚合输出。每条微博都有传播的热度。比如关于音乐的话题,微博个性化流媒体服务可以实现发现方式的革新。你在微信上的联系人可能更多的是自己的好友、家人,但是你们的喜好不一定是相同的。但微博上每个人都会关注自己感兴趣或专业领域内的专业人士,比如说影评人或者旅游达人,可以发现品位相近的好友,或者在专业领域有影响力的专家用户的内容,因此微博更符合个性化的口味。



比如音乐领域,新浪微博推荐产品类的应用得到大幅度优化,通过目标听众的基准定位,可以实现精彩推荐。比如汪峰发行了一首新歌,好友的赞、好友的分享、乐评人的点评,都可以聚合到一起。微博上也会有用户主动选择的机制,比如“点赞”。大多数用户对某项内容感兴趣,也会把该内容输出给其他用户,最终结果都是用户选择而成的。微博24小时赞榜,也可以通过不同的属性来实现。比如,我想听怀旧或者具有浪漫情怀的歌,这样的歌曲有哪些;比如,我早上起来开车上班时收听到的类似电台形式播出的歌曲,都可以根据我当时的选择来输出;比如,在微博上的一些音乐人会选择在微博上首发歌曲,可以第一时间通过微博的传播网络传达给他们的粉丝们。



图书领域的应用也很典型。很多电影都是先有原著图书再改编成电影,微博就做了一个图书排行榜。这个排行榜的形成有它的逻辑,因为很多专业化领域的产品都可以评论图书的热度。但是微博作为一个跨领域、跨行业的产品,也有它的特点。比如,可以根据知识图谱形成一个跨领域的输出,这个榜单的输出代表的不是图书本身的热度排序,而是这本书背后翻拍成的电影的热度。由于《致青春》这部电影上映时非常火,所以同名图书当时排在第一名。《小时代》也是一样,那段时间郭敬明和《小时代》这部电影都非常火,很多人想看看背后的原著,所以在排序里我们也把书按照电影的排序排出来。



新浪微博是一个平台级的服务,因此这些应用不仅仅可以在新浪微博内部使用,还可以把结构化的输出用平台形式开放出来。比如一些新的产品需要一些内容,就可以通过开放平台的接口实现一些调用。再比如第三方旅游的App(第三方应用软件),可能会有很多话题,如好友热赞的美景、在某一个景点关注的话题、推荐的周边住宿或者快速住行路线等,都可以通过数据输出的平台把内容筛选出来,挂在产品里给用户提供更加丰富的内容,而且和每个用户兴趣密切相关。又如汽车类的App,用户看到某款车型的时候,谈论这款车型的评论内容或者微博内容都可以在产品里展示出来。这样既可以增加用户对这个产品的认知和了解,也可以促进汽车的推广和营销,还可以因地制宜营造专业圈的效应,根据用户所在区域、围绕专业品牌形成比较有价值的信息流。微博内容还可以作为公开衡量一些行业的标准。比如,可以衡量一个电视节目是不是受欢迎。在不同时间点里出现话题的变动,都是线上、线下实时互动的结果。



在2014年春节之后,我们会看到新浪微博用户在情人节那天在全国的签到比例。酒店、公园、购物中心、校园、餐馆等,是当时排在前几名的热门签到点。我们还可以通过情人节异地情侣“为爱奔走”的数据展示图,看到不论南、北、东、西,在全国范围内都有大量人员在流动。


微博上6亿多次经纬度的签到数据,可以绘制一幅美丽的世界地图,像是在用微博看世界,这都是微博的大据后台承载的内容。


内容来源:书问

作者阿里研究院
出版机械工业出版社
定价49元
书籍比价

分享到

扫描二维码 ×

电子纸书

告诉世界我最棒1:36个好习惯塑造完美自我

李少聪编著
辽宁人民出版社[2013] ¥8

妙用微信微博就读它

何勇、何美
清华大学出版社[2015] ¥25

微博营销:微时代营销大革命

刘东明
清华大学出版社[2012] ¥14

微信小程序:分享微信创业2.0时代千亿红利

张翔
清华大学出版社[2017] ¥29

告诉世界我能行1:解决让人困惑的40个成长问题

葛永慧, 编著
辽宁人民出版社[2013] ¥8

告诉世界我能行3:掌控决定成败的38个处世细节

葛永慧编著
辽宁人民出版社[2013] ¥8

告诉世界我能行2:规避最容易犯的38个成长错误

李洪本编著
辽宁人民出版社[2013] ¥8

娜娜告诉你,这才是日本!

田娜, 著
清华大学出版社[2018] ¥27

眼睛怎么了:眼科医生告诉你

翟长斌
清华大学出版社[2018] ¥23

出版业领先的TMT平台

使用社交账号直接登陆

Copyright © 2020 BookAsk 书问   |   京ICP证160134号


注册书问

一键登录

Copyright © 2020 BookAsk 书问   |   京ICP证160134号