4886a威尼斯城官网-威尼斯论坛-首页

4886a威尼斯城官网 专栏张华平正文

张华平:社会化新媒体传播与非结构化大数据分析

  9月11日至12日,由经管之家(人大经济论坛)主办的“2015中国数据分析师行业峰会(CDA Summit)”在北京举行。本文是大数据工委会主任张华平在峰会上的演讲全文,演讲的主题是“社会化新媒体与非结构化大数据分析”。

张华平:社会化新媒体传播与非结构化大数据分析

  张华平,大数据工委会主任

  非常荣幸有这个机会跟大家来谈一谈非结构化大数据分析,今天大家讲到了很多数据分析。其实更多的层面,我听到的除了袁博士讲到的之外,我想跟大家分享一个概念。现在的大数据,可以说有结构化和非结构化的数据。结构化的数据大家比较清楚,比如说各种各样的数据库。这种数据库,现实生活中绝大部分数据是没有办法处理的,现在大家非结构化的数据规模是结构化数据的100倍以上,所以它的体量非常大。

张华平:社会化新媒体传播与非结构化大数据分析

  我今天的题目主要跟大家讲社会化新媒体与非结构化大数据分析。其实大家在座的企业和这个也很像,大家先看一看网络发生了什么样的变化,最早的天涯,包括现在的微博、QQ、微信。现在大家发展到新媒体的时代,但是大家传统行业目前的模式还是什么样的状态呢?大家可以看到这是大家经常看到的场景,以后还会经常看到。

  总体的感觉是,现在大家的网络3.0时代或者是大家到了社会化新媒体时代。但是大家政府的管理以及现在企业很大程度上还在1.0版本,企业稍微好一点充其量是在2.0版本。最直接的结果是当它们之间发生冲撞的时候会发生很多的矛盾和冲突,有很多匪夷所思的事情源于这两个版本不对等所造成的。

  今天有很多人质疑大数据,到底什么是大数据?说难听一点,现在我听到更多的只有数据大,数据大并不是大数据。我来个举例子,比如说手机监控,手机监控的数据确实很大,它大到什么样的地步呢?我在央视专门做过一个讲解,所有的实验我都做过,现在大家拿到的数据量还不算太大。

  手机监控的原理我不说明了,大家来看一看,假如说每个人的手机,突然有一个人告诉我你出现在什么地方,这没有什么了不得的,用数据可以检索出来,仅此而已。如果这个归结为大数据,其实就差了很多。大家看这里面,这种表层的数据之后大家来做哪些事情。比如说大家可以推算出几个活动规律,比如说起床你的作息规律,包括一个官员什么时候去过澳门赌博,这里面的数据都可以发现。

  除此之外,大家还可以推算出他的职业和性别。因为大家知道对性别的判别,其实在经济学系里是非常简单的问题。大家用贝叶斯,不需要那么多深入的分析的方法就可以非常高速的识别,大家的准确率大概95%以上,大家可以很清楚地知道女性和男性去的地方是不一样的。

  更加恐怖的是,在这个过程当中大家可以分析出这个人整个的社交圈。比如说白天你更多是和你的合作伙伴在一起,如果是晚上,可能是和你的家里人在一起更多,大家看到大数据的洞察。我对大数据的理解,其实更多的是来源于大家用各种各样的数据对人进行完整的洞察。

  一社会化新媒体

张华平:社会化新媒体传播与非结构化大数据分析

  所以我今天主要会跟大家分享社会化新媒体非结构化大数据、大数据搜索与挖掘关键技术,新媒体分析实战案例。社会化新媒体,大家可以看到现在的新旧媒体,包括《纽约时报》要抵押大楼,大家的彪哥要去收购大楼等等,大家可以看到这里面的变化,这原来是不可想象的事情。包括大家中央级的媒体也好不到哪里去,现在包括大家知道香港有很多传统比较好的报纸都处于倒闭的状态。是不是媒体不行了呢?其实恰恰相反,大家社会化的媒体,比如说《今日头条》,大家不生产资讯,大家只是做资讯的搬运工。所以这里面大家能看到全球的搜索市场变化,大家能够清楚地看到像谷歌它的搜索量,百度只是它的1/4。大家可以看到传统媒体央视,大家看2012年的百度,现在大家可以看到百度占的市场份额非常大,包括它的新媒体。

  为什么会造成这种现象,大家做了一些分析可以看到,媒体内容的生产,实际上它的生产过程耗费非常大。在利益分配的时候是这么一个情况,生产远远小于品牌渠道,渠道远远小于品牌,品牌远远小于社群。比如说写书的不如卖书的,卖书的不如卖粉丝的。现在大家有更好的像《小时代》,主流媒体对它批判很多,但是一点不影响它的票房。大家看一下主要的原因在于传统媒体是内容为王,新媒体更注重用户。

  我收集了一些传统媒体各种比较匪夷所思的事情。比如说有害气体,台北人民23年不吃不喝才能买得起房。当然还有一些更多的情况是这种的,比如说栾川风传溃坝的传说,还有就是三峡大坝可抵御百年一遇的大洪水,现在大家已经讨论了很多年。

  社会化媒体,刚才讲到了什么是社会化媒体,大家简单的来讲,就是社会关系传媒。传统媒体实际不太注重社会关系。大家可以看到,社会化媒体的发展历程,从1.0的BBS,到后期的即时通讯,再到Web2.0的博客,视频和社区,以及到现在的微博、微信,按照一些特点我就不去分析。

张华平:社会化新媒体传播与非结构化大数据分析

  大家从信息传播的角度来看,传播的要素这是大家总结的图,比如主题,我想表达我的主题,时机,最后把这个信息传播给受众。最终传播的渠道就是大家所谓的媒介。

张华平:社会化新媒体传播与非结构化大数据分析

  大家来比较一下,传统媒体和新媒体的差别在哪里?这里面大家要看到新媒体的内容是非正式的,大家来看为什么当年新浪极力推博客,博客始终火不了?微博和博客的差别在哪里呢?其实就是一个小的变化,说大家原来是要求像小学生写日记一样,写长篇大论,现在140字就可以了,这就导致了内容的非正式。还有这里是更多的多对多点,一个社交型的。尤其想强调的是现在在新媒体的环境下,它是一个对等交流,比如说大家CCTV和人民日报,它更多的是政治宣传,这就相当于它是一个在农村的大喇叭广播,我在这里广播,我不需要大家反馈,大家听着就好了。为什么现在一些政府,包括一些大的媒体在社交网络上已经成为了一个弱势群体,反而一些草根大V做的非常好,原因就在于他们没有把握他的场景变化。现在新媒体环境下更像是不站在台上讲,而是搬着椅子坐在你旁边讲。

张华平:社会化新媒体传播与非结构化大数据分析

  大家再来看看内容的,这里有一些技巧,这有一个“三情”的理论。尤其现在比较火的传播,基本利用了人的基本需求,尤其是生理需求和安全需求。大家看一看现在很多的资讯网站,都在利用打擦边球,会经常放一个看上去,我刚刚还看了一条,让大家来看看河南的情色大片,点进去一看是它们很好的美景。安全需求,就是像你不转就不是中国人。还有就是在情绪方面的,具体在中国的表现就是仇官、仇富情绪。我经常举例子讲,如果大家想要攻击一个人,大家只需要说几句话就可以,说这个人开着玛莎拉蒂来上学,他的背景很深,具体有多深我不知道。这有两个就够了,这个过程当中,仇官仇富情绪一引发,这过程没有人追踪他是谁,所有的情绪都过来了。

  还有像代入感,像大家现在经常传播的时候经常用的一些词:“深深震撼”、“激发梦想”、“乐享生活”。还有像我去要饭,左边说无家可归,帮帮我吧。右边说,如果你饿了,会怎么办?这个在新媒体上大家会经常用这样的技巧,就是让你感觉你在饥饿。还有大家经常看到手机发布会,说我的手机有什么样的技术参数,有64G闪存,其实这时候对64G都没有什么概念。还有其他的讲述的方式,大家可以看到好好学习的一些内容。再比如说漫画,这个实际在内容的传播方式也在发生变化。还有角色的扮演,还有很多话题,它的主题创意,大家常见的是像这种政府发的通知,说几层几层的紧急通知。实际上在我党历史上,传播最利害的,就是打土豪分田地,六个字,一般农民都看懂了。这么多年来大家看到表叔,微笑局长,房姐,这就起到了很好的借用。

  二非结构化大数据

  大家切入到非结构化大数据。我在说我看法之前给大家说明一下我所理解的大数据是什么,我所理解的是,大家能看到十几张图片实际上是一个普通的信息,我不用说要多大的数据,我十几张就Ok了。这样叠加在一起就产生一个1 1>2的效果,在这个过程中大家可以获取常识。实际上大数据的过程是信息叠加,产生常识的过程。

  大数据给大家带来的是决策方式的变化。大家在决策的时候四个要素,主体、依据、机制、效率。像《富春山居图》,这很烂的片,当时它的票房很好,原因也很简单,它是一个审丑效应,大家都想看它有多烂,所以最后还是拿了那么高的票房。但是这个片子就没这么幸运了,《失孤》,它非得让大家来看,说刘德华扮演农民工是什么样子。大家看到,最终的票房也差,口碑也很差。原因很简单,它的决策流程是传统的小数据模式,就是因为我作为老板来说,我就喜欢刘德华,所以我非得选刘德华不可。当然也有好的例子,像唱小苹果的老男孩,这个实际上应用在业务库有一个三分钟的视频,有几百万人的访问,把这些人数据拿过来分析,这个是根据消费者,洞察他们的需求作出的决策。

  有很多特征,我把它中国化的理解,实际上就是多快好省。大数据不是说投大量资金建立一个大数据中心,实际上现在大数据的技术和结构是能够以很小的性价比获得更好的价值。所有的大数据实际上是由无数的小数据组合而成,像袁博士讲到的大数据和小数据的差别。有时候大数据的精髓在小数据上。所以在认识的方式上,大家第一个,知著见微。知著就是宏观分析。最后一点,就是晓意,如果对语义不了解的话,有时候也理解不到。大家终极的目标是让计算机来自动理解人类的语言。最后,大家对客观世界的洞察,是大家通过人类自然语言来完成的。

  我最终的结论,大数据更大意义上是非结构化内容的理解,因为结构化数据大家在大数据之前,大家通过数据挖掘各种各样工具,基本上来说没有新的问题和挑战了。大家最终的目标实际上就是大家希翼从大数据里获得大的洞察力,这就实现大家去了解谁,什么时间,大家在做什么样的事情。

  三大数据搜索与挖掘关键技术

张华平:社会化新媒体传播与非结构化大数据分析

  这里的关键技术,我给大家看一些例子。大家实验室的在线演示,大家来访问一下新浪资讯,大家就拿第一篇的资讯来说,我跟大家稍微讲解一下。首先大家整个的分析平台,在这个地方是可以输入你任何网页,如果你不输入的话,大家系统可能是浏览器的问题会自动抓取一篇新浪网最新的文章,这是刚才的一篇文章,给大家展示一下。第一个,大家会把刚才的文章进行切分,比如说昨日,因为大家知道在中文里,大家是不做空格,之后再做色线标注。大家会看到,非结构化语义理解,完全的会直接的识别所有的这些工作。另外,大家可以看到用户自定义词,这个过程当中你可以把自己专业的词汇定义进去。比如说HUAWEI,每一部新的手机都在用大家的工具,它定义了衣食住行各种各样的专业术语。比如跟美食相关的大概有几万个词,所以这里可以看到大家的分析。

  前面都是自动生成的,大家可以访问大家的网址。这是一个词关联。这里面大家看到,比如,卡尔这个词大家会关联到卡尔马克思等等这样的词,对于这样的词大家会进行十几次的关联训练,所以每个词大家都会看到。

  大家来看大家已经分析好的一个效果,这里展示的是这篇文章当中出现了哪些人,哪些地方和哪些机构,以及有哪些主题,这个会自动的计算出来。对词的理解上面,大家很多情况下是需要了解名词、动词、形容词的变化,还有一些情感分析,大家会分析出这篇文章是正面的还是负面的情感,同时可以输入一个产品,能够把这个文章对这个产品的正负面做一个计算。还有自动的打拼音,还有大家一篇文章可以用250个字或者300个字,把你的意思做一个自动的摘要。

张华平:社会化新媒体传播与非结构化大数据分析

  这里我先容一下大家做的一套大数据搜索引擎。像语法,我就一些负面消息,这个负面消息要在12次以上等等,这里可以看到一些效果。像搜查土豆,会出马铃薯,并且对搜索进行分类。一旦这里的数据发生变化,大家10秒钟内就会体现出来。还有对维吾尔语的搜索。大家还提供了二次开发包,现在在Linux等等上面都可以使用大家的系统。还有像对十八大理解和科学发展观等等都是自动算出来的。以及自动的发现甲流的问题,还有用大家的工具做用户的画像,大家还会分析人的情绪变化,大家看到蓝色部分的人情绪波动非常利害,还有大家对价值观的分析,大家看到比如说大家刚刚宣判的郭美美,大家计算的结果,就是她的安全项非常低,所以她的一些行为大家容易理解,极度自卑会导致她用炫耀的方式来弥补。

  四新媒体分析实战案例

  后面的案例部分,大家把马英九两年来两次的就职演说做一个对比。大家大家看一看,两岸的问题变得越来越重要。比如说把汪峰所有的歌拿过来,最后可以写一个汪峰的歌。比如说国家气象局,大家把过去五年以来所有的天气预报做了一个分析。在社交网络上专门抓失独老人这个词,主要的技术方案实际上是利用内容和社会关系。大家可以看到左边所有的变化是大家会根据已有的关系来发现亲人。

张华平:社会化新媒体传播与非结构化大数据分析

  简单来讲,大家建一个候选人名单,如果候选人名单里面有三个这个不是偶然现象。现在大家在社交网上有一万多个失独老人。这是新媒体的编辑器,这是地域划分,包括在国内,以及在美国和国外分布的情况。这张图大家可以看清楚,这是草根的观点,以及所有大V的观点和媒体的观点。中国地图表示的是中国国内和体制内的媒体对这件事情的评价,这是国际媒体。大家基本上可以看到国际媒体和国内媒体关注点完全不一样。谢谢大家。

  编辑:张华平,北京理工大学大数据搜索与挖掘实验室主任、副教授、研究生导师,中国互联网协会大数据工作委员会实行主任,第三届全国社会媒体处理大会主席。

  【本文系数据观(www.cbdio.com)专栏编辑稿件,首发人大经济论坛,转载请注明来源】

责任编辑:张琰

分享:
延伸阅读
    数博故事
    贵州

    贵州大数据产业政策

    贵州大数据产业动态

    贵州大数据企业

    更多
    大数据概念_大数据分析_大数据应用_大数据百科专题
    企业
    更多

    4886a威尼斯城官网|威尼斯论坛

    XML 地图 | Sitemap 地图