在计算社会科学的发展进程中,多种形态的大数据类型不断涌现,比如书籍文本大数据Google Books、网络百科大数据Wikipedia等。在众多的大数据类型当中,以Twitter、Facebook以及在线新闻舆情信息汇聚成的舆情大数据,构成计算社会科学的重要观测对象。本文试图就舆情大数据的主要特征及其在社会科学领域的应用场景做简要分析。
舆情大数据第一个重要特征是其话语属性。文本的内容表达了各种各样的观点、态度和立场,这些归结到一点,实际上就是话语,即各种各样的社会主体,基于其立场,表达各种各样的意见和看法。因此,话语分析应该是舆情大数据分析的第一层重要含义,借助于舆情大数据的高维属性,对文本进行话语分析,呈现话语背后的立场与观点、不同话语主体之间的交锋与博弈、不同话语的声量大小与社会影响等等。
在中国崛起的时代,可以分析西方政治话语与中国话语之间的博弈,还可以分析西方话语的建构逻辑,以及如何寻找西方话语的破解之道。对于中国话语,我们则可以分析中国话语的国际影响力,以及如何进一步讲好中国故事、建构中国话语。
话语分析的方法多种多样。从简单的主题分析、语义分析到词丛与搭配分析等,借助于这些技术,我们可以对文本表达做一些初步的分析;而借助于向量空间模型,比如说借助于词向量模型,可以对话语中的关键特征所嵌入的语境深入挖掘;借助于句向量空间模型,则可以对话语的类型进行分类,呈现话语的结构。
舆情大数据的第二个重要特征是其情感属性。舆情者,情绪也。舆情信息中,总是会充斥着丰富的情感表达,这是由舆情信息的属性所决定的。一方面,就新闻舆情而言,舆情需要与受众 “同呼吸、共命运”。舆情数据的一个重要特征就是共情,只有这样,舆情信息所表达的喜怒哀乐,才能与大众的喜怒哀乐保持共振,舆情才能够影响社会,才能够吸引观众。因此,在线新闻舆情信息的一个重要特征就是其情感属性。另一方面,就社交媒体信息而言,社交媒体的主体部分是大众直接在社交媒体上表达所思所想、生存状态与生存方式,在这些自我表达中,也往往是有感而发,分享的是或喜悦、或忧伤、或震惊、或愤怒的情感。
正是因为无论是新闻媒体信息,还是社交媒体信息,都富含情绪表达,因此对舆情大数据进行情感计算,就成为一项非常重要的任务。这些年来,自然语言处理领域的情感计算技术飞速发展。从最初借助于LIWC、WordNet等情感词库开展情感词频统计,到现在基于机器学习和BERT模型等开展情感的精细描述,多种多样的情感分析技术在飞速发展。就情感计算的内容而言,从最初计算正向和负向情感这样的初级分类,到现在可以计算喜、怒、哀、乐、爱、惧、憎等基本情绪。随着情感计算技术的进一步发展,未来进一步计算更加具体的情绪,比如羡慕、嫉妒、恨等都是大有可为的。正如李飞飞所言,人工智能的发展,在经历了“视觉计算”之后,下一个发展的重点就是情感计算。对海量的非结构化文本信息和图像进行情感计算,正是自然语言处理领域飞速发展的重要方向,而这为与情感计算相关的科学研究提供了坚实的技术支撑。
舆情大数据第三个重要特征是其传播属性。舆情大数据的受众和生产主体都是大众,信息、话语或者情绪的传播,构成舆情的一个重要景观,而某种话语或者观点在网络空间或者社交媒体空间能否传播开来,很大程度上取决于其传播属性。社交媒体平台上涉及非常丰富的传播现象,传播的要素不仅仅包括话语,还包括情绪的传播与扩散,比如疫情期间的恐慌情绪传播。纵观这些形形色色的传播现象,我们可以发现,绝大多数传播信息最终是在浩瀚的信息海洋中归于寂灭,但也有一些有传播生命力的传播要素最终扩散开来,形成滔天巨浪。这里的关键问题在于,决定一些传播要素的传播力、传播景观的因素究竟是什么?比如说民粹主义思潮,为什么这些话语一时席卷全球的网络空间,构成了改写历史的重大社会思潮?再比如,有哪些力量在操纵着网络空间的信息传播?资本、政府、社会组织等利益主体在其中扮演着怎样的角色?
分析舆情传播特征的方法也多种多样。既可以从经典传播学的5W模型出发,描述信息传播过程与传播效果,也可以从网络分析和复杂网络分析的方法出发,分析社会网络和社会结构如何塑造信息传播的景观。
舆情大数据第四个重要特征是其社会属性。舆情大数据包含社会生活中各种各样的利益主体,涵盖社会系统中各个阶层,新闻舆情大数据描述和记录了社会生活中各个阶层和群体的生活方式与生存状态,而社交媒体大数据的参与主体也是各种各样。正是因为舆情大数据涵盖社会各阶层,包含多种事件,空间范围涵盖五湖四海。基于此,我们可以分析不同社会阶层与群体的生活方式与生存状态,可以运用阶层分析、利益主体分析、群体比较分析等多种传统社会科学的研究方法,分析不同群体的政治社会态度,分析社会各阶层之间的互动与博弈,分析国家与社会的关系模式,总结归纳社会运行逻辑和社会结构逻辑。
舆情大数据的第五个重要特征是其全球属性。网络无国界,舆情信息在全球层面越来越形成相互连通的局面,也有越来越多的社交媒体平台横跨全球多个国家,地球上某个地方发生的舆情事件极有可能波及遥远国度;同时,越来越多的舆情大数据,比如全球在线新闻舆情大数据GDELT,汇聚了世界所有国家的舆情信息。
在这样的背景下,越来越多的舆情大数据具有全球性特征,为社会科学开展“环球航行”提供了观测数据的平台。正是因为这样,社会科学第一次可以借助于这些具有全球特征的数据库,对世界上多个国家开展比较研究,或者开展全球尺度的分析与研究,比如说Golder等人试图借助于Twitter的平台,分析欧洲、北美、非洲和大洋洲等多个地区人类情绪演变昼夜节律的全球普遍性。笔者认为,值得进一步深入分析的方向是,也可以从全球层面,分析不同文化背景下不同民族的生存方式与生活状态,分析地球不同角落大众的价值观和文化观念,开展大规模的跨文化比较研究。
在舆情大数据监测全球的大背景下,社会科学研究可以利用这些全球性的实证数据,对世界多个国家与社会开展实证分析,克服过去社会科学研究的“地方性知识”的局限,开展真正具有全球比较意义的实证分析。因此,将全球视野纳入社会科学的实证分析中来,通过对比多个社会系统的演变特征,或者将世界不同社会纳入同样的分析体系,或许能够为未来的社会科学研究拓展研究视野和开辟新的研究领域提供重要支撑。