情感计算研究进展、现状及趋势
本文是中国中文信息学会情感计算专委会于《中文信息处理发展报告(2021)》中的相应部分。
*1. 研究背景与意义*
人类情感是人们相互交往中主动选择和创造的结果,它是通过特定的人类行为和符号来表现、传达和显示的。因此,“情感”实际上是社会意义和各种符号价值的载体与承担者。人类的认知,行为以及社会组织的任何一个方面几乎都受到情感的影响。1985年,人工智能的奠基人之一 Minsky 就明确指出:“问题不在于智能机器能否有情感,而在于没有情感的机器能否实现智能” 。但由于当时技术限制,赋予计算机或机器人以人类式情感的研究并未受到广泛关注。1995年情感计算的概念由 Picard 首次提出,并于1997年正式出版《Affective Computing (情感计算)》。在书中,她指出“情感计算就是针对人类的外在表现,能够进行测量和分析并能对情感施加影响的计算”,开辟了计算机科学的新领域,其思想是使计算机拥有情感,能够像人一样识别和表达情感,从而使人机交互更自然。 简单来说,情感计算研究就是试图创建一种能感知、识别和理解人的情感,并能针对人的情感做出智能、灵敏、友好反应的计算系统。显然,情感计算是个复杂的过程,不仅受时间、地点、环境、人物对象和经历的影响,而且要考虑表情、语言、动作或身体的接触。因此,在智能人机交互的研究中,拥有对情感的识别、分析、理解、表达的能力也应成为智能机器必不可少的一种功能。例如:在管理行业,通过情感计算获得领导者与员工的情绪,从而提升企业的整体效率;在贸易方面,通过客户评价文本分析客户的情感进行精准促销,可以更精准的帮助企业树立自己的品牌;在健康领域,基于医患对答的情感预测可以帮助医生分析病人心理,辅助进行心理访谈,进而诊治心理疾病和平复自杀等消极情绪。为实现真正的人工智能,必须要实现融合智能与情感的自然人机交互。 此外,情感计算是一个多学科交叉的崭新的研究领域,它涵盖了传感器技术、计算机科学、认知科学、心理学、行为学、生理学、哲学、社会学等方面。情感计算的最终目标是赋予计算机类似于人的情感能力。要达到这个目标,许多技术问题有待解决。这些技术问题的突破对各学科的发展都产生巨大的推动作用。以下分别从情感认知、文本情感计算、多模态情感计算等领域的问题挑战、技术方法、发展趋势等对情感计算的研究进行探讨。 情感综合了行为、思想和感觉,是人们对待事物的表达方式。认知是人们对某个物体,对某件事情所理解的程度。因此,情感认知即个体对这种表达方式的认识程度和理解程度。情感认知的主要研究目标是通过外在情感信息(如面部表情、唇动、声音、姿势等)和内在情感信息(如心率、脉搏、血压、体温等)来识别和推断行动者的情感状态。情感认知的研究与发展不仅是人与人之间社会关系维系的重要课题,更是人机情感交互的关键。情感认知技术能够让机器感知到人们的情感状态,从而提高机器的人性化水平,在疾病和压力识别、课堂反馈、安全驾驶和用户体验等多个领域都有广泛的应用。 文本情感计算的主要任务是研究自然语言中的主观信息(如情感、情绪、态度、评价等)的提取、分析、理解和生成。文本作为人类表达情感情绪的重要载体,文本情感计算是情感计算的一个重要组成部分,也是自然语言处理、文本挖掘等领域的重要内容。文本情感计算可以视为以主观信息为对象的自然语言处理技术。自然语言处理包含自然语言理解、自然语言生成、知识图谱等领域。同样地,文本情感计算也涵盖文本情感分析、情感文本生成、情感图谱构建、论辩挖掘等方面的研究,在舆情分析、心理健康监测、评论分析与生成、商业决策等方面有着广泛应用。 人类在表达情感时,通常以多种模态的方式呈现。单模态的情感分析并不符合人类对情感的感知与表达模式,当人类主观上对情感信号加以掩饰或者单一通道的情感信号受到其他信号影响时,情感分析性能将会明显下降。单模态信息量不足且容易受到外界各种因素的影响,如面部表情容易被遮挡、语音容易受噪声干扰。考虑到各个模态之间的情感表达的互补性,多模态融合的情感计算研究正日益受到重视。由于不同表现方式在表达情感信息时存在一定的互补作用,多模态情感分析更加完整,具有更好的鲁棒性,也更加符合人类自然的行为表达方式。近年来,学术界和工业界将目光转向多个模态信息融合的情感分析,利用各个模态信息之间能互补性得到性能更优的情感计算方法和系统。
*2. 领域发展现状与关键科学问题*
2.1 情感认知
现阶段的情感认知研究主要集中在对面部表情、语音情感、生理信号的情感认知。
面部表情识别是指通过面部肌肉的变化识别特定的情感状态。由于面部表情是最容易控制的一种,而且受先天生理影响,单纯的面部表情识别准确性并不高,但是相应的识别模型则比较简单。如Paul Ekm等提出的面部动作编码系统(FACS),描述了基本情感以及对应的产生的肌肉运动的动作单元。依据FAcs系统制造的面部识别器,仿真测试准确率可以达到98%以上。但面部识别器的处理效率较低,对于处理连续表情还存在一定困难。目前大部分有关人脸表情的分析与识别主要针对基本表情的分析识别,使用的方法大致归为两类:基于静态图像(单一图像)的方法和基于动态图像序列的识别方法。 语音情感识别是指由计算机自动识别输入语音的情感状态。语言除了包含语义信息,还包含具有情感的语速、语调等信息。通过利用声学和语言学来描述说话方式的计算机应用程序“情感编辑器”,除了在输人情感参数之外还进行了语法语义的分析,对语音频率和音量进行控制,对语音形成较好的情感识别和合成效果。近年来,语音情感识别研究工作在情感描述模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了发展。 生理信号情感识别是指通过内部的生理反应(如呼吸、心跳等)来识别情感状态。情感生理信号的研究重点在普适性理论研究,而后是个性化的研究,并且目前已经大多转向应用性的研究方面。但是,人的生理信号比起面部表情和语音,识别难度更大,所以目前生理模式的情感识别研究还处于初级阶段,哪些信号可以转化为情感参数、信号各个方面的权重、比例应该是多少,这些都还需要进行进一步的研究和探索。 情感认知的关键科学问题在于通过各类传感器获取由人类情感引起的生理指标或者行为特征发出的信号(例如语音、面部表情、手势、姿态、脑电波、脉搏等),以建立可计算的情感模型。
2.2 文本情感计算
早期的文本情感分析技术主要针对文本情感的分类,其方法主要分为基于情感字典的规则化方法和基于情感特征的统计机器学习方法。传统情感分析方法在特定领域下构建情感词典,依据情感词与文本的映射关系能够实现快速自动情感分析。但由于细粒度、多领域及多方面自适应情感常识的缺乏,难以支撑多领域情感分析。 随着深度学习的深入发展,大量的神经网络模型被引入到情感分析任务中,包含卷积神经网络、循环神经网络、递归神经网络、注意力机制网络等。近年来,随着预训练语言模型的兴起,以BERT和GPT为代表的预训练语言模型在不同的情感分析任务中均取得了较大的成功。当前基于深度学习的情感分析方法依赖于大量高质量标注训练样本,人工标注成本昂贵,同样面临难以实现多领域及多方面自适应的实时在线情感分析的挑战。为了弥补情感计算依赖大规模标注数据、具有强领域特性的特点中,常常会引入外部的情感知识库提供监督信息,提高模型的泛化性能。然而,当前常采用的外部知识库存存在以下三个问题:
(1)缺乏领域适应性:当前常用的情感词典常常只适用于某领域,缺乏领域泛化能力。
(2)缺乏方面适应性:在同一领域中,同一情感词在不同方面的情感极性可能会不同。在现存外部知识库缺乏方面泛化能力。
(3)缺乏情感推理能力:现存的情感词典以及外部知识库往往只建立词语与情感的一对一的映射关系,无法建模情感词间关系、方面词间关系,以及方面词与情感词的动态多关系。 情感文本生成任务的目标是让模型生成符合指定的情感类别的文本。具体而言,生成的文本应当表达出任务指定的情感类别,如开心、难过、愤怒等,这既可以通过情感相关的关键词体现(如开心与“享受”、难过与“哭泣”等),也可以通过隐喻等手法体现(如在难过的情感类别下,“我的心头阴霾不散”)。
该任务的挑战有两点:
(1)如何保证模型生成的文本语法正确、通顺连贯。
(2)在保证语法性的前提下,生成文本应该蕴含指定的情感类别,并避免产生与指定情感类别矛盾的表述,以防造成歧义。
论辩分析是文本情感计算一个新兴的研究领域。近年来,计算论辩学研究将人类关于逻辑论证的认知模型与计算模型结合起来,以提高人工智能自动推理的能力。论辩挖掘是计算论辩中的重要任务,以文本中包含论辩性内容的部分作为研究对象,旨在自动化识别论辩性文本的结构,论辩语义单元直接的逻辑交互关系等。论辩文本中往往呈现逻辑推理过程,因此语义结构复杂;其文本内容有高度的领域相关性,对于方法的领域迁移性提出了很高的要求;论辩文本体现了人类高级的认知能力,是对人类世界理解的综合运用,依赖于知识融合。
2.3 多模态情感计算
多模态情感计算在模态融合方面,包括了基于特征层的融合、基于模型层的融合和基于决策层的融合。其中,基于模型层的融合策略得到了更多关注;在建模方法方面,随着深度学习技术的发展和数据资源的扩增,基于深度神经网络的多模态情感识别方法在学术界和工业界广泛应用,在建模过程中通过有效融合场景、个体差异、时序上下文等先验信息,进一步提升情感分析系统的性能;在应用场景方面,除了当前最为主流的情绪和倾向性分析,面向压力、精神状态、维度情感、专注度、言语置信度等多模态情感计算问题,近年来得到了广泛关注,在教育、安全、医疗、金融等领域有着广泛的需求。 当前多模态情感计算需要解决的科学问题主要包括;
(1)多模态情感计算数据库普遍面临着数据稀疏和标注不确定的问题,如何从这些低资源的数据中学习到有效、鲁棒的情感表征;
(2)在模态信息缺失、互斥、冗余等条件下,如何设计高效的融合算法来整合不同模态的信息以提高多模态情感分析的准确率;
(3)基于多模态信息对情感表达含义进一步理解,如何有效融合语义信息进行多尺度情感的准确理解,实现在认知层面的情感分析;
(4)情感是随时间连续变化的,不同情感可能同时出现,如何基于多模态信息实现细微情感的准确表征。
3. 关键技术进展及趋势
3.1 情感认知
当前人工智能情感认知模型所面临的最大挑战在于:要为情感认知找到适当的计算表征。在直觉理论中,人们使用两种或多种标记来区分情感是不够全面的,如“生气”与“不生气”、“开心”与“不开心”,尽管这种区分方式在许多情感分析中被广泛使用。事实上,定义表征空间是概率建模的一个重要前提,表征空间允许从情感中抽取样本并将其边缘化。即使是在某些高维度的空间中,其向量也可能是不充分的。 具体而言,比如关于“生气”可能存在三种场景:
1)A在生气;
2)A生气是因为他得知了一些不太好的结果;
3)A生气是因为不公平导致了不太好的结果。
这三种场景在定性上会存在不同,而这种不同则会导致对情感的评价也不尽相同,最终造成不同的行为后果。这种观点需要一种更为丰富的情感表征理论来解释目标相关信息和事件相关信息,事实上这是当前贝叶斯模型所没有涵盖的地方。因此,当前人工智能情感认知计算模型需要为情感认知及其评价选择一种适当的表征方式,用以获得对他人情感认知的理解,并可以进行有效地计算。 情感认知技术发展脉络主要集中在情感信息的获取和情感建模两个方面。情感信息的获取主要分为可以被自然观察到的情感信息(声音、手势和面部表情等)和需要特殊测试设备才能获取的情感信息(心跳速率、脉搏和温度等)。情感建模主要包括离散状态计算模型、情感空间计算模型和基于规则的模型。情感建模的技术从最普遍使用的OCC情感识别模型,逐渐完善衍生出基于事件评价的情感模型以及EMA模型等。现有关注问题主要是如何抽取有效的特征参数并运用恰当的模型来表达这些特征参数和情感之间的关联性。由于最终采集到的情感数据主要通过音频或者视频的形式进行储存和分析,因此目前主流方法主要从音频情感认知,视频情感认知和多模态情感认知三个层面分析。 音频情感认知的声学特征分析主要围绕韵律、频谱和音质特征。研究者已经发现很多声学特征与情感状态有关,如持续时间、语速、基音频率、共振峰、强度、Mel频率倒谱系数(MFCC)等。研究人员将它们表示为固定维数的特征向量,其中的各个分量为各声学参数的统计值,包括平均值、方差、最大或最小值、变化范围等。近年来,神经网络提取优良特征参数的能力越来越受到关注。深度语音情感特征是基于语音信号或者频谱图,并通过语音情感识别相关任务学习到的深度特征。目前应用比较广泛的是通过语音事件检测或者语音情感识别等任务,采用在大规模的训练数据学习到的深度语音特征作为语音情感特征,比如VGGish和wav2vec。 视频情感认知中局部二值模式(LBP)、局部相位量化特征(LPQ)、Gabor特征被广泛应用于静态图像的情感识别工作中;时序信息为情感识别提供了关键信息,许多基于上述特征的时空特征,如LBP-TOP。计算机视觉中常用的方向梯度直方图(HOG)描述子、尺度不变特征变换(SIFT)描述子、词袋模型(BoW)和Gist描述子均在情感识别工作中有所涉及。另一类是基于深度神经网络的深度情感特征。深度情感特征主要从人脸情感识别数据集上训练的模型中进行抽取,比如目前应用广泛的深度特征是从人脸情感识别数据集(比如FER+)上训练的VGGNet、DenseNet等神经网络模型中抽取。 多模态信息的分析方法有很多,从信息融合层次来看,多模态信息融合的方法主要有决策层融合和特征层融合,也有一些学者将这两个融合方式混合使用。决策层融合方式操作方便灵活,允许各个模态采用最适合的机器学习算法进行单独建模。特征层融合的通常做法是将各个通道的特征相串联,组合成一个长的特征向量,然后再将该特征向量放入机器学习算法进行分类或是回归输出。最新的认知神经科学表明,大脑在整合多感官信息时存在多阶段融合的现象,受此启发,研究者提出了多阶段多模态情感融合方法。首先训练一个单模态模型,然后将其隐含状态与另一个模态特征拼接再训练双模态模型,以此类推得到多模态模型。 情感认知计算的发展趋势主要体现在三个方面:首先,必须优先基于对自然主义数据进行认知建模,如静态面部表情和实验场景是我们研究的重要出发点。对于未来的研究工作来说,重要的是要观察在自然语境中如何对他人的情感进行建模,如观察某人无脚本的独白;其次,开展融合面部表情、语音、姿势、文本和生理信号等的多模态情感认知研究也必将是未来重要的发展趋势。多模态情感融合的关键在于实现了跨模态之间的有效整合以获得多模态信息的互补,从而比单模态情感识别具有更大的优势;最后,情感是一个时序变化的行为,其演变都会经历一定的时间,因此需要考虑情感信息的前后依赖性。在模型中引入注意力机制,通过全局上下文信息自动学习不同帧对于情感识别的重要性得到相匹配的权重系数,可以实现更有针对性的情感建模,显著提高情感识别的性能。
3.2文本情感计算
目前文本情感分析最关注的问题集中于属性级情感分析和情绪分析理解两个任务。前者是细粒度的情感分析,后者是除了情绪分析之外,还需对情绪原因进行理解和推理。属性级情感分析的主要研究任务包括属性抽取、属性级情感分类、属性情感配对抽取以及属性观点情感三元组抽取等。另一方面,情感文本生成的技术在早期大多基于RNN语言模型的方法。近年来,随着预训练模型的发展,情感可控的文本生成逐渐以GPT等预训练模型作为基座,并取得了更强大的效果。现有研究主要关注如何建模情感的表达过程、让文本生成受控于指定情感;以及如何丰富情感表达的方式和内容,以提高生成的多样性和信息量。
在属性抽取和属性级情感分类等传统方向上,主流方法包括基于卷积或循环神经网络的方法、基于注意力机制的方法以及基于图神经网络的方法;而在最新的属性情感配对抽取以及属性观点情感三元组抽取等方向上,主流方法包括基于机器阅读理解的方法、基于表格的方法以及基于Seq2Seq的生成式方法等。对于情绪分析于理解,主要的研究任务包括文本情绪分类、对话情绪识别、情绪原因抽取。在情绪分类以及对话情绪识别方向上,主流方法包括基于循环神经网络的方法、基于注意力机制的方法以及基于图神经网络的方法。在最新的情绪原因抽取方向上,主流方法包括基于卷积或循环神经网络的方法、基于自注意力机制网络的方法以及基于外部知识融合的图神经网络方法等。
情感文本生成的研究中,针对如何建模情感的表达过程这一问题,由于情感表达具有显性(如情感关键词)和隐性(如隐喻)的特点,情感表达也是一个动态的过程,因此现有研究大多采用将拷贝网络与动态记忆单元相结合的方式。一方面,拷贝网络可以显式地在生成文本中插入情感词,另一方面,动态记忆单元可以控制表达情感的过程,在已生成出表达情感的词语后,适时控制生成过程的结束。针对情感生成文本的多样性和丰富性问题,由于模型的输入信息十分有限(只有指定的情感类别),因此现有研究大多利用外部知识丰富情感表达的内容。例如,通过在常识知识图谱检索与情感类别相关的实体(如难过与“分手”、“失业”等)来提升生成文本的信息量。
论辩挖掘的研究主要经过以下几个阶段:(1)理论迁移:对经典论辩理论的迁移和改造使其具备可计算的特点。(2)单体式论辩文本理解:研究论辩基本单元识别和关系分类方法,设计到不同领域的小规模语料标注。(3)交互式论辩文本理解:针对多人参与的论辩场景,研究文本分析框架以及论辩方法。(4)论辩文本自动生成:针对某一个特定主题或者其它用户的一段论辩性文本,自动化生成论辩内容。目前的研究热点为交互式论辩文本理解和论辩文本自动生成两个部分。在初期,学者们采用基于特征工程的论辩文本理解方法,近几年基于神经网络的文本编码解码框架开始成为主流。
文本情感计算的发展趋势主要体系在以下几个方面。现阶段以BERT和GPT为代表的预训练语言模型在不同的情感分析任务中均取得了成功,但是大部分工作仍是采用预训练加微调的范式。这种范式的缺陷在于语言模型在预训练过程中是脱离于下游情感分析任务的。为了解决此缺陷,基于提示(prompt)的学习的范式可能会成为一个比较有发展潜力的研究方向,如何针对下游不同的情感分析任务设计符合预训练语言模型训练目标的prompt是值得深入探究的问题。
情感文本生成未来技术发展有两方面的趋势。一是利用大型预训练模型内部的知识。在不引入外部信息的情况下,使得生成文本在情感可控的前提下更加多样、丰富。近期基于提示学习的方法展现出触发大模型内部知识的潜力,未来的情感文本生成的研究或许可以与提示学习方法相结合。二是高效地融合外部知识信息。外部知识信息往往能够提供更好的可控性。然而在基座模型越来越大的趋势下,传统的为小模型所设计融合外部信息的方法可能不再适用(受限于复杂度和效率),此时利用外部知识的方法需要更高的可拓展性。
此外,针对现有方法难以高效处理多领域及多方面自适应、情感常识离散、缺乏推理机制而难以进行情感推理等问题,其中的一个技术发展趋势是将情感词在多领域、多方面的动态情感倾向知识化。通过构建面向多领域多方面的情感知识图谱,利用知识图谱丰富的表达能力,可以实现领域细粒度情感知识化,通过情感常识关联整合、建模方面词和情感词之间的层级逻辑关系,形成情感知识图谱,有利于领域知识、方面知识及情感知识的动态关联、聚合以及推理,为情感计算的应用,如高效实时的在线情感分析、情感注入的对话系统、情感注入的故事生成等提供具有动态精准的领域自适应情感常识。
论辩挖掘的研究未来发展趋势主要包括:(1)不同场景和粒度的论辩性内容表示方法。从单一论点到论辩性段落再到同一主题下的多立场论点,到整个论辩性文本的知识库构建,这些都论辩性文本挖掘的核心问题,但相关的研究还很少。(2)大规模语料集合的构建。目前的论辩性文本研究很大程度上受到数据集合规模小、领域分散的限制,如何构建有标注、无标注的大规模论辩性文本是一个重要课题。(3)论辩性文本生成机制和方法研究。相比叙述性文本,论辩性文本的产生更多的依赖于人类的逻辑推理能力,如何将推理方法融入到文本生成过程中对于论辩内容的自动生成至关重要。
3.3多模态情感计算
相对于单模态情感分析,多模态情感分析能够有效利用不同模态信息的协同互补,增强情感理解与表达能力。然而,受限于自然场景的复杂性和情感变化的多样性,多模态情感计算存在着诸多挑战:(1)多模态情感信息协同表征难,受限于部分模态信息缺失、跨模态信息不同步以及不同模态行为呈现的情感差异化等问题,制约了跨模态间情感信息的一致性抽取和呈现;(2)难以实现细粒度的多模态情感识别,当前主流多模态情感分析主要对正负倾向性或者基本情绪进行分类,难以有效对复杂细微情感进行准确跟踪,制约了对情感含义的准确分析;(3)针对多模态数据中的语义信息理解不充分,现有融合语义的情感分析,主要关注于文本中的语义信息,未能有效融合表情姿态和语气语调中的语义线索,影响了多模态语义信息的传递与理解;(4)面对碎片化、多源异构的跨模态海量数据,由于数据价值密度低,难以有效挖掘用户的隐藏情感;(5)标注多模态情感数据集成本高昂,缺乏高质量的标注数据,制约了多模态情感计算的落地应用。
在多模态融合策略方面,现有方法主要分为模型无关与模型依赖两种路线。前者不依赖于特定的学习算法,包含前期融合(特征级融合)、后期融合(决策级融合)、混合式融合三种策略。后者在构建学习模型的过程中显式地执行融合操作。对于浅层模型来说,常用的模型依赖策略包括基于核函数的融合和基于图的融合;对于近期流行的深层模型来说,则有基于神经网络的融合、基于注意力机制的融合、基于张量的融合等。随着Transformer架构和多模态预训练模型的兴起,当前主流的信息融合方法主要是基于模型的融合,并使用融合特征向量的方式去区分来自不同模态和信息源的特征,从而有效地建模这些复杂特征之间的关系。
在多模态情感识别建模方法方面,主要分为静态模型和动态模型,其区别在于模型是否具有建模情感时序上下文的能力。常用的静态模型包括支持向量机、高斯混合模型、AdaBoost、多层感知机等;为了组合不同分类器的优点,多分类器系统也在多模态情感识别领域得到了探索。情感是一个时序变化的行为,需要考虑情感信号的前后依赖性。传统的动态模型如隐马尔科夫模型和条件随机场,由于其可以对时序上下文信息建模的内在属性,取得了比静态模型更好的识别性能。然而这些模型考虑的前后时序信息较短,因此取得的效果有限。随着深度学习技术的发展和数据资源的扩增,基于深度神经网络的多模态情感识别方法得到了广泛关注,这类方法不仅可以学习到数据的深层非线性特征表示,而且能够有效处理情感的时序特性,在建模过程中通过有效融合场景、个体差异、时序上下文等先验信息,能够显著提升多模态情感识别的性能。在识别任务方面,当前主要任务是情绪或倾向性分类,面向压力、精神状态、维度情感、专注度等复杂情感的识别,近年来得到了广泛关注。
目前主流的多模态情感生成方法是首先根据文本及其蕴含的情感合成语音,然后根据合成的语音及其蕴含的情感以及目标参考视频,生成人像视频。研究者们提出利用人脸特征点作为中间表示的两阶段方法,首先根据语音内容和语音情感信息生成人脸特征点的序列,然后进行空间、动作、情感表达的对齐,最后结合参考视频生成最终的人像视频。为了进一步增强情感表达的自然度,引入情感强度表征、情感强度排序等情感强度建模方法,对生成的情感强度进行控制;通过引入情感转移矩阵或时间序列建模等方法,可以使交互系统情感转移更平滑,进而获得稳定的情感表达。
在应用场景方面,早期的多模态情感计算应用主要在实验室条件下进行,如通过生理信号进行情绪监测,或通过学生的面部情感识别反应教学质量。随着技术的发展、设备的更新和数据的扩增,多模态情感计算应用逐步延伸至实际场景,如通过可穿戴设备记录多模生理信号,应用于自闭症治疗,也有研究人员构建具备一定情绪反馈能力的机器人,用于儿童陪伴和教育。此外多模态情感计算也广泛应用于网络舆情分析,识别评论中蕴含的情绪,以反映公众态度,从而获取信息以了解其演变过程。
多模态情感计算的发展趋势集中体现在以下三个方面。首先是如何融合语义信息进行多尺度情感准确理解,分别从倾向性、情绪状态、心理压力、精神状态、专注度等多个维度进行多模态情感分析,实现从情感感知到情感认知的跨越。第二个趋势是增强复杂环境下情感计算的鲁棒性,实现在非协作开放模式下,面向高维碎片化开源数据,实现目标对象情感状态的精准识别;与预训练及多任务联合训练等方法结合,实现更广泛场景下的多模态情感计算;第三个趋势是探索通用的多模态情感计算模型,通过适配多场景应用,实现多模态情感计算应用零成本迁移。加强情感计算的个性化表达能力,适配不同个体的情感状态,融入用户画像、人格特质等个性化特征,实现对不同对象情感的准确理解,满足个性化的情感计算需求,实现与人共情的突破。
3.4情感计算资源
情感计算作为人工智能重要的分支之一,经过多年发展沉淀,积累了大量具有实际意义且富有研究价值的任务及相关资源,可分为粗粒度情感分析,细粒度情感分析,隐式情感计算,图文视频类多模态情感分析以及生理信号类多模态情感分析这五类资源。
粗粒度情感分析主要用来判断文本整体情感倾向,表明一个人对某件事或对某个物体的整体评价,分析的粒度可以是文本的篇章、段落或句子。典型的句子级情感分析语料有斯坦福大学发布的SST数据集(The Stanford Sentiment Treebank),主要是针对电影评论做句子级别的情感分类。对于粗粒度情感分析,早期的工作主要借助构建情感词典来进行。例如,段落篇章级情感分析主要是针对某个主题或事件进行情感倾向判断,一般需要构建对应事件的情感词典,如电影评论的分析,需要构建电影行业自己的情感词典;句子级的情感分析则大多通过计算句子里包含的所有情感词的值来得到。较为广泛使用的情感词典有SenticNet,其提供了一组语义、情感、极性关联的十万个自然语言概念,包含了一系列将常识推理、心理学、语言学和机器学习相结合的情感分析工具和技术。
相比之下,细粒度情感分析更加深入到每个句子里的具体评价对象中,分析其对应的情感极性,下面将称为方面词。细粒度情感分析基准数据集主要来源于国际语义评测SemEval和中文倾向性分析评测COAE。SemEval发布的数据集包括Restaurant和Laptop两个领域,分别标注了方面词项、方面类别、观点词项、情感类别。近年来有研究者对SemEval数据集进一步标注了隐式属性和隐式观点,构建了完整的情感标注体系。COAE发布的数据集涉及电脑、手机等领域,分别标注了情感词及其情感极性,以及方面词项及其情感极性。除以上提及的主要数据集外,还有Citysearch corpus、BeerAdovacat、Twitter等英文数据集,以及国际自然语言处理与中文计算会议NLPCC发布的多方面多情感数据集MAMS。以上数据集的数据来源主要为产品评论,且中文数据集的规模、标注规范性和完整性还滞后于英文数据集。未来可将数据来源扩展至微博等社交媒体平台,构建跨领域、多模态的方面级情感分析数据集,并进一步规范标注体系。
隐式情感表达定义为“表达主观情感但不包含显式情感词的语言片段”。据统计,汉语中约有15%-20%的语句采用客观陈述或借助修辞手法的方式来隐式地表达情感信息。相较于显式情感表达,隐式情感语料库的构建更具挑战。目前面向隐式情感计算的语料库构建尚处于起步阶段,但已受到许多研究者的高度关注。近年来由山西大学主办的SMP-ECISA隐式情感分析评测吸引了众多企业、高校参加,相应的评测语料也是现今使用最多的隐式情感计算数据集。此外,由于隐式情感与一些下游任务关联紧密,相关语料也同时标注了隐式情感以辅助相关任务的识别与分析过程,如隐喻计算、幽默计算等。因此,针对隐式情感计算的语料构建工作既能完善情感分析领域的研究方向,也可推动文本表示学习、文本语义理解等领域研究的发展。
随着技术的快速发展和信息的日益丰富,人们的情感表达方式逐渐多样。如何分析图文、视频等多模态数据中的情感已成为当前情感分析领域的机遇和挑战。针对多模态情感分析的迫切需求,卡耐基梅隆大学提出了一个大规模的多模态情感分析数据集CMU-MOSEI,其中包含了来自YouTube的3228个自拍视角独白视频,具有清晰面部的表情。同时,数据集还包含了对应的23453条字幕文本,以及COVAREP抽取的声学特征等丰富信息作为补充特征。在标签方面,CMU-MOSEI数据集具有情感、情绪两种标签,并对每种标签的情绪强弱进行衡量,从而可以支撑细粒度的情感分析任务。
目前主流的生理信号类多模态情感计算资源主要采用音、视频刺激方法诱发情绪,同步采集多模态生理信号,进而分析不同情绪下中枢神经系统和自主神经系统的反应,以实现基于多模态生理信号的情感识别。典型计算资源包括DEAP、DECAF等数据集。DEAP数据集记录了32名被试在观看音乐视频片段时的32导联脑电、皮肤电、呼吸、皮肤温度、心电、肌电、血容量脉冲、眼电等信号。所有信号采样率均为512Hz,脑电信号共有32导联。被试所观看每段视频时长约1分钟,共有40个视频片段。观看视频后,会根据自身感受从唤醒度、效价、喜欢或不喜欢、支配性和熟悉度等维度进行评分。考虑到被试个体的性别、年龄等因素均会对情绪激发产生重要影响,在未来的研究过程中,有必要深入考虑相关人口统计学信息的引入和建模。
情感计算的研究可以为传统计算机(包括应用现有智能计算方法的计算机)增添具有感性思维的情感。可以认为,结合情感认知的情感计算是在人工智能理论框架下的一个质的进步。因为,基于情感认知的面部表情、语音情感、文本情感以及生理信号等情感研究,能赋予计算机拟人化的思维方式。从广度上讲它扩展并包容了情感智能,从深度上讲情感智能在人类智能思维与反应中体现了一种更高层次的智能。因此,通过深入研究情感认知能促进情感计算的研究,从而为计算机的未来应用展现一种全新的方向。同时,由此引发出来的理论与应用问题会层出不穷。
目前,在文本情感计算的文本情感分析、情感文本生成、情感图谱构建等方面的研究已得到了广泛的关注。同时,大部分文本情感计算也被应用于基于社交媒体的舆情监测和治理,主要体现为情感量化和引导在社交媒体上的应用,可以看做是文本情感分析完成之后的统计和融合,再或者是基于启发式规则的简单处理,比如分析广大网友的情绪动态、监测具有特定情感倾向的。与此同时,伴随着深度学习技术的发展,基于情感知识的推理逐渐开始兴起。这方面的例子包括用户/产品评论的分析/生成、融入文本情感信息的推荐系统建模及其可解释性生成。这类应用基于带有情感的知识试图实现面向目标任务的推理,实现一些较为复杂的决策过程。相信,伴随着情感分析性能的提升,基于情感知识实现推理和决策将会是未来文本情感计算的一个重要方向,具有较大的发展空间和潜力。
虽然视觉、语音、文本等均能独立地表示一定的情感,但人的相互交流却总是通过信息的综合表现来进行。因此,多模态的情感分析更符合人类对情感的感知与表达模式。目前对多模态情感计算的研究主要集中于在情感识别和理解的方法上运用了模式识别、人工智能、语音和图像技术的大量研究成果,从而将不同模态的特征信息跟情感计算结合起来。然而,受到情感信息捕获技术的影响,以及缺乏大规模的情感数据资源,有关多模态特征融合的情感理解模型研究还有待深入。例如,融合语义信息进行多尺度情感准确理解、增强复杂环境下情感计算的鲁棒性、探索通用的多模态情感计算模型、等。这些技术的完善能进一步推动多模态情感计算的研究与发展。
基于对先进的情感计算技术开发,目前在情感计算领域的研究已取得了令人瞩目的成功。但是,受到情感信息捕获技术的影响,以及缺乏大规模的情感数据资源,有关提取更有效、更精确的情感特征,并将不同模态特征进行融合的情感计算模型研究还有待深入。展望未来,解决多模态情感分析问题需要更丰富的模态信息积累及不同模态之间的细粒度对齐,这无疑对于多模态信息的提炼与整合提出了更高的要求。在未来的研究过程中,有必要深入考虑相关人口统计学信息的引入和建模。与此同时,人类的情感远不止积极/消极等几种表现,如何设计更立体的情感标签与更丰富的模态信息,以更全面地涵盖人类的情感表现,无疑也是值得思考的问题。