能赚钱的游戏 <rp id="f17fx"></rp>
<meter id="f17fx"></meter><rp id="f17fx"><th id="f17fx"><ruby id="f17fx"></ruby></th></rp>
    <var id="f17fx"><font id="f17fx"><big id="f17fx"></big></font></var>

    社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网

    您现在的位置:今日语言学 → 本所概况 → 机构设置 → 语音研究室

    2018年度语音学学科发展综述(上)

    作者:语音室  来源:今日语言学  时间:2019-03-19

    一、 语音产生

      2018年学界的最新发展体现在发音器官分割、发音运动生成、发音器官建模等三个方面。

      发音器官分割:Valliappan CA, Renuka Mannem, Prasanta Kumar Ghosh. Air-Tissue Boundary Segmentation in Real-Time Magnetic Resonance Imaging Video Using Semantic Segmentation with Fully Convolutional Networks, Interspeech 2018.

      Valliappan等人提出了一种基于全连接卷积神经网络发音器官分割方法,该方法比基于Maeda网格(Maeda grid)的方法的标注误差降低了8.87%(下轮廓线)~9.65%(下轮廓线)。苏志华等人基于SNAKE模型提出了一种融合上层生理知识的优化算法。该方法考虑发音器官的生理标识位置约束、图像特征约束和边界的光滑性约束结合,构建了一个目标泛函。通过优化目标泛函得最终的发音器官分割结果。三个不同质量的MRI的实验结果表明,该发方法的性能均优于传统没有融合生理知识的的方法。

      发音运动生成:Theo Biasutto–Lervat, Slim Ouni. Phoneme-to-Articulatory mapping using bidirectional gated RNN, Interspeech 2018.

      Slim Ouni 等人利用GRU神经网络,将音素和对应的时长作为网络的输入,预测发音运动的轨迹。得到的运动轨迹的精度与从语音信号得到的运动轨迹精度相当。

      发音器官建模:(1) Zhihua Su, Jianguo Wei, Qiang Fang. Tongue Segmentation with Geometrically Constrained Snake Model, Interspeech 2018. (2) Qiang Fang, Hequn Li, Jianguo Wei, Jianrong Wang, Xiyu Wu. A Nonlinear 3D Geometric Tongue Model, Icassp 2018.

      方强等人提出了一种非线性发音器官建模方法。该方法中用舌前部测量得到的四个中矢面离散点的坐标和一个预测得到的舌根部离散点的坐标作为输入特征,考虑不同离散点之间的相关关系,预测整个舌的三维形态和位置。新的非线性模型的预测误差比传统模型的重构误差降低了50%以上。

    二、 语音感知

      感知领域,言语及韵律结构的认知神经加工研究是今年的一个亮点。

      言语的运动属性是本年度最受关注的一个话题。言语的产生毫无疑问需要感觉和运动系统的共同参与,但为什么人类能够发出变化如此丰富的语音呢?Hage(2018)系统梳理了在人类和非人类灵长类上发现的证据。可以看到非人类灵长类在发声上已经具有一定的认知灵活性,从进化的角度,这被认为是进化到人类言语之前的一种预适应。为了解释人类和灵长类的共性和特性,Hage提出了一个双网络模型。一个是位于前运动区的初级发声运动网络(primary vocal motor network),这在人类和灵长类上比较相似。另一个是受控于意志的发音运动网络,它源自前额皮层,能够在认知层面控制初级发声运动网络的产出。人类和灵长类该网络的基础结构也是相似的,但人类该网络更为发达。除此以外,人类独有一条通路,从初级运动皮层的喉区域直接连接延髓处的疑核。

      另一方面,运动区在言语感知过程中的具体作用也得到学界的重视。本领域重要期刊Brain and Language(《脑与语言》)2018年12月第187期专门推出特刊“Sensorimotor speech processing(感知觉运动的言语加工)”,刊登了多篇理论综述和研究文章。其中Liebenthal and M?tt?nen (2018) 和 Saltuklaroglu et al. (2018)两篇综述都提到了运动区在这一过程中的激活时程是一个关键问题。Thornton, Harkrider, Jenson, & Saltuklaroglu (2018)、Nuttall, Kennedy-Higgins, Devlin, & Adank (2018)、Khoshkhoo, Leonard, Mesgarani, & Chang (2018)、Green, J??skel?inen, Sams, & Rauschecker (2018) 则分别用不同的技术提供了解剖学上更细致的运动区激活的神经证据。同期Sato and Shiller (2018)还用脑电和重复抑制范式探讨了说话和被动听时的听觉预期机制。

      无独有偶,另一个听觉加工重镇、由Hickok教授领导的小组也对言语加工的预期机制进行了探讨(Okada, Matchin & Hickok,2018)。他们的关注点放在言语产生过程的前向预期,利用功能核磁共振技术,对比了人在张嘴但不发出声音地说出词、和不张嘴地想象词两种任务下的皮层激活。尽管两种任务都没有任何听觉输入,前者在双侧颞上回的听觉皮层有更大激活。作者认为前者包含词汇和语音两个水平的加工,而后者主要只包含词汇水平的加工,两者差异可能反映了言语产生过程中的向前预期。

      言语-脑夹带仍然是本领域的前沿研究。近几年来,研究人员已经发现了神经活动和语音包络之间存在同步性,这种同步性被称为言语-脑夹带,与言语可理解度密切相关,然而其功能意义仍是不清晰的。在今年发表的相关研究中,Vanthornhout et al. (2018)不再使用过去的主观评分来衡量言语可理解度,而是通过使用不同的性噪比来确定出客观的言语感知阈值,再结合言语-脑夹带进行分析。Brodbeck, Presacco, & Simon (2018)在数据分析方法上也有了新的突破,新方法能联合时间和空间两个维度,从头皮表面记录到的磁信号把刺激信号和脑反应信号分离开,利用这一方法,他们分析了被试在听相对自然的长篇幅语音材料时的MEG记录,区分了语音、词频和语义整合的动态网络。更为令人振奋的研究来自Riecke et al. (2018),他们通过向被试施加带有语音包络信息的经颅刺激,来直接调节被试在听语音材料过程中产生的言语-脑夹带,发现言语-脑夹带以由下至上的方式影响所听到的词的可懂度(intelligibility)。这一结果不仅在认知神经理论上有重要意义,而且可能有巨大的应用前景。

      在2018年发表的文章中,还有一个病人个案研究值得留意(Sammler et al.,2018)。Friederici(2012)曾经提出一个语言加工模型,认为背侧通路以及胼胝体间通路等白质结构对于韵律加工以及韵律-句法交互有着重要意义。然而由于技术的局限性,这些区域难以通过一般的成像方法进行观察。Sammler小组正好遇到了一位患者,他的右半球弓形束/上纵束和胼胝体后部因为急性瘤周脑水肿而受到拖累。Sammler小组在肿瘤手术前和手术后分别对该患者进行测量,发现在神经结构方面,术后右背侧和后侧经胼胝体纤维束的各向异性分数明显提高,与此对应地,在认知能力方面,患者术后侦测不规则韵律结构(句末调在非预期位置出现)的能力显著提升,而右腹侧和左背侧纤维束以及其它认知能力、非韵律相关的句法理解能力没有出现这样的前后变化。这一发现强有力地支持了Friederici的语言加工模型。

      此外,李爱军等人对轻声的感知研究,值得注意。

      论文 Perception of Lexical Neutral Tone Among Adults and Infants,作者范珊珊、李爱军、陈傲,发表在Front. Psychol. 9:322,2018.

      轻声(T0)是普通话的一种特殊现象,具有声调和轻音的双重属性。目前针对轻声这种声调、轻音双重属性的研究较少。本研究主要关注:(1)重音语言的成人是否将轻声音节感知为轻音;(2)普通话(声调语言)和荷兰语(重音语言)的婴儿如何感知轻声音节。研究设计了三组实验。实验一的结果表明荷兰语成人将轻声音节感知为轻音。在实验二中,采用“视觉注视法(Visual Fixation)”测试了4-6个月和10-12个月的荷兰语/普通话婴儿,考查被试对双音节轻声假词“/pan1san0/”和非轻声假词“/pan1san4/”的区分能力。结果表明:(1)学习了轻声词以后,荷兰语婴儿可以区分T1T0和T1T4的差别;(2)两个年龄组的普通话婴儿都不能区分轻声词与非轻声词。普通话婴儿不能区分T4和T0的差别,可能源于T4和T0相似的调型。因此,在实验三中,我们使用了声学差异更大的刺激音“/pan1san2/”和“/pan1san0/”测试普通话婴儿的区分情况。结果表明,尽管总体上婴儿仍不能区分轻声词与非轻声词的差异,但婴儿学习了轻声词之后,就可以区分轻声与非轻声的差异。综合上述实验的情况来看,两个年龄组的荷兰语婴儿都可以区分轻声词与非轻声词,从知觉重构(Perceptual reorganization)的角度来看,这表明荷兰语婴儿将轻声作为轻音信息处理,而不是声调信息。普通话婴儿不能区分轻声词与非轻声词,说明婴儿在1岁内还没完成轻声的构建,声调范畴习得所需时间可能比我们想象得更长。

    未完待续

    友情链接

    COPYRIGHT ? 2017

    中国社会科学院语言研究所版权所有

    京ICP备17005063号-1

    邮编:100732

    地址:北京市东城区建国门内大街5号

    电话:010-85195379

    Mail:lingcass@yeah.net

    中国互联网诚信示范企业 违法和不良信息举报中心 网络110报警服务 

中国互联网协会 中国互联网协会信用评价中心 诚信网站