武汉大学杨旭--中文主页

语言也是平的——读《思维是平的》

发布时间：2023-04-11 点击次数：

心智具有深度，这似乎天经地义。该观点影响广泛，包括心理学、人工智能、认知科学、临床心理学和语言学等学科，均以此作为研究的出发点。针对该观点，英国著名认知心理学家尼克·蔡特（Nick Chater）出版了《思维是平的》（2020，杨旭译，中信出版社）一书，旗帜鲜明地提出：心理深度是个错觉，所谓内心世界及其包含的信念、动机和恐惧等，都是想象的产物；心智是平的，人类行为及其解释（如信念、欲望）是心智即兴创造出来的。^[1]在诸多认知现象中，作者尤为关注语言，多处提及或论及语言或语言学。试看若干论述：

作者指出，语言学理论本质上是一种系统和精密的解释。例如分析哲学认为，通过直觉和反省可以得出一个有关意义的连贯理论；生成语法则试图把语言的结构系统化，把合乎语法的句子组织成一个严丝合缝的理论。可惜这类“解释”都遭遇到了挫折，原因在于“语言中的结构模式如同意义一样，充满了矛盾的规则、次规则和明显的例外。”（第16页）从“心智是平的”观点出发，作者主张把语言视为惯例（precedents）而非原则，正视其矛盾性、灵活性和开放性（第208页）。在纷繁芜杂的语言学理论之中，作者比较推崇构式语法（Construction Grammar），因为它放弃了“语法是理论”的做法，诚恳地正视并接纳语言的零碎性（第238页）。

上述引文都预示了“语言是平的”的观点，这也是“心智是平的”观点的自然推论，遗憾的是没有专门讨论这个问题。“语言是平的”自然是个隐喻，这也与过去的类似表达一致，如“地球是平的”（意指世界正在经历全球化）、“设计扁平化”（意指追求简约和抽象的风格）和“管理扁平化”（意指简化组织结构，减少管理层次）。这些用法都突破了“平”的规约化隐喻义（又叫“死隐喻”），如“公平”“安定”和“普通”等，赋予了新的内涵。“语言是平的”亦如是，下面会展开详细论述。本文遵循“是什么→为什么→怎么样”的行文逻辑，首先探讨“语言”和“平”的内涵，接着论证语言何以是“平”的，最后提供该观点的方法论启示。

一、“语言”是“平”的

“语言是平的”中的“语言”到底指涉什么？这个问题并不容易回答。前面提到一些类似隐喻，基本都能找到比较实在的“本体”，如心智/思维可以定位到大脑、神经元或神经元之间的网络；设计可以定位到UI界面；世界更不用说，至今有人主张地球是平的（字面意）。唯独语言，似乎无所不在，但又不知去向。事实上，语言的界定一直是语言学界分歧乃至分裂的焦点。试看“现代语言学之父”索绪尔对此的思考：

这就是我们在语言学方面的信念声明：在其他领域，人们从某一视角谈到物，确信物本身就是个确定的场所。在语言学里，我们原则上否认给定的物，否认当我们从一个序列的思想过渡到另一个序列时还有物继续存在，并且我们随后可以让自己从多个序列中去考察“物”，就好像物是由自身给定一样。^[²^]

法国结构主义大师本维尼斯特延续索绪尔的思考，明确了两类现象：

在我们看来，应该对两类现象做出根本的区分：一方面，是物理学、生物学的材料，它们具有“简单的”（不论多么复杂）性质……；另一方面，是人际（interhumain）领域特有的材料，其特征是从来不可被视为简单数据，并不可在其自身性质范围内被界定，因为它们不论有何“指涉”（référent），均与他物相连。^[²^]

德国著名语言学家鲁迪·凯勒比本更进一步，区分了三种现象：

一种是上帝创造的（亦即天然存在的），另一种是人类创造的。……在自然现象和人造工艺品之外，还有第三类现象的存在，而语言正是其中之一。……哈孔森（Knud Haakonssen）在著作中提到：“这类事物和自然现象一样，不是有意图的，必须以动力因来解释，而它又如同人工现象一样，是人类行为的结果。”^[3]

从索绪尔到凯勒，对语言的认识越来越深刻，而这又得到了复杂科学的回应：语言是一种动态涌现现象，或者说，语言是一个复杂适应系统！如此一来，语言既不是泥土（自然实体），也不是泥人（人类创造），而是草坪中间出现的泥路（很多有意图个体创造出来的无意图产物）。秉持凯勒的深刻洞见，语言至少可以定位到三个所在：语言使用、个体大脑和集体无意识；^[⁴^]它们密切交织在一起，语言使用固化为个体大脑中的语言知识，或规约化为集体无意识中的语言规约，又反过来又对个体或集体的语言使用提供反馈，从而形成了生生不息的动态循环圈。

当我们宣称“语言是平的”，针对的是其反面“深”。在后者看来，语言是一套精炼而严格的规则（rule）或法则（law），由“深”及“浅”运作；大脑深处存储着某种抽象而严格的语言能力，任何说话者可以根据需要生成表层语言表现。他们认为规则具有压倒性，可以迅速推广到任何语言现象；只有规则会得到存储，基于规则产生的实例不会得到存储；规则是说一不二的，不会受到频率等使用因素的干扰。^[⁵^]生成语法是这种做法的典型代表，如前所述，他们力图把语言学家的直觉构建成某种数学严格的理论，由此捕捉到每个人的语言知识本质。遗憾的是，这种做法遭遇到了挫折：“事实上，乔姆斯基及其追随者已经大大偏离了这种具体实践，转而专注于抽象理论和哲学思辨。”^[¹^]

“语言是平的”反其道而行之，主张语言是惯例或纲领（guideline），没有深层只有表层。^[⁶^]语言是一套从历时进程中涌现出的规约，是为了帮助说话者更好地表达，帮助听话者更好地推论或猜测；^[⁷^]而语法则是人类大脑中的知识存储清单，语法和词汇没有绝对的区分，各种语言结构并列地储存在一起。^[⁸^]如蔡特所言，这种做法正视语言的矛盾性、灵活性和开放性，“诚恳地接纳语言的零碎性”，允许规则、次规则甚至例外的存在，因此可能是更符合事实的一套语言观。

二、语言何以是“平”的？

下面将分别从五个方面论证“语言是平的”：语言具有概率性，语言具有即兴性，语言具有网络性，语言具有通用性，语言具有普世性。

（一）语言具有概率性

斯坦福大学计算机学院教授、麦克阿瑟天才奖得主任韶堂（Dan Jurafsky）曾说：“各式各样的证据表明语言具有概率性。概率在语言理解和产生方面，对意义提取、分解和生成起作用。概率在学习方面，对切分和概括起作用。概率在语音学和形态学方面，对可接受性判断和替换性起作用。概率在句法学和语义学方面，对范畴梯度化、句法合格与否的判断和解释起作用。概率在建立语言变化和差异模型中更起到关键作用。”^[⁹^]上面提到的规则、次规则甚至例外都体现出了概率性，试看若干例子：“向心结构理论”被引进国内后遭到各种质疑乃至否定，但调查表明它能够解释大约80%的语言实例，说明它仍然是个很好的“规则”。^[¹⁰^]英语中的不规则过去时被视为“例外”，但如果仔细观察的话，会发现如spring/sprang、swim/swam和sing/sang等，在内部因形式相似而形成了小范围的“次规则”，这样当我们遇到新词如spling就可能造出splang。^[¹¹^]即便找不到上述规则或次规则，“语言是平的”也能够坦然接受“例外”，因为“我们可以提前预知，例外类别会占我们所研究的任一特征的实例的20%。此外，它更占任一特征的不同构式或结构的80%。” ^[¹²^]

（二）语言具有互动性

“互动性”可以细分为“对话性”“即兴性”和“限制性”，具体如下：

（1）对话性。在语言使用当中，典型场景是两个对话者，他们一起参与并做出贡献（即使是缄默不语）——可以比喻为“语言是双人舞”。

（2）即兴性。在语言使用当中，话语是对话者面对面建构或协商出来的，反映了说话人对这些形式的过往经验，以及对当前语境、尤其还包括对听话人的判断^[¹³^]——可以比喻为“语言是即兴舞蹈”。

（3）限制性。在语言使用当中，使用哪些表达会受到已有规约用法的限制，而规约用法又是受生理和心理等各种约束产生的（当然不排除创新用法）——可以比喻为“语言是戴着镣铐的舞蹈”。

可以把上述三点综合为：“语言是戴着镣铐的双人舞蹈”。双人舞需要两个人共同参与，当他们结成舞伴时，必然预设对方有跳舞基础，就像两人展开谈话必然或多或少共享一些社会或文化背景（如知识、经验、信念、态度和情感）。在跳舞开始后，双方都要随时注意并预测对方的步伐，然后决定自己的步伐。如果两个人舞蹈功夫相当，那么很难区分谁是主动者，谁是被动者，正如对话者的身份随时在互换。他们共同建构了舞蹈行为，我们很难把舞蹈一分为二，说哪些舞姿和步伐属于哪一方，就算把它们拆解，也很难合并为优美的舞姿。另外，舞蹈有固定的程式和步伐，这些步伐无法超越人类的生理限制，舞蹈者偶尔会创新发挥，但并不会太多。^[¹⁴^]

（三）语言具有网络性

蔡特在书中指出，从上个世纪四十年代开始，计算的联结主义模型成为传统“数字”计算机的有力竞争对手，之后波及心理学和认知科学，从八十年代开始取代了符号取向的认知主义，成为现代认知心理学的理论基础。比如激活扩散模型认为，概念之间的关系主要体现为横向联系（而非纵向的逻辑层次关系），相互联系越紧密就越容易互相激活。联结主义的主要根基在于神经系统：大脑的基本计算单位是神经元，1000亿个神经元组成巨大的合作网络，通过错综复杂的电化网络互传电子脉冲（俗称“放电”）进行合作；大脑的运行速度虽然不如计算机，但是巨大的数量优势弥补了这一缺陷（大约一千亿个神经元构成了大约一百万亿个联结）。

从联结主义出发，很多语言学家主张，语言以网络形式得到存储和表征。比如受到蔡特推崇的构式语法，在新的交叉学科背景下，基于人类大脑的神经或联结网络提出构式以联想网络存储和处理的观点。如Goldberg最近把“构式”定义为“基于相同形式、功能和语境维度涌现出的损耗记忆丛集”，“构式之间形成构式库，是抽象、有序、分布和部分重叠的表征丛集网络”。^[¹¹^]如果语言以网络形式得到存储和表征，那么语言就不是能指-所指或形式-意义/功能匹配那么简单，而是可以激活多种多样的关联模式。我们综合最新研究成果，^[⁴^][¹⁵^]归结为五种关联模式：

（1）符号关联（symbolic relation）：指形式和意义的结合，不论是从形式到意义（semasiological），还是从意义到形式（onomasiological），都表现出一对多的关系。

（2）组合关联（syntagmatic relation）：指语言单位之间横向的线性关系。

（3）聚合关联（paradigmatic relation）：指语言单位之间纵向的聚合关系，包括词汇关联（lexical relations）和构式关联（constructional relations），前者指词汇之间受词汇启动（lexical priming）而形成词汇聚合，后者指抽象构式受结构启动（structural priming）影响形成构式聚合。

（4）层级关联（taxonomic relation）：指构式在抽象性或图式性上体现出的纵向关系，自上而下叫范畴化，自下而上叫抽象化或图示化。

（5）语用关联（pragmatic relation）：指语言单位在上下文、情景语境乃至社会、文化语境中获得语义解读。

把语言视为复杂网络，再拆分为具体的关联模式，让我们对语言有了精细的认识，真正践行了语言研究的“系统观”。^[¹⁶^]

（四）语言具有通用性

语言的“通用性”指，语言所依赖的认知加工是领域通用（domain-general）而非领域独有（domain-specific）；领域通用加工指除语言外还在其他认知领域当中运作的加工，领域独有与之相反。这种思路把语言视为诸多领域通用认知能力的延伸，或者说，领域通用认知过程塑造了语言结构和语言知识。那么有哪些领域通用认知能力会影响到语言呢？我们综合文献中的观点列表如下。^[⁴^][¹⁵^][¹⁷^]下面强调一下记忆对语言的重要性。

表1：语言涉及的领域通用认知加工

社会认知		共同注意（joint attention）、共同基础（common ground）、为听话者设计（audience design）、模仿（imitation）
个体认知	概念化	隐喻、转喻、力量传递（force dynamics）、具体化（reification）、图形-背景分离（figure-ground segregation）
个体认知	记忆	工作记忆、跨模态联想（cross-modal association）、组块化（chunking）、范畴化、抽象和类推、启动（词汇启动+结构启动）、自动化、学习（基于统计的学习+基于意外的学习）

过去因为担心记忆容量问题，把语言的心理表征尽量简化（即规则），把语言使用的细节排除在外，如今看来有点杞人忧天。大量基于实验和语料库的研究发现，人类具有逐字记忆能力（verbatim），可以记住大量的语言相关信息，包括：我们可以记住各种语音细节和语义细节（如推理意义、社会、物理和语言背景属性等）；可以记住各种固定组合，如整个小句、特定词语组合以及双词搭配等——这被称之为“习语原则”；我们会记住频率信息（这对形态结构和变化至关重要）；还可以记住构式及其具体实例（基于具体实例才能实现类推扩展或创造新构式）；等等。当然，这不是说我们可以随便记忆。事实上，我们只会记住与我们相关的信息，它们固化在大脑中形成惯例，方便下一次遇到类似情况直接取用。

在记忆中，工作记忆与语言直接相关。工作记忆有两个特性直接决定了语言表现，分别是容量有限（load）和快速处理（speed）。过去把容量总结为经典的“7±2”个组块，^[18]如今普遍认为是4个左右的组块。^[19]但如果具体到意识或意识焦点，那么会下降到“1”。比如蔡特就特别指出，人类的意识一次只能注意到一个或一组信息。语言也在适应这一限制，如句法结构的直接成分不会超过7个，模式成分不会超过4个；这决定了最复杂的句式也就是一个动词加三个论元，如双及物结构和“使/make”字致使结构。^[20]快速指的是，人类以组块为单位快速处理信息，一旦此时不及时处理，很快就会淹没到快速涌入的其它信息之中（人类平均一分钟要处理150个词）——被称之为“现在或永不瓶颈”。^[²¹^]这一限制决定了人类必须尽早处理完信息。为了达成这个目标，话语开头成了十分关键的位置，说话者必须充分利用话语开头设置好后续话语所需的语境，这样才能保证听话者借助语境信息对语言做出快速合理解读。比如汉语中的“话题-述题”结构，因为大部分情况下述题要依存于话题才能得到赋值或解读（反之则不行），这就造成了话题先出现，且一般在语用上是给定信息，在指称性上是定指、普遍或类指的。

（五）语言具有普世性

“语言是平的”对规则或法则提出若干质疑，但并不意味着它全然反对“普遍语法”，相反它还支持普遍语法的存在，不过是另一种普遍语法。如美国发展心理学家托马塞洛所言，“普遍语法的确存在，”原因在于不管说哪种语言的人：（1）都用类似的方法来感知世界；（2）都有一大套相同的沟通功能，因为他们的社会意图、社会动机大同小异；（3）都会用类似的办法操控对方的注意力；（4）全世界的人都具备相同的发声-听觉构造，因此用类似的方法处理声音-听觉讯息。^[22]

我们可以通过语法化的普遍路径来看看普遍语法到底是什么。比如表示进行体的标记一般都来源于表示位置的动词或介词，如西班牙语中的estar、汉语中的“在”。再比如表示将来的标记一般都遵循如下路径：

意欲（volition）

义务（obligation）＞意图（intention）＞将来（预测）

向某处移动

汉语中表示将来的词有“欲”“要”“将”“就”“去”“回头”等。其中“欲”“要”都明显含有欲求的意思，甚至“将”也有一些古书训为“欲”，如《刊谬补缺切韵》《广雅》《助字辨略》。高名凯甚至直接把这些词称之为“欲词”（desirative），认为它们只是附带地表示将来。^[²³^]“就”“去”“回头”都有“向某处移动”的意思，从空间维度引申出了时间维度用法。可见汉语表示将来的引申路径与其他语言是一致的。

三、方法论启示

（一）泛时路径

“泛时”（panchronique）又叫“异时”（heterochronic）或“整合的共时”（integrated synchrony），该观点认识到“处于时间线之时点的语言事件同时也可能是更长时段的语言变化的一部分”。^[²⁴^]泛时路径主要强调历时的一面，但由于其中的一个切面可能处于共时层面，因此称之为“泛时”。之所以主张泛时路径，是因为“语言本身乃是一个泛时系统”，^[²⁵^]或者说作为第三类现象的语言“不是形成历程的最终结果，而是无法言明其起始及终点的文化演进历程的一小阶段”。^[³^]泛时路径无法也不去做精准预测，而是更强调“诊断”（diagnostic）或“追溯”（retrodiction）价值：“我们已知待解释的现象，也知道法则，然后再去重建出前提。”^[³^]

（二）宏观路径

启功先生曾倡导语言研究要从“生理学式”走向“画素描、作雕塑”，前者“处处详细解剖、试验”，“可谓由里及表，或者可说是微观的”，后者“可算由表及里，或者可说是宏观的”。^[²⁶^]所谓“宏观”其实就是基于语言大数据得到一种粗粒度的量化描述（coarse-grained quantitative description），如齐普夫定律、依赖距离最小化等都是这种路径的产物。受制于复杂适应系统的非线性特征，宏观路径无法对语言做出精准预测，只能做出“弱预测”。^[27]需要说明的是，采取宏观路径并不意味着要放弃微观路径。事实上，“新描写主义”就主张“追求对语言事实或现象的细颗粒度的微观描写和刻画”^[²⁸^]。但我们认为，只有结合宏观路径才能避免犯“孤证”或“隐匿证据或曲解证据”的错误，或者避免陷入“可爱”与“可信”的两难境地。^[²⁹^]

（三）交叉路径

蔡特曾与美国康奈尔大学心理学教授Morten Christiansen合作撰文，批评了语言学界各子领域互不联系的现状：“句法、语义、语言类型及变化、计算语言学、语言处理、儿童语言习得和语言演化等研究领域各自为阵，观点林立且互不相容。”但作者对未来抱乐观态度，说，潮流正在变化，过去那种把语法视为抽象法则系统、世界语言遵循普遍模式和人们天生具备“语言本能”的假设正在被颠覆，一种新的基于语言文化演变视角、关注我们是如何习得和使用语言的综合性研究方法正在涌现。比如说，我们“可以把语言习得视为习得处理具体构式能力的过程；把语言演化视为由大脑的处理和学习偏向所塑造的过程；基于构式的扩散和修正，可以为语言变化和变异提供一个历史性的解释；可以把语言学和建构可操作的计算机语言处理系统联系起来。”而这正受益于跨学科或交叉路径。^[³⁰^]

（四）田野路径

世界语言的多样性远超我们想象，但目前有三点事实不得不引起警觉：（1）由于全球化和环境问题，一些语言正在消失（当然也包括中国境内），平均每个星期就有一种语言消失；（2）我们对语言的了解十分狭隘，主要是因为我们面对的样本十分有限，比如实验室内的被试主要是大学生，语料库或数据库相对语言海洋只是冰山一角；（3）语言学家无意于深入田野，认为“要理解语言，并不需要在语言上下功夫；这全都能够通过内省认知而达致”^[³¹^]。我们认为，对于语言研究来说“最有价值的理论工作是归纳性的”，而这就需要我们“到田野去”^[³²^]，即采纳田野路径。

作者单位：武汉大学文学院

注释

[1] 蔡特. 思维是平的[M]. 杨旭译. 北京: 中信出版社, 2020.

[2] 本维尼斯特. 普通语言学问题[M]. 王东亮等译. 北京: 生活·读书·新知三联书店, 2008: 30+36-37.

[3] Keller, Rudi. On Language Change: The Invisible Hand in Language[M]. London: Routledge, 1994: 58-59+70+74.

[4] Schmid, Hans-Jorg. The Dynamics of the Linguistic System: Usage, Conventionalization, and Entrenchment[M]. Oxford: Oxford University Press, 2020: 348.

[5] Pinker, Stephen. Words and Rules: The Ingredients of Language[M]. New York: Hatchet Book Group, 1999.

[6] Goldberg, Adele E. Surface generalizations: An alternative to alternations[J]. Cognitive Linguistics, 2002(4): 327–56.

[7] 罗仁地, 潘露莉. 信息传达的性质与语言的本质和语言的发展[J]. 中国语文, 2002(3): 203-209.

[8] Bolinger, Dwight L. Syntactic blends and other matters[J]. Language, 1961(2): 366-381.

[9] 桂诗春. 以概率为基础的语言研究[J]. 外语教学与研究, 2004(1): 3-9.

[10] 杨旭. 从二八理论看向心结构理论[A]. 国际中国语言学学会第26届年会(IACL-26)暨第20届中国语言与文化国际研讨会(ICCLC-20，2018年5月4-6日, 美国, 威斯康星大学麦迪逊分校), 2018.

[11] Goldberg, Adele E. Explain Me This: Creativity, Competition, and the Partial Productivity of Constructions[M]. Princeton: Princeton University Press, 2019: 135.

[12] Kretzschmar, William A. Jr. Language and Complex Systems[M]. Cambridge: Cambridge University Press, 2015: 95.

[13] Hopper, Paul. Emergent grammar [J]. Berkeley Linguistics Society, 1987(13): 139-157.

[14] Clark, Herbert H. Using Language [M]. Cambridge: Cambridge University Press, 1996: 18-19.

[15] Diessel, Holger. The Grammar Network: How Linguistic Structure is Shaped by Language Use[M]. Cambridge: Cambridge University Press, 2019.

[16] 卢英顺. 语言研究的系统观[J]. 语言研究集刊, 2008(1): 195-213.

[17] Bybee, Joan. Language, Usage and Cognition[M]. Cambridge: Cambridge University Press, 2010.

[18] Miller, George A. The magical number seven, plus or minus two: Some limits on our capacity for processing information[J]. Psychological Review, 1956(63): 81–97.

[19] Baddeley, Alan. Working Memory[J]. Current Biology, 2010(4): 136–140.

[20] 陆丙甫, 应学凤. 人类信息处理能力限度对语言结构的基本制约[J]. 语言教学与研究, 2019(3): 17-27.

[21] Christiansen, Morten H. & Nick Chater. The Now-or-Never bottleneck: a fundamental constraint on language[J]. Behavioral and Brain Sciences, 2016(39): 1-52.

[22] 托马塞洛. 人类沟通的起源[M]. 蔡雅菁译. 北京: 商务印书馆, 2012: 219.

[23] 高名凯. 汉语语法论[M]. 北京: 商务印书馆, 1986: 257.

[24] Lemke, Jay L. Language development and identity: Multiple timescales in the social ecology of learning[A]. In C. Kramsch (Ed.), Language Acquisition and Language Socialization [C]. London: Continuum, 2002: 68–87.

[25] 陈保亚. 论语言研究的泛时观念[J]. 思想战线, 1991(1): 52-56.

[26] 启功. 汉语现象论丛[M]. 北京: 商务印书馆, 2018: 98.

[27] 沈家煊. 语法研究的目标——预测还是解释？[J]. 中国语文, 2004(6): 483-492.

[28] 胡建华. 什么是新描写主义[J]. 当代语言学, 2018, (4): 475-477.

[29] 梁启超曾说：“孤证不为定说。”“隐匿证据或曲解证据，皆认为不德。”王国维在《三十自序》说：“哲学上之说，大都可爱者不可信，可信者不可爱。”如果语言学成为脱离证据的哲学思辨，那么当然也存在这样的问题。

[30] Christiansen, Morten H. & Nick Chater. Towards an integrated science of language[J]. Nature Human Behaviour, 2017(1). https://www.nature.com/articles/s41562-017-0163017

[31] 迪克森. 语言兴衰论[M]. 朱小农等译. 北京: 北京大学出版社, 2010: 113.

[32] 戴庆厦, 罗仁地, 汪锋主编. 到田野去: 语言学田野调查的方法与实践[M]. 北京:民族出版社, 2008: 编者序.

首发于“摩登语言学”。

PDF版本在线

上一条：语言学中数据引用的奥斯汀原则1.0版本

下一条：罗仁地教授作品译文（实时更新）

杨旭 var _tsites_com_view_mode_type_=8;

语言也是平的——读《思维是平的》

杨旭