把 Three 发成 sree,把 Very 发成 wery,或者把 This 发成 zis。
作为从小讲普通话的人,即使你已经察觉不到自己声音里的这些替换,但对这些发音习惯你大概不会陌生。这不是因为你不用心或偷懒,而是因为英语用到了一些你口腔从未训练过的发音动作。这些发音被塞进了普通话根本不允许的音节结构里,再套上了一套规则迥异的重音与节奏系统。几乎所有母语为普通话的人,都会在英语发音上踩进相同的坑。这些模式非常可预测,以至于经验丰富的听众只需听一句话,就能猜出你的母语。
这篇文章总结了12个这样的发音模式。我们在纯语音学的狭义层面上称之为「错误」,意思仅仅是:你口腔的动作与美国人不同。这不代表你不够努力,光靠「我要更用心」也无法解决。真正的方法是理解这背后的结构差异,然后针对性地训练特定的肌肉动作来缩小差距。
普通话的辅音库缺失了两个 TH 音 /θ/ 和 /ð/、唇齿音 /v/、带震动感的摩擦音 /z/,以及美式近音 /ɹ/。 普通话的音节只能以 /n/、/ŋ/ 或儿化音 /ɚ/ 结尾,并且完全没有辅音连缀现象。普通话用声调来表意,而英语依赖重音,且英语会极大压缩非重读音节,这在普通话中是不存在的。以下12个发音模式正是由这些底层差异造成的。只要解决影响最大的两三个痛点,你的口音清晰度就会大幅提升。坚持一年把大多数都改掉,那个还在向听众暴露你母语的差距会被显著缩小。
为什么普通话母语者学美音这么难
在列出具体清单之前,我们需要先了解几个结构性差异,因为它们几乎解释了后续的所有问题。
普通话的辅音库比英语小得多,并且缺失了几个英语中高频使用的音素。普通话没有 /v/,没有摩擦音 /z/,没有两个 TH 音,也没有美式英语里的 /ɹ/。拼音里的 “z” 是破擦音 /ts/,而不是带震动感的 /z/。拼音里的 “r” 是一个卷舌音,在标准语音学中被分析为 /ʐ/,但实际发音时,根据说话人和方言的不同,它可能会带有明显的摩擦声,或者接近于近音。当你的口腔试图发一个它没学过的英语发音时,它会本能地找一个最接近的普通话发音来替代。这就是那些典型口音破绽的根源。
普通话的音节规则非常严格。一个普通话音节只能以元音、双元音、/n/、/ŋ/ 或儿化音 /ɚ/ 结尾,仅此而已。不能以 /t/、/k/、/s/、/l/ 结尾。更没有辅音连缀。而英语允许极长的词尾(比如 sixths 以 /ksθs/ 结尾),几乎任何辅音组合都可以放在词尾。所以,讲普通话的人在说英语时,往往会吞掉词尾的辅音(把 want 发成 wan);或者在水平较高时,会倾向于过度依赖最容易听清的那个辅音来强行简化连缀。
普通话用声调,英语用重音。普通话的每个音节都有自己的完整声调,而且不会像英语那样极度压缩非重读音节。英语非常依赖音节重音:重读音节更长、更响亮,而非重读音节则会缩短,并向中央元音(Schwa) /ə/ 靠拢。把普通话习惯带入英语的人,往往会把每个英语音节的元音都发得很饱满,这在美国人听起来显得过于字正腔圆,甚至有些像节拍器。此外,中国学生习惯把语调放在单个词上,而不是让一条连贯的旋律贯穿整个句子。
以下这12个模式分为三组:你从小没接触过的辅音、普通话不作区分的英语元音对比,以及声调语言中不存在的节奏特征。大多数讲普通话的人会命中其中8到10条,而在平时说话时最常踩中的通常是核心的3到4条。
A组:普通话里没有的5个辅音
1. 两个 TH 音变成了 S、Z 或 D
think, three, both 里的清辅音 TH 会被发成 /s/。this, that, brother 里的浊辅音 TH 会被发成 /z/ 或 /d/。于是 three 听起来像 sree,this 听起来像 zis 或 dis。
普通话里没有把舌头放在牙齿中间发出的摩擦音。清辅音 TH 在普通话里最接近的替代品是 /s/;而浊辅音 TH 最接近的则是拼音里的 d——严格说,拼音 d 在语音学上是不送气清音 [t],跟英语的浊音 /d/ 并不完全相同,但对中国人的耳朵来说,听感最接近的就是它了。有些学习者在尝试发 /ð/ 时,会发出一种类似 /z/ 的不地道震动音,但这其实也不在普通话的标准音系里。在你最初几千次念出带 TH 的英语单词时,这种替换几乎是下意识的。
解决这个问题是个纯粹的机械活儿。舌尖需要接触上门牙的下边缘,并留出一条细缝让气流通过。这会让你觉得很别扭,因为普通话从来不要求舌头摆出这种姿势。你可以逐个单词练习(think, this, three, brother),每次都要真切地感受到舌尖碰到了牙齿。经过一周的集中训练,大多数人都能单独发出这个音。但要在正常的对话语速中稳定发准,则是一个需要数周时间的系统工程。
2. V 变成了 W
Very 变成了 wery。Video 变成了 wideo。Vacation 变成了 wacation。
普通话里有 /w/ 这个音,主要出现在 wo, wei, wan 等拼音中。但它没有带震动感的唇齿音 /v/。因此,当英语中出现 /v/ 时,你的口腔会直接去够那个最顺手的音,也就是圆唇的 /w/。
这两个音的动作差异很小,也很容易体会。/w/ 用的是双唇,轻轻微收。/v/ 则是上牙轻轻咬住下唇,然后释放出震动的摩擦声。把上牙放在下唇上,发出一声轻哼,你就得到了 /v/。难点在于,如何在说整句话时保持这个动作。很多人在单独练习单词时能把 /v/ 发得很完美,但十秒钟后进入连读,又自动退化回了 /w/。
3. Z(浊摩擦音)变成了 S
Buzz 变成了 buss。Zero 变成了 tsero 或 sero。Easy 变成了 eassy。
拼音里的 “z” 是不送气的破擦音 /ts/(如 zài, zǎo),而不是英语的摩擦音 /z/。所以,当遇到以 /z/ 开头的英语单词时,讲普通话的人往往会用 /ts/(带有舌头的短暂闭合停顿)或它的清音等价物 /s/ 来代替。无论哪种,那个带有嗡嗡震动感的浊音都消失了。
纠正的方法是加上声带的震动。先持续发 “ssss” 的音,然后中途让声带震动起来。你应该能感觉到喉咙的震动,以及口腔前部(正好在上牙后面)有一股酥麻感。这就是 /z/。用同样的技巧练习这些词:buzz, zoo, zero, easy, lazy。
4. 美式 R 变成了普通话的卷舌音
这是单一特征里最大的「中国味」标志,也是最难纠正的一个。
英语中 red, around, far 里的 R 是一个近音:你的舌头向硬腭抬起,但不接触,且完全没有任何摩擦声。大多数美国人发这个音时,是把舌头的中后部向硬腭隆起(即 bunched R),而不是把舌尖卷向齿龈后方(即 retroflex R)。这两种动作发出的声音是一样的。而普通话拼音 rén, rì, rè 里的 “r” 则截然不同:舌头卷得更靠后,很多人发音时带有明显的摩擦声(在标准分析中它被视为卷舌摩擦音,北方人发音时摩擦感更重,而南方人有时发得更像近音甚至直接省略卷舌动作)。在英语母语者的耳朵里,带有重摩擦音的版本听起来像是带有咝咝声的杂音,而英语的 R 根本不该有任何杂音。反过来,在中国人的耳朵里,美式 R 听起来就像没有发 R 音一样。这就是为什么有些人在试图把 R 发清楚时,反而用力过猛加重了摩擦声,导致发音更糟。
纠正它的思路有点反直觉:把你声音里的摩擦感抽掉。美式 R 其实比辅音更接近元音。舌头应该向硬腭抬起,哪里都不要碰,也不能有震动摩擦声。对于习惯普通话的人来说,采用「舌面隆起法(bunched R)」通常更容易找准目标——这能迫使你的舌头完全脱离发拼音 “r” 时的卷舌姿态。有些老师会把它形容为「抬起舌头中段发 uh 的音」。对于习惯发摩擦 R 音的中国学生来说,这感觉就像根本没发音一样。如果有这种感觉,那就对了。
5. 词尾辅音和辅音连缀被简化
Want 变成了 wan。Asked 变成了 ast 或 ass。Mixed 变成了 miss。First 变成了 fer。
普通话音节只能以元音、/n/、/ŋ/ 或儿化音 /ɚ/ 结尾。要求你的口腔以 /t/、/k/、/s/、/l/,甚至它们的组合来结尾,等同于要求你做一套在你的语音习惯里根本不存在的连贯动作。在初级水平,中国学习者最常采用的策略就是直接把读不出的辅音吃掉:want 丢了 /t/,asked 的两个尾辅音全军覆没,first 丢了 /st/。水平较高后,可能会换一种策略:在辅音之间强行插入一个小元音,让每个辅音都自成一个音节。这种加元音的做法在日本学习者中更为典型,但在中国学习者的进阶阶段也很常见。
解决方法是先建立意识,再刻意练习。大声朗读,留意任何不以 /n/ 或 /ŋ/ 结尾的单词。放慢速度。把词尾辅音发出来,但不要拖长。Want 这种词,结尾的 /t/ 并不需要明显的爆破声——舌头抵住,气流停下、就停在那里,不要再打开。这就是美音里”不释放塞音”(unreleased stop)的做法,你在 cat、cut、not 词尾听到的就是它。遇到真正复杂的连缀,看美国人实际怎么读就好,不要逐个去硬抠每个辅音。Asked 在书面上是 /skt/,但在日常的美音里,/k/ 几乎是稳定省略的,整个词读作 /æst/。强行念出每个辅音反而会产生本文后面要警惕的那种机械顿挫感。目标是让结尾辅音确切地留在那里,但又不要喧宾夺主。
B组:普通话不区分的4组英语元音对比
6. /æ/ 与 /ɛ/:bad 和 bed 经常混淆
普通话并不区分低前元音 /æ/(如 cat, bad, man)和中前元音 /ɛ/(如 bed, said, men)。对很多中国学习者来说,这两个英语元音往往会坍缩成同一个音(通常更接近 /ɛ/),于是 bad/bed, sat/set, had/head 变得难以分辨。研究表明,中国学生在听辨这组对比时,错误率高达 12%–15%。虽然没有完全混淆,但在日常交流中这已经足以让母语者敏锐地察觉到异样。
/æ/ 的发音位置更低,时间更长,嘴巴张得也更大。下巴下沉得更多,声音带有一种轻微的拖拽感(有些老师形容美式 /æ/ 有两个阶段,几乎像个双元音:BAA-uh)。相比之下,/ɛ/ 短促而紧绷。你可以通过最小对立体进行序列练习:bad–bed, sat–set, had–head, mat–met, past–pest。(注意避开带有鼻音的词对,如 ran/wren —— 美音里 /æ/ 在 /n/ 和 /m/ 之前会发生音变,这会干扰你正在练习的纯粹对比度。)在这里给自己录音非常有帮助。一开始,你的耳朵比你的嘴巴更能敏锐地捕捉到这种差异。
7. /ɪ/ 与 /iː/:ship 和 sheep 听起来一样
普通话拼音里的 “i” 接近英语的 /iː/(即 sheep, beat, see 中那个又长又紧绷、需要咧嘴笑的元音)。但普通话并没有真正的 /ɪ/(即 ship, bit, this 中那个短促、松弛、处于自然状态的元音)。因此,中国学生往往会把这两个音都统一发成 /iː/。Ship 听起来像 sheep,bit 听起来像 beat,this 听起来像 thees。普通话母语者在发 /ɪ/ 时的错误率大约在 23% 左右。
尽管 IPA 符号标注了长度标识,但它们之间真正的区别更多在于舌位和下巴的位置,而不仅是时长。/iː/ 位置高且紧绷,/ɪ/ 位置稍低且放松。想要找准 /ɪ/,先从发 /iː/ 开始,然后让下巴微微下落,同时放松嘴角的笑意。对比练习:ship/sheep, bit/beat, fit/feet, lid/lead, rid/read。
8. 带 R 色彩的元音:消失的 R
美式英语有两种与 R 相关的发音模式。像 bird, work, her, nurse 这样的词,其核心是一个纯正的带 R 色彩的元音:bird 中的 /ɝ/ 是一个单一且连贯的舌位,元音和 R 融合成了一个音。Butter 以其非重读版本 /ɚ/ 结尾,舌位相同。而像 bear, car, four 则是元音加 R 的序列——它们以清晰的元音开头,然后平滑地滑动到 R 音上,而不是单一融合的音。这两种模式对中国学生来说都很难,因为 R 必须完美融入音节中,而不是作为独立的辅音生硬地加在后面。带有 R 色彩的成音节元音(/ɝ/, /ɚ/)在跨语言层面上其实相当罕见:世界上不到百分之一的语言拥有这类音,而英语和普通话恰巧都在其中。
普通话里的对应现象是「儿化音」(érhuà),即依附在某些音节末尾的卷舌 /ɚ/(在京津等北方方言中尤为常见)。但这两种音的发音位置和用法并不相同,你不能直接把普通话的儿化音原封不动地搬进英语词里。当你试图发带 R 色彩的英语元音时,通常会遭遇两种典型的失败:一是完全丢掉 R 的色彩,把 bird 发成了 bed;二是在元音后面硬塞一个单独的普通话 R 音进去,导致 bird 变成了 ber-r。这两种听起来都很违和,原因都在于 R 的色彩并没有从头到尾融合在元音里。
纠正方法是:去体会元音和 R 融为一体的连续舌位。bird 只是一个被拉长维持的单一舌部姿势(舌头向硬腭抬起,无接触,无摩擦声),前面加上 /b/,后面加上 /d/。这里面绝不存在一个独立且分离的 R。
9. 中央元音(Schwa)被发成了饱满的元音
英语里的中央元音 /ə/(Schwa)是一种纯粹的弱化机制。它出现在非重读音节中,几乎能把任何元音都拉拽到一个中立的中心位置。About 的发音是 /əˈbaʊt/,第一个音节微弱到几乎听不见。Banana 的发音是 /bəˈnænə/,首尾两个弱化的 /ə/ 把中间的重读音节夹在中间。
普通话中并没有这种作为普遍规则的弱化机制。「轻声」确实会使某些词失去声调并弱化成类似中央元音的声音——例如「的(de)」、「了(le)」以及「妈妈(māma)」的第二个音节。但这只是一个狭窄的语法规则,而不像英语那样是一条普遍的语音铁律。大多数普通话音节在日常语流中都保持着完整的声调和饱满的元音音质。因此,中国人在说英语时,倾向于赋予每个非重读音节字典上标注的完整元音:把 about 发成了 ay-bout(带有两个非常清晰的元音),而不是 uh-bout。这会让讲话听起来过于刻板、甚至有些用力过猛,这也就是为什么高阶学习者有时会被母语者评价「听起来像机器人」或「像在朗读课文」。
纠正的方法十分反直觉:少用力。非重读元音应该比重读元音更轻、更短、更含混。用双音节词(about, away, again, alone, before, today)进行练习,试着让非重读音节听起来十分慵懒。中央元音,说白了就是一个你的口腔发到一半就放弃了的元音。
C组:3个节奏与语调的错位
10. 词重音放错位置
英语拥有词内的重音机制:比如 PHO-to 重音在前,而 pho-TOG-raphy 重音在后;作为名词时是 RE-cord,作为动词时则是 re-CORD;e-CON-o-my(名词)重音在第二音节,加上后缀变成 ec-o-NOM-ic(形容词)后,重音就跑到了后面。普通话在词内并没有这种轻重缓急的凸显感。套用普通话模式的人,要么瞎猜重音位置(把 PHO-to 说成了 pho-TO),要么把每个音节都发得一样重。
对于美国听众来说,放错重音是最让他们摸不着头脑的错误之一。即使你其他所有的元辅音都完美无瑕,错位的重音也会让整句话瞬间走钟。MO-tor-cy-cle 是一个正常的词,但如果你读成 mo-TOR-cy-CLE,听起来就像是一支糟糕的山寨乐队。除了在学习新词汇时有意识地记住重音,这里没有任何捷径。花点额外的时间查字典看重音符号,绝对是物超所值的。
11. 每个音节平均用力,听起来像打拍子
英语对非重读音节的压缩极为残酷。在 I’d LIKE to GET a CUP of COF-fee 这句话中,只有四个突出的音节,而那些非重读的词则被快速且悄无声息地塞进了它们之间的缝隙里。“to”、“a” 和 “of” 中的绝大部分元音都被弱化成了中央元音 /ə/。
普通话不玩这种压缩机制。每个普通话音节都自带声调和饱满的元音,所以音节绝不会像英语的非重读音节那样被挤压萎缩。当把这种模式搬进英语时,每个音节都会以相同的重量砸下来(I-LIKE-TO-GET-A-CUP-OF-COF-FEE),结果就是满屏幕的机器感。母语者的耳朵预期那些非重读的词应该是隐形的;如果它们清晰可见,你的英语就会显得刻板、正式,与周围的本地人完全脱节。(虽说最近有一些语料库研究质疑「重音节拍」与「音节节拍」的严格二分法在数据测量上是否站得住脚,但其背后的功能差异有着明确的文献记载:英语系统性地弱化非重读音节,而普通话仅在极其狭窄的语境下才会弱化。)
破局的方法是结合前面第9条的中央元音,并大胆地压缩那些非重读词。大声朗读一个句子,夸张地强调重读词,同时几乎用嘟囔的方式糊弄过去那些非重读词。一开始你可能会觉得这样很不礼貌或者含混不清,但这实际上听起来要比之前接近地道美音得多。
12. 声调语言的干扰让语调被困在单词上
在普通话里,音高是每个词汇本身的一部分:「妈(mā)」是高平调,「麻(má)」是升调,「马(mǎ)」是曲折调,「骂(mà)」是降调。音高起伏是属于独立音节的。
但在英语里,音调起伏是属于整个句子的。陈述句在句末降调;一般疑问句在句末升调;表达惊讶时,会在令人惊讶的那个词上拉高音调。
当把声调模式带入英语时,往往会发生两件事。首先,单个音节会被赋予自己的音调起伏,这让说话人听起来像是在强调那些根本不需要强调的词。其次,句子结尾的语调彻底丢失:疑问句该升不升,陈述句该降不降,整句话的节奏主轴荡然无存。
解决之道是:专门去听句子的整体旋律。找一段美国人说话的音频,忽略他们说了什么词,只听整句话起起伏伏的调子。陈述句在末尾下沉,疑问句上扬,列举事物时逐个上扬并在最后一个词下沉。一旦你能听出句子的轮廓,就在真正的句子里去模仿它,并让单个的单词安静地顺应这种旋律。
关于粤语、吴语及其他汉语方言的补充说明
本文专门针对普通话母语者。如果你的第一语言是粤语、吴语(上海话)、闽南语或其他汉语方言,上述的大部分模式依然适用,但在具体细节上会有所不同。
粤语拥有六个韵尾辅音(相比之下,普通话只有两个鼻音韵尾):/p t k m n ŋ/,其中 /p t k/ 是不释放气流的入声。这使得讲粤语的人在处理英语词尾的塞音时,通常比普通话母语者更得心应手。不过他们依然会面临辅音连缀的困扰(粤语同样不允许连缀)。香港粤语还存在一种已被广泛记录的 /n/ 变 [l] 的合并现象,这会导致在 night/light 的区分上产生与普通话使用者截然不同的错误模式。上海话则拥有自己独立的辅音和声调系统。西南官话使用者(四川、云南、重庆、贵州、湖北、湖南、广西)在音节开头的 /n/ 和 /l/ 上往往不分,这种习惯容易被带到英语中,导致 night 和 light 撞车,而具体保留哪一个音素则因各个子方言而异。闽台地区的闽南话则加入了自带入声字词尾塞音的系统,这也无法与英语完美对应。
底层的分析框架是相同的:你的母语有着与英语不同的语音库和音节规则,两者之间的鸿沟是可以预测的。只是具体的落差处因方言而异罢了。
如果用母语检测器来测你的口音
如果你上传一段自己朗读段落的录音,受过普通话母语英语语料训练的软件,大概率能在你身上精准标记出上述的三到四个典型特征,作为你的主要发音模式。对于绝大多数以普通话为母语的人来说,它通常是 TH 音、R 音、词尾辅音以及节奏问题的某种组合。列表中的其他八项要么在你说话时出现的频率较低,要么只在特定单词中才会显现。
明确知道自己到底踩中了哪三四个坑,是改善口音最切实可行的一步。你不需要把这12条全部纠正,你只需要解决在你的发音中杀伤力最大的那两三个问题就足够了。
常见问题
大多数成年学习者终生都会保留某种母语痕迹,这完全不是问题。我们的目标并不是变得和母语者难分伯仲,而是做到清晰易懂,不让听众停下来费力去破译你的话。几乎任何一个愿意投入 40–80 小时专注解决上述两三个核心痛点的普通话母语者,都能从容达到这个目标。
普通话难度中等,和韩语相当,但比西班牙语难。普通话缺失的辅音(TH、V、Z、美式 R)也正是大多数东亚语言所缺乏的,所以针对辅音的练习基本是东亚新手的标配。更大的阻碍在于节奏,以及普通话缺乏非重读音节的弱化机制。这些方面与英语相去甚远,弥合这一鸿沟需要下不少苦功夫。
这两种 R 对中国人来说都挺难,但难点不同。美式英语是全卷舌的(rhotic);带 R 色彩的元音广泛出现在词中和词尾(car, bird, four),而在不卷舌的英式英语中,这些位置的 R 都会被省去。所以美式英语要求你不断地发出带 R 色彩的元音,而英式英语大多避开了这个雷区。此外,美式 R 本身与普通话拼音 R 的差距,比人们想象的要大得多:普通话的 R 带摩擦声(北方口音尤甚),而美式 R 则绝对没有摩擦。
不必,而且你大概率也做不到。改善口音的核心在于清晰度以及语境切换的能力,而非将其彻底抹除。大多数成功的华人英语使用者都会培养出两套语域:一套在关键的高能见度英语场合使用(董事会、发表演讲、致电客服),另一套更轻松自如的语域则留给朋友、家人和非正式生活场景。两者同样正当。这没什么可羞耻的,前者也并没有什么特权光环。
很多是重合的,但不全一样。粤语有自己的辅音系统,包含六个韵尾辅音(普通话只有两个鼻韵尾),元音系统也不同,香港人还有被文献记录的 n/l 合流现象。许多台湾国语使用者(尤其在大都市以外)会把拼音里的翘舌音 sh, zh, ch 和平舌音 s, z, c 混在一起。闽南语使用者则因为入声字系统的存在,有额外的词尾塞音模式。你可以利用本文的框架,再结合你对自己方言特有音系的了解,对号入座来解决属于你的差异。
若要达到目标一(持续稳定地清晰表达,不被别人要求重复),大多数人只要针对自己最严重的两三个问题进行 4–12 周的集中练习即可。若要达到目标二(拥有一套可以随时切换的、地道的美音语域),则需要 6–12 个月的常规练习。至于目标三(与母语者毫无二致),那是一个以年为单位的浩大工程,绝大多数学习者出于理智都不会去盲目追求。我们的关于口音消除时间线的姊妹文章里有更详细的数据拆解。
这 12 个发音问题的底层逻辑如出一辙。你的口腔自带一套来自母语的肌肉记忆,而英语要求的肌肉动作虽然有部分重合,但大部分是迥然不同的。这种错位纯粹是机械物理层面的,而不是什么玄学。找出你发音中破坏性最大的两三个模式,通过死磕那些特定的口腔动作来缩小差距。真正的目标是清晰度——那种不需要听众反复让你「再说一遍」的从容与自信。