聊天英文 英文聊天短语【精选5篇】

2024-02-09 18:12:45

下面是书包范文为小伙伴们精心整编的英文聊天短语【精选5篇】,希望对小伙伴们有所帮助。

英语聊天 篇一

【关键词】网络环境;隐性知识;博客;聊天机器人

一、问题的提出

在传统的英语学习中,教师传递语言知识的过程是一个显性过程,学生要花费大量的时间和精力死记硬背已学过的语言知识却收效甚微,因此他们对英语学习就会产生厌倦甚至是挫败感,即使是面对海量的网络学习资源也无所适从。英语学习本是一个长期积累的过程,单靠课堂上的学习是远远不够的。那么如何运用自身的隐性知识在网络环境下去建构新的知识就成了人们关注的焦点。

二、核心概念的界定

1.网络学习环境

网络学习环境是基于网络平台的,以学习者为中心的,支持其学习活动的显性与隐性因素的总和,它与学习者构成一个整体,处于不断变化,发展之中。网络学习环境中,显性环境和隐性环境彼此相互影响,相互依赖,构成不断运动的整体。显性环境由处于学习个体周围的,可见的一切物质要素构成,是一种物质环境,它包括网络、计算机、远程学习系统、学习资源库等可见的有形的人为性要素。而学习者个体的观念、学习动机、情感、意志等心理因素,人际交互以及蕴含在学习活动中的学习策略等成为影响学习的无形环境,我们称为隐性环境。

2.隐性知识

隐性知识是一种无意识的认知能力,它的获取必须通过个人的亲身体验、实践和领悟。和显性知识相比,隐性知识在个人知识构成中是主体部分,在个人认知活动和实践活动中,隐性知识起着更为重要的作用。在教育中,教育内容虽然主要是显性知识,但隐性知识却是认识的源泉。

三、影响英语学习的因素

1.母语对第二语言的影响

学习第二语言的人无疑会借助一些第一语言的知识。当中国学生接触到英语时,他们的母语系统已经确立,母语思维习惯也已形成。由于缺乏学习母语那样的语言环境和交流机会,因而在学习英语时,从知识的理解、掌握到运用都需要学习者付出艰辛的劳动。按照行为主义学习理论,原有的习惯会影响新习惯的养成,因此对第二语言学习来说植入大脑中的母语规则可能会干扰第二语言正确掌握。

2.学习者自身的因素

(1)个性差异

美国JamesM1CaNall曾对人的遗传差异进行研究,提出了人在遗传上先天就有差异,有些人具备别人的欠缺的语言天赋。这种掌握语言的能力被称之为语言能力。学习者个性的差异会进一步导致学习方式的差异。

(2)学习动机

学习者的学习受多方面因素的影响,其中主要是受学习动机的支配,动机可分为内在动机和外部动机,内在动机发自于学习者内心的愿望,可能他们擅长学习语言,对英语有着非常浓厚的兴趣,当然也有可能他们对第二语言的文化、信仰、价值观感兴趣,想通过掌握目标语来了解另一种文化。而外部动机则来自于外部刺激,学习者学习第二语言可能是想通过某种考试以完成必须要达到的目标或者是获得职位的晋升;也许仅仅是为了今后能找到一个理想的工作,或者出国等等才使他们学习另一种语言。无论内在动机,还是外在动机,对外语学习效果都有一定的影响。

(3)学习方法

学习者由于学习习惯、年龄、性格等诸多差异,在习得第二语言的过程中所采用的学习方法也是各不相同的。比如在记单词的方式上就有很大的差别,有的学习者为了记住单词可能会重复的去读写单词,而有的学习者却根据单词的音标也就是通过单词的发音来记单词,这类学习者掌握单词比较的灵活,一般情况下,能熟读的单词会很轻松的写出来。还有一种是比较符合中国学习者的学习习惯的,就是根据语言环境来掌握单词。

四、网络学习环境下隐性知识对英语学习效果的实践分析

网络学习中,个体的隐性知识可通过各种共享支持工具来显性化,并通过学习者之间的交互和整合获得更新的认识。典型的技术支持工具有博客、聊天机器人等。

1.博客在英语学习中的作用

(1)博客有利于“隐性知识显性化”。在网络学习中,使隐性知识显性化的一个最有效的途径是利用博客平台进行自我反思。博客提倡一种反思学习。学习者在博客中用英语来写日记,对于写作过程中出现的语法问题,回复者会给予指出,让学习者更多地去思考。

(2)博客是有效的共享交互工具。网络中的知识浩如烟海,个体的力量是极其有限的,但是通过知识的共享却可使学习者获得尽可能多的信息和英语专业方面的知识。例如:作为国内极具影响力的新东方英语教育集团,其老师的专业水平非常高,他们中几乎所有人都有自己的博客。他们常把自己在教学中的心得感受以及英语学习材料放到博客中供学习者免费分享使用,而且学习者还可以将自己英语学习中遇到的困惑留在教师的博客上,老师会帮你解决。当其他的学习者有同样的困惑时也可以从中受益。

2.聊天机器人对英语学习的作用

(1)聊天机器人的智能化。在传统教学中,教师更注重英语语法的讲解,却忽略了语感的培养,虽然学校会定期的开设口语课,但是教师依然无法全面的掌握每个学生的知识水平,而聊天机器人可以模仿人与人之间的自然对话,能够根据学习者通过键盘或者语音输入的英语句子,以文本或语音方式输出相应的回答。在聊天中还可以检查英文单词拼写和句子语法错误,讲笑话和故事,唱英文歌曲等。

(2)有助于减少母语干扰打破语言僵化的局面。聊天机器人可以起到网上英语学习者聊天伙伴的作用。聊天方式可以是偏重学习的,系统会检查用户输入语句的拼写和语法错误,如有错误,就会提示用户修改错误;也可以是偏重对话的,系统不检查拼写和语法错误,尽量猜测用户输入的语义,给出合适的输出响应;除此之外,还有特定场合对话模拟。另外,系统还会自动给学习者产生日志,对学习者的学习情况进行记录,这样就给学习者提供了很好的反馈。

隐性知识影响着人的思想与行为而又不为人们自身所察觉,然而通过网络学习环境中的共享工具,可以充分挖掘个体的隐性知识并实现学习者之间的共享。对于英语学习来说,它是一个不断积累的过程,同时外语学习中语感是非常重要的,而培养语感最根本的就是要创造一个外语学习的环境,进行多听、多说、多交流才能更广泛的共享他人的隐性知识,而网络为此提供了优越的环境。

【参考文献】

英语聊天 篇二

关键词:计算机应用;中文信息处理;网络聊天语言;奇异性;动态性;语言信息处理

中图分类号:TP391 文献标识码:A

1 网络聊天语言的现状和挑战

根据中国互联网络信息中心(CNNIC)的统计,到2005年4月底,我国上网用户已达到1.002亿人,网民数仅次于美国居世界第二位。今天,每13个中国人就有一个与它“亲密接触”,互联网正在成为各界人士获取信息的主要通道。社会科学院2005年互联网报告[1]指出,我国网民平均每天上网的时间是2.73小时,单纯浏览网络论坛而不发言的网民只占38.6%。这个比例说明,网民的上网行为不仅仅是寻找信息,还包含了人际交流的活动。报告指出,通常用来双向交流的交流工具有博客(Blog)、论坛(BBS)、微软MSN、聊天室、ICQ和电子邮件,有68.7%的网民使用聊天室,66.6%的网民使用ICQ/OICQ/QQ,44.8%的网民使用BBS,43.9%的网民使用微软MSN。这些数据表明:随着互联网进入社会生活,网络聊天逐渐成为一种重要的沟通渠道。

网络聊天渠道的发展进一步方便了交流,也给信息技术领域带来机遇。在商业应用中,越来越多的客户服务/呼叫中心/网上教学[18,19]日渐被互联网聊天解决方案取代,聊天室,BBS张贴,电子邮件和手机短信等方案逐渐被商家采用,甚至在某些应用中取代了电话这个传统交流工具。网络聊天语言应运而生,并已发展成为一种重要的群体语言。这类语言的出现带来了诸多挑战。例如,由于网络聊天渠道大多可以免费使用,信息杂乱无章,因此被色情信息、犯罪信息和恐怖主义传播者所利用,成为他们扰乱社会安定、制造活动的策划与讨论场所[20,21]。他们大量采用奇异的网络聊天语言(黑话),混淆安全监控人员的眼睛,这就造成了安全监控任务的难题。再如,商业上提供基于聊天的客户服务已经屡见不鲜,这些聊天记录同传统的电话记录具有同样的价值,网络聊天语言的使用,阻碍了分析研究人员获取重要信息。于是他们带着这些问题求助于自然语言处理工具,希望通过语言分析处理以“解码”这些奇异词汇[22~25]。

中文方面,语言学家在中文网络聊天语言研究方面取得了重要进展。文献[2~5]介绍了中文网络语言的基本特征,文献[6~11]对其造词法、语词类型、语用特点及规范进行了探索,文献[12]指出了其谐音现象,文献[13~15]指出了其语言变异现象。文献[16,17]则从交际和哲学高度对中文网络语言进行了深入分析。本文从自然语言处理的角度对中文网络语言进行研究,指出处理难点所在,并提出适当的处理方法。

我们先看下面三个网络聊天语言的例子:

(1)有木有[c1]银[c2]请我7饭[c3](有没有[n1]人[n2]请我吃饭[n3])

(2)偶[c1]稀饭[c2]这样的GG[c3](我[n1]喜欢[n2]这样的哥哥[n3])

(3)隔3差5[c1]来看你(隔三差五[n1]来看你)

(4)细八细[c1]又要FB[c2]去(是不是[n1]又要腐败[n2]去啊)

这些例子中,括号里面给出的是每个网络聊天语言例子对应的标准语言。我们用[ci]代表网络聊天语言词汇,[ni]代表对应的标准语言词汇。例如,“有木有”对应着标准语言的“有没有”,“银”对应着标准语言的“人”。类似的网络聊天语言词汇很多,在网络聊天室、聊天记录和论坛(BBS)上随处可见。我们知道,传统语言处理工具的对象是标准语言,假定分析对象(文本)符合常规语法。这样,面对网络聊天语言,它们就显得无能为力了。我们用ICTCLAS[26]处理例(1)的网络聊天文本,分词结果如下:

有/v 木/n  有/v 银/n 我/r 7/m 饭/n

ICTCLAS处理不了“有木有”这个网络聊天词汇。当然这并不说明ICTCLAS的性能不强,而是因为ICTCLAS不包含网络聊天语言的任何信息(词条、规则和统计数据)。我们再看ICTCLAS对例(2)进行词性标注的结果:

偶/b 稀饭/n 这样/r 的/u GG/n

ICTCLAS将“偶”分析为b(区别词),将“稀饭”分析为n(名词)。但是实际上,“偶”在这里用作“我”,应该为r(代词),“稀饭”代表“喜欢”,应为v(动词)。因之相对于标准词汇的“奇异”效果,我们定义网络聊天语言的该特性为“奇异性”。网络聊天语言的“奇异性”给文本分析和处理带来了困难。对于处理“有木有”这样的奇异词汇,有人建议将它添加到词典里就可以了,在处理“银”时,再将“人”这个义项添加到标准词典里去。我们反对这样做,因为标准汉语基本不会使用“有木有”这个词汇,也不会用到“银”的“人”这个义项,只有在网络聊天环境中才会这样用到。

有人建议将这些奇异的词汇用一个“网络聊天语言词典”收集,通过查询就能够找出对应的标准词汇。这个建议并不能奏效,原因有二:一,网络聊天语言在用作标准词汇时导致歧义。例如“银”可以用作网络聊天语言,代表“人”,也可以用作标准词汇,表示“银”这种金属物质。这时,仅仅通过词典,很难区别网络聊天语言和标准词汇,更不用说去区分网络聊天语言的多种不同用法。二,通过仔细观察研究,我们发现网络聊天语言变化很快,无法用静态的词典去覆盖。典型地,去年使用的一些网络聊天语言,今年就被淘汰了,同时被更多新的网络聊天语言取代。这就是我们所提出的网络聊天语言的“动态性”。虽然不断更新“网络聊天语言词典”是一个解决方法,但网络聊天语言变化快,要做到及时更新非常费时费力,而且这些花费永无止境。要解决“奇异性”和“动态性”问题,只依赖一个聊天语料库,似乎走进了死胡同。

中国有句俗语:万变不离其宗。我们认为再动态的网络聊天语言也包含着相对静态的因素。我们 的细致观察最终证实了这一想法。我们发现,尽管网络聊天语言文本千差万别,但绝大多数(99%以上)中文网络聊天语言的产生都遵循着一个不变的基本原则,即语音映射。网络聊天语言除了表情图标外,极少是从无到有的创造,绝大多数都对应着原始文字模板。例如“偶”对应着“我”,“稀饭”对应着“喜欢”,都是通过方言语音映射得到的,而“隔3差5”则直接对应了同音词“隔三差五”。可见,网络聊天语言的产生具有明显的语音映射基础。

有了这把网络聊天语言处理的钥匙,奇异性和动态性问题便迎刃而解。本文借助真实网络聊天语言文本,对网络聊天语言的奇异性和动态性进行详细分析和归纳,并初步设计了面向处理奇异性和动态性问题的网络聊天语言文本识别与转换方法。我们先以网络聊天语言语料库为基础建立网络聊天语言模型和语言转换模型,通过信源信道模型(Source Channel Model)实现网络聊天语言向标准语言的转换。但该方法过于依赖网络聊天语言语料库,虽然能较好解决奇异性问题,但不能处理动态性问题。因此,我们进而以标准汉语语料库为基础建立文字语音映射模型,对信源-信道模型进行改进,最终有效解决了网络聊天语言的动态性问题。

2 网络聊天语言的奇异性与动态性

我们认为,网络聊天语言具有两个显著特性,即奇异性与动态性。前者从网络聊天语言的表面就能观察得到,是显性的,因而比较容易把握;后者需要经过对不同时间段的网络聊天语言文本进行对比分析才能得知,是隐性的,因而难于驾驭。我们首先通过丰富的实例对网络聊天语言的奇异性进行分析。这些实例均来自NIL语料库[24]。

2.1 奇异性

网络聊天语言最引人注目的是其奇异性,它看起来奇特怪异,似乎是错别字却被重复使用,似乎是语法错误却频繁出现。奇异性表现在词汇的使用和表达方法两个方面。但篇幅所限,本文重点讨论网络聊天语言在词汇使用上的奇异性。

在词汇使用上,网络聊天语言或者使用奇异词汇,或者使用标准词汇的奇异意义。奇异词汇的使用是网络聊天语言最初的表现形式。通过对网络聊天语言文本语料库的9524个“奇异”网络聊天语言的形态进行观察分析,我们将网络聊天语言划分为六类,如表1所示。

表1显示,在中文网络聊天语言中,使用频率最高的还是词汇和短语。但是从统计数字来看,英文大写字母也占据了很大比例。这并不是由于中文网络聊天语言使用了英语,这些英文大写字母大都是汉语拼音的声母缩写。例如,“PF”是“佩服”的汉语拼音“pei4 fu2”的声母缩写。少数英文大写字母是来自英语,例如“ING”反映的是英文现在进行时态在动词后面后缀“ing”,表示“正在”。恰恰相反,许多中文网络聊天语言词汇却借用了英文单词的发音,例如,“粉丝”是借用英文单词“fans”的发音然后通过汉语拼音映射过来的,这种现象被称为“音译”。音译词在中文网络聊天语言中出现频率不高。

我们再对12983个中文网络聊天语言词汇/短语进一步分析,我们发现奇异词汇的使用与标准词汇奇异意义的使用具有表2所示的分布。

表2显示,使用标准词汇奇异意义的个数占16.1%的网络聊天语言在聊天语料库中出现了7839次,占所有中文奇异网络聊天语言总数的60.4%。这一现象表明,使用标准词汇奇异意义的网络聊天语言占绝大多数。

我们认为,网络聊天语言的奇异性给网络聊天语言处理带了如下挑战:1)网络聊天语言的使用群体很大,覆盖面很广,想要穷举所有奇异网络聊天语言并非易事。2)网络聊天语言造成了歧义,尤其是同时使用标准词汇奇异意义的网络聊天语言,这给网络聊天语言处理带来巨大困难。

2.2 动态性

动态性反映网络聊天语言的变化。例如,去年使用的一些网络聊天语言,今年就被淘汰了,同时又出现了更多新的网络聊天语言。正如张普教授所说,“流行语都有流行周期,流行一过有可能就不使用了。”流行性和动态性实际上反映的是同一个问题。

为了分析网络聊天语言的动态性,我们将两年内的聊天文本语料根据时间划分为4个相等的子集,每半年的聊天文本为一组,然后统计其中网络聊天语言的重复使用状况。统计结果如表3所示。

排除个别例外情况,总的趋势是:越早的子集同越晚的子集重复使用的网络聊天语言越少。从2004年1月到2006年1月间,网络聊天语言改变了将近30%。从平均使用重复率来看,这个趋势也是明显的。我们完全可以假设,如果语料库能够覆盖五年的网络聊天语言,我们以每半年的网络聊天语言作为语料子集,这种趋势将会更加明显。

我们认为,网络聊天语言的动态性带来如下挑战:1)新的网络聊天语言不断出现,建立在一个静态字典或者一个静态语料库基础上的方法很难识别新出现的网络聊天语言。2)为了能及时捕获新出现的网络聊天语言,需要创建越来越多的语料库,这需要消耗很大的人力物力。这必然给基于语料库的处理技术提出一个难题,即在时间滞后的语料基础上学习,亦要取得一致的处理效果,其中技术难度很大。

3 网络聊天语言与语音映射

3.1 网络聊天语言的语音映射特点

我们认为动态的网络聊天语言包含着相对静态的基本元素,我们的细致观察最终证实了这一猜想。我们发现,尽管网络聊天语言文本千差万别,但绝大多数(99%以上)中文网络聊天语言的产生都遵循着一个不变的基本原则,即语音映射。网络聊天语言极少是从无到有的创造,绝大多数都对应着原始文字模板。例如“偶”对应着“我”,“稀饭”对应着“喜欢”,都是通过方言语音映射得到的,而“隔3差5”则直接对应了同音词“隔三差五”。可见,网络聊天语言的产生遵循明显的语音映射原则。有了这个语音映射原则,无论网络聊天语言如何千变万化,本质上的语音映射是稳定的、静态的。我们以语音映射方法为尺度,对2.2节所用的观察样本对网络聊天语言的重复使用状况进行再次分析,统计结果(表4)表明,语音映射是动态网络聊天语言处理的钥匙。

3.2 语音映射模型形式化

为了便于语音映射模型的形式化描述,我们先给出字-字映射模型。即三元组:

CM:=

其中,CM代表字一字映射模型,T代表网络聊天语言字符,C代表标准语言字符,Prcm(T|C)代表字一字映射的概率。例如网络聊天语言“7”和标准语言“吃”的字-字映射模型为。显然,由于字-字映射模型只能通过对网络聊天语言语料库的统计获得,概率参数严重依赖于网络聊天语言语料库。

语音映射模型具有更强更广泛的映射表达能力,它将语音映射引入字一字映射模型,即五元组:

PM:=

其中,PM代表字字映射模型,pt(T)代表网络聊天语言字符对应的语音标记,pt(C)代表标准语言字符的语音标记,Prpm(T|C)代表语音映射模型的概率。我们用汉语拼音表示中文语音标记。例如网络聊天语言“7”和标准语言“吃”的语音映射模型为。语音映射模型不再依赖网络聊天语言语料库,它可以从标准语言语料库抽取。网络聊天语言语料库的作用只是加强该模型对网络聊天语言的适应性。

3.3 语音映射模型参数估计

语音映射模型的参数估计主要回答两个问题:一,字符映射空间从何而来?二,语音映射概率如何估计?我们从标准汉语语料库抽取所有汉语字符,同时将这些字符看作网络聊天语言字符的候选对象,这样我们就获得了两种语言的字符映射空间。由于字符空间的完整性依赖于标准语言语料库的覆盖面,因此在实验中我们选择了当前覆盖面最大的中文GIGAWORD(CNGIGA)语料库。

既然我们认为是语音映射将标准语言字符和网络聊天语言字符关联起来的,那么语音相似度自然是语音映射模型的基本元素。我们开发了汉语拼音相似度计算工具获得此相似度[25]。为保证语音映射模型能代表广泛的标准语言统计规律,我们在语音映射模型的概率估计中考虑字符在语料库里的出现次数。这样我们得到如下语音映射概率计算公式: 其中,{Ai}是与字符A在语音上相似的字符集合,A-来自这一集合,frslc(Ai)表示字符Ai在标准语言语料库中的出现次数,pys(A,Ai)表示字符A与Ai的语音相似度。

为了加强对网络聊天语言的适应性,我们使用网络聊天语言语料库来调整语音映射模型。于是,概率计算公式(1)改写为:

这里,frNIL(Ai)代表字符Ai在网络聊天语言语料库的标记文本中的出现次数。这样一来,如果某些字符在网络聊天语言语料库的标记文本中出现,相应的语音映射模型概率将会得到提高。

由于使用了网络聊天语言语料库,必然出现数据稀疏问题,也就是说,某些字符可能不出现在网络聊天语言语料库的标记文本中。为此我们引入平滑算子处理数据稀疏问题,对所有在网络聊天语言语料库标记文本中出现次数为0的字符,用该平滑算子取代其出现次数。这样公式(2)改写为:

这里,所有字符Ai在网络聊天语言语料库的标记文本中出现次数为0。显然,概率计算的准确度依赖于这个平滑算子。如果平滑算子太大(超过1),就会忽略网络聊天语言语料库对该计算的影响;如果太小(等于0),语音映射模型就容易过度适应网络聊天语言语料库。我们采用0.2、0.4、0.6和0.8分别考察它们对实验结果的影响;同时利用标准语言语料库对平滑算子进行评估。计算公式如下:

这里,frANIL(Aj)=0而且Ak∈{Ai}。可以看出,在标准语言语料库出现次数越多,平滑算子值就越大,反映了广泛的标准语言统计规律。

4 网络聊天语言到标准语言的自动转换

网络聊天语言处理的根本目的是实现从网络聊天语言到标准语言的转换。本文描述两个方法:第一个方法只利用网络聊天语言与语料库,通过原始信源一信道模型,实现网络聊天语言的转换;第二个方法引入语音映射模型以扩展原始信源一信道模型,以解决动态性问题。

4.1 基于字-字映射的原始信源一信道模型

信源一信道模型是语音识别和机器翻译技术中的常用方法[2],我们采用该方法在字-字映射模型的基础上实现对网络聊天语言的转换。该方法的基本思想是搜索字符映射空间以得到最可能的字符转换结果。根据Bayes法则,该条件概率被分解为字符映射模型和语言模型,如公式(5)所示。

其中T={ti}i=1,2,…,m代表输入网络聊天语言文本,C={ci}i=1,2,…,m代表所有可能的标准语言文本映射,C是最优映射转换结果。p(C|T)代表字符映射模型,p(T)代表网络聊天语言模型,二者均可从网络聊天语言语料库中训练获得。

该方法采用字一字映射模型的典型方法,其局限性是对网络聊天语言语料库的过度依赖,数据稀疏问题很严重。如果某网络聊天语言不在网络聊天语言语料库中出现,就很难得到正确的转换结果。这导致该方法无法应付网络聊天语言的动态性。

4.2 基于语音映射的扩展信源一信道模型

基于语音映射模型的扩展信源一信道模型能够很好解决动态性问题,这得益于语音映射模型的普遍性。我们在公式(4)中插入语音映射模型,得到一扩展的信源一信道模型,如公式(6)所示。

这里,M={mi}i=1,2,…,n代表T={ti}i=1,2,…,m到C={Ci}i=1,2,…,n语音映射集合。p(C|M,T)即所谓网络聊天语言转换观察模型,p(M|T)即语音映射模型,p(T)即网络聊天语言模型。

同基于字-字映射的原始信源-信道模型相比,基于语音映射的扩展信源-信道模型的搜索空间得到充分扩大。例如,“银”在聊天语料库中仅被标记用作“人”,因此用基于字-字映射的原始信源-信道模型处理“银们散了”,搜索空间是{“人们散了”,“银们散了”};而在基于语音映射的扩展信源-信道模型中,搜索空间扩大为{“因们散了”,“印们散了”,“吟们散了”,“阴们散了”,“人们散了”,“银们散了”}。这显然提高了对网络聊天语言的动态性的处理能力。

5 实验与评测

5.1 实验数据

实验中我们用到两类训练语料库,即标准语言语料库和网络聊天语言语料库。我们采用中文GIGAWORD(CNGIGA)[28]作为标准汉语语料库,采用NIL语料库[24]作为网络聊天语言语料库。

我们使用了四个测试集T#1~T#4,均来自天极论坛“大嘴区”。每个测试集包含的聊天语句500句,时间戳在网络聊天语言语料库中的聊天语句之后,即2005年8月到11月。这样安排 测试集,目的是要比较网络聊天语言转换方法在不同时间段测试语料上的性能,从而观察不同方法在处理网络聊天语言的奇异性和动态性上的效果。

5.2 评测指标

在网络聊天语言识别上,我们采用同未登录词识别类似的评测指标,即准确率(p)、召回率(r)和F-1指标(f)。这些指标的定义如下:

其中,a代表正确判断为网络聊天语言的次数,b代表错误判断为网络聊天语言的次数,c代表错误判断为非网络聊天语言的次数。

在网络聊天语言的转换上,我们采用类似机器翻译评测的指标,即精确度(ac),它的定义如下:

5.3 实验1:原始信源-信道模型(SCM)

训练过程是利用NIL语料库进行字-字映射模型的参数估计。训练完成后,我们运行原始信源-信道模型方法,分别处理四个测试集。实验结果如表5所示。

5.4 实验2:扩展信源一信道模型(XSCM)

我们利用CNGIGA语料库和NIL语料库进行扩展信源一信道模型的参数估计,分别采用0.2、0.4、0.6、0.8和语料库评估值作为平滑算子,并分别处理四个测试集。实验结果如表6、表7所示。

5.5 讨论1:方法性能对比

图1给出了不同方法在四个测试集上的F-1指数对比曲线。总体上看,在四个测试集上,XSCM方法在使用语料库评估值(XSCM-v)作为平滑算子时,都取得了最好的效果,F-1指数达到90%以上,网络聊天语言转化精确度也超过了89%。SCM方的F-1指数在测试集T#1上取得最好效果,即84.3%,比XSCM在测试集T#3上取得的最差效果90.1%低5.8%。从性能上看,XSCM方法比SCM方法更能准确处理奇异网络聊天语言。

5.6 讨论2:平滑技术性能对比

我们接下来对几种平滑技术进行对比,图2给出了在四个测试集上的F-1指数对比曲线。我们发现以语料库评估值为平滑算子时XSCM取得最好效果,即F-1指数最高为90.7%。在固定平滑算子中,当sf=0.4时,XSCM效果略好于sf=0.6,但超过sf=0.8约2%。总起来看,若采用固定平滑算子,取值在0.4和0.6之间某值时,XSCM性能达到最高。

5.7 讨论3:处理动态聊天文本的健壮性

各种方法在处理动态聊天文本的健壮性可从图1看到明显对比。我们发现,使用各种平滑算子的XSCM方法都取得了相对平稳的性能。这是因为XSCM使用了语音映射模型,该模型在动态网络聊天语言中保持了相对的稳定性。尽管四个测试集的时间戳距离NIL语料库的越来越远,XSCM方法仍能利用稳定的语音映射对动态网络聊天语言进行有效处理。而SCM方法不能适应网络聊天语言的变化,导致其性能急剧下降。这一实验结果有力地证实了语音映射模型在网络聊天语言处理中的重要意义。

5.8 错误分析

本部分我们给出两类典型错误,并分析导致错误的主要原因。

错误-1:歧义网络聊天词汇

例1我还是8米

例1中,XSCM方法没有找到网络聊天词汇,而正确的答案是“我还是不明”。这是由于网络聊天词汇“8”和“米”都包含歧义,当“8”出现在“米”前面时,“8”被识别成数字,而“米”被识别成度量单位。这时,若不通过上下文,很难发现这两个网络聊天词汇。在我们的实验中有93个类似错误,这样的错误只有通过基于上下文的话语分析才能得到有效解决。

错误-2:非语音影射网络聊天词汇

例2忧虑ing

XSCM方法无法识别例2中的“ing”,而正确的答案应该是“(正在)忧虑”。这是因为网络聊天词汇“ing”并非产生于语音影射,而是来自英文的现在时态表示。统计发现,大约有1%的网络聊天词汇不是通过语音影射创造的,例如表情图标(emoti-con)就是典型的一种。幸运的是,这些网络聊天词汇通过基于词典的方法就可以处理。因此在实用系统中,我们另外开发一个模块,专门用于处理非语音影射网络聊天词汇。

6 相关工作

中文网络聊天语言从2005年开始受到自然语言处理研究人员的重视。夏云庆等[e3j在“NIL IsNot Nothing”项目中对网络聊天语言的奇异性进行了分析和归纳,在小规模网络聊天语言语料库的基础上,设计实现了模式匹配、最大熵和支持向量机方法,以2004年12月、2005年1月和2月的网络聊天语言为训练文本,在处理2005年3月的网络聊天语言文本时,取得了87.1%的F-1指数。但是,这些方法在处理更新的网络聊天语言文本时,性能急剧下降。我们认为原因有二:一、现有网络聊天语言语料库规模不足,数据稀疏问题严重,这些方法过度适应网络聊天语言语料库;二,网络聊天语言变化较快,即使有了大规模网络聊天语言语料库,也不能有效解决动态性问题。

为了建立相当规模的网络聊天语言语料库,夏云庆等[24]们利用半年时间扩大了NIL语料库的规模。为网络聊天语言处理研究提供了更多训练语料。为了解决网络聊天语言动态性问题,夏云庆等[22]引入标准语言语料库,利用错误驱动方法,通过计算可信度,来判别输入文本中的奇异网络聊天语言。实验证明,这种方法对动态网络聊天语言文本具有较好的适应性,也取得了同现有最好方法接近的网络聊天语言识别性能。这个方法的问题在于错误驱动机制无法实现对所识别的网络聊天语言进行转换。但是这一实践给我们的宝贵启发是,标准语言语料库对网络聊天语言处理,具有不可忽视的意义。正是从标准语言语料库的相对稳定性,我们发现了语音映射模型。

7 结论

本文借助真实网络聊天语言文本,对网络聊天语言的奇异性和动态性进行详细分析和归纳,并设计了面向解决奇异性和动态性问题的网络聊天语言文本识别与转换方法。我们先以网络聊天语言语料库为基础建立网络聊天语言模型和语言转换模型,通过信源信道模型实现网络聊天语言向标准语言的转换。但该方法过于依赖网络聊天语言语料库,虽然能较好解决奇异性问题,但不能处理动态性问题。因此,我们进而以标准汉语语料库为基础建立文字语音映射模型,对信源-信道模型进行改进,最终有效解决了网络聊天语言的动态性问题。实验证明,扩展信源-信道模型在引入语音映射模型以后,不但处理网络聊天语言奇异性的能力提高了,还实现了动态网络聊天语言的健壮处理。我们还对解决数据稀疏问题的平滑技术进行了评测,结论是,以语料库评估值为平滑算子时,XSCM取得了最好效果。

限于现有的网络聊天语言料库的规模,我们目前还无法完成如下两个工作:一,既然标准语言语料库被引入网络聊天语言处理技术,那么我们将面 对如下几个问题:聊天语料库的最小规模多大,才能获得一致的满意性能?标准语言语料库的规模是不是越大越好?当标准语言语料库在规模上同网络聊天语言语料库实现多大的比率时,能够得到最好的训练效果?回答这些问题需要相当规模的网络聊天语言语料库,是我们目前所无法完成的。二,尽管语音映射模型引入后,动态性问题能够得到解决,但仍然不能忽略网络聊天语言语料库规模提高对网络聊天语言处理的意义。另外,在语音映射模型的假设之外还有1%的网络聊天语言需要特殊处理,那么我们会问:大致需要多久以后,XSCM方法应该在新的网络聊天语言语料库上重新训练一次,才会保持良好的处理性能?这个工作也离不开相当规模的网络聊天语言语料库。这两类问题将在我们未来工作中得到阐述。

收稿日期:2006-05-16 定稿日期:2007-03-21

项目基金:香港中文大学Direct Grant(2050330);Strategic Grant(4410001)

作者简介:夏云庆(1972-),男,博士,助理研究员,主要研究方向为自然语言处理。

参考文献:

[1]郭良.05年中国5城市互联网使用现状及影响调查报 告[EB].社科院社会发展研究中心,2005.

[2]马静.语言学视野中的网络语言[J].西北工业大学学报,2002,22(3):52-56.

[3]李雪华.网络语言初探[J].广西社会科学,2004,(3):154-155.

[4]梁书杰.对网络语言规范的探讨[J].高教论坛,2005,(6):191-193.

[5]袁星新.试论网络语言的基本特点[J].语言研究,2005,(12):20-23.

[6]祁伟.试论社会流行语和网络语言[J].语言与翻译,2002,(3):18-22.

[7]李润生.网络词汇的造词法探析[J].江西教育学院学报,2003,24(2):47-49.

[8]李梅.谈网络语言的语词类型、特点及规范[J].语言研究,2004,(3):48-50.

[9]郭笃凌,郝怀芳.网络语言的类型、特点及其语用学意义[J].语言应用研究,2006,(3):65-67.

[10]王登文,吴晓云.英汉网络语言语用探析[J].外语研究,2006,(9):177-178.

[11]陈向红,黎昌抱.网络聊天中表情达意的非规范手段研究网络聊天中表情达意的非规范手段研究[J].广西社会科学,2006,(3):190-193.

[12]冯念,冯广艺.网络词语的谐音及规范问题[J].河南师范学院学报,2005,(1):138-139.

[13]王鸿雁.汉语网络语言变体探析[J].社科纵横,2005,20(2):156-158.

[14]李少丹.谈网络语言的变异现象[J].四川理工学院院报,2006,21(4):102-104.

[15]赵丽萍.谈网络语言中的词汇变异现象[J].应用语言研究,2006,(7):76.

[16]李艳.韩金龙.IRC一聊天室非语言交际研究[J].外语电化教学,2003,(94):7-11.

[17]周卫红.论网络语言的后现代文化内涵[J].哲学研究晋阳学刊,2006,(2):76-79.

[18]Gianforte,G..2003. From Call Center to ContactCenter:How to Successfully Blend Phone,Email,Web and Chat to Deliver Great Service and Slash costs[R].RightNow Technologies.

[19]Heard-White,M.,Gunter Saunders and Anita Pin- into the use of CHAT in educa-tion. Final report for project of Effective use of CHAT in Online Learning[R].Institute of Educa-tion,University of London.

[20]Finkelhor,D.,K.J.Mitehell,and Victimization:A Report on the Nation's Youth[R].Alexandria,Virginia:National Center for Missing &Exploited Children,2000,page ix.

[21]McCullagh,D.. 2004.Security officials to spy on chat provided by CNET Networks[R].November 24,2004.

[22]Xia,Y.and K.-F.wong.2006a.Anomaly Detec-ting within Dynamic Chinese Chat Text[A].In: Proc.of EACL'06 NEW TEXT workshop[C].

[23]Xia,Y.,K.F.Wong and W.Gao.2005.NIL is not Nothing:Recognition of Chinese Network Informal Language Expressions[A].4th SIGHAN Work-shop at IJCNLP'05[C]:95-102.

[24]Xia,Y.,K.-F.Wong and -ting A Chinese Chat Text Corpus with A Two-Stage Incremental Annotation Approach[A].In:Proc.of LREC2006[C].

[25]Xia,Y.,K.-F.Wong and W.Li.2006c.A Phonet-ic-Based Approach to Chinese Chat Text Normaliza tion[A].In:Proc.of ACL'06[C].993-1000.

[26]Zhang,z.,H.Yu,D.Xiong and Q.Liu.HMM-based Chinese Lexical Analyzer ICTCLAS[A]. SIGHAN'03 within ACL'03[C].2003.184-187.

英语聊天 篇三

关键词:交际理论;网聊英语;预制语块

中图分类号:H31 文献标识码:A

文章编号:1009-0118(2012)07-0314-02

一、引言

运用语言进行交际,是人类最基本、最重要的一种生存能力和社会行为。可以说,人类社会的存在和发展不能没有语言,不能没有语言的运用,不能没有言语交际活动。进入信息时代,语言的运用、言语的交际,更具有空前的价值。目前语音网聊是最流行的聊天方式,因此,网聊语作为一种新的交际事物应运而生,同时用英语聊天也变的越来越流行,随之发展而来的网聊英语又给人们提供了一种交流方式。该方式不但产生了新的语言交流形式,而且还重新构建了交流活动,为网络书面口语交流提供了研究空间。网聊英语具有其独特形式,它既具有书面语的特征,又具有许多口语的特征,可以说它是一种以口语形式进行阅读的书面语体。

人们在网聊时,由于采用直接用口说话,必然会大量使用预制语块。因为预制语块不仅是语言使用者个人知识体系的一部分,也是一个言语社区所有成员共同约定的语言知识。因此,它有助于语言使用者根据交际目的在适当的时间和空间选择适当的话语。预制语块在英语网聊中的灵和运用,使大家聊起来更加真实、亲切,排除了使用枯燥的文字方式聊天时的单调和不真实感。

二、交际理论和预制语块的定义

交际理论是交际者为了解决二语或者外语中的困难而有目的和有意识采取的策略,是学习策略能力的一个组成部分,决定着交际渠道的畅通与否,影响着学习者的口语流利程度。

20 世纪 70 年代中期,Becker和 Bollinger率先提出了“预制语块”的概念。预制语块是介于传统语法和词汇之间的一种特殊的多词词汇现象,通常是固定化或半固定化、模式化的块状结构。下面从交际理论的角度来谈谈网聊英语中预制语块的语用功能及其应用。

三、交际理论视角下网聊英语中运用预制语块的必然性

语言专家多年来的研究表明,语块学习比起词汇和语法学习确实有它的优越性,它是语言学习中新的发展方向,特别是在英语口语中尤为突出。调查表明,许多网聊者在用英语表达一个话题时困难重重,语句支离破碎,表意不明,让人难以理解。对于这个问题笔者一直充满疑惑,希望找到问题的原因所在。通过分析与探究,发现问题在于网聊者不能灵活运用英语语言基础知识,并且词汇匮乏,思维方式“中国”化和文化背景不同。这势必导致交流时产生语序混乱、语法结构错误、句型乱用、语言表述不清等问题。而预制语块正好可以弥补网聊者的英语语言基础知识的不足。例如:“我想邀请你与我的家人共进晚餐”,网聊者可能会说“I’d like you to have a family meat with my family”,这样表达会使对方感到迷惑。但如果网聊者运用以下预制语块“I’d like to do something”;“have dinner with somebody”,即 “I’d like to invite you to have dinner with my family” 就能清楚地表达该句的意思。又如:“爱屋及乌”的表达,如果不懂文化背景,则会表达成“love me,love my house”,因为狗在西方国家是他们最好的宠物,所以“爱屋及乌”的表达应该是“love me,love my dog”。 综上所述,成功完成交际的关键就是对大量英语语块的掌握,可见,预制语块在英语网聊中的运用是迫切的,必然的。

四、交际理论视角下 网聊英语中预制语块的语用功能

(一)有利于网聊语气更委婉﹑更礼貌

Brown & Levinson的礼貌模式把人的面子分为积极面子和消极面子,前者指的是希望得到别人的赞同、喜爱;后者指的是不希望别人强加于自己,即自己的行为不受别人的阻碍。他们提出了两个礼貌原则:一个就是尽量多用礼貌的表达法,另一个就是尽量少用不礼貌的表达法。因此,当我们与人交流时,我们应该注意礼貌策略,尽量尊重对方的面子,同时也为自己挣点面子。如果你的表达不得不伤到他人的面子时,就尽量使用一些显得更委婉、更礼貌、更容易被接受的预制语言。如“Excuse me,I was wondering if you could possibly send your latest sample computer?”汉语中的请求往往借助于词汇和句法手段,而英语中则更多地借助于一些预制语言来表达不同礼貌程度的请求行为。如上例中则用 “I was wondering if” 这个预制语块来表达一种委婉和礼貌。从语用角度来看,缓冲语块开头是以回避为基础,是一种有效的消极礼貌策略。委婉的语气和迂回的语义使对方承认是尊敬他的消极面子,从而更有效地传达信息。

(二)有利于网聊英语更灵活

由于受话题和语境等主观因素的影响,人们在日常交往中常常使用预制语块来传达他们的交流意图,其目的是增加交流的灵活性。如通过网聊与外资企业恰谈生意,为了生意恰谈成功﹑建立良好的贸易友谊,你可根据市场行情及贸易利润的变化而恰当地使用预制语言。如“We shall try our best to make shipment as quickly as possible.”“try our best”只是一个表达意愿的词组,但是达到何种程度、如何采取措施都是不明确的。从语块“as quickly as possible”中,人们无法知道他们什么时候装船。这种预制语块的使用使得网聊语言更诚恳﹑更灵活、更易被接受。

(三)有利于增加网聊的流利性

语言学家认为预制语块是语言在使用中形成的惯例化语块,使用时不需了解其内部结构就可以流利地进行口头表达,交流时可以快速整体使用,在很大程度上减轻了大脑对语言编码的压力,交际的流利性得到了极大地提高。同时语言学家还认为,人们使用语言的流利程度不是取决于学习者大脑中存储了多少生成语法规则,而是取决于存储了多少预制语言。通过对网聊者的观察分析,大量使用预制语块能增加交际的流利性。实践研究还证明,交际的流利性会极大地增强网聊者在英语网聊时的信心,也能使他们产生一种成就感。因此,掌握大量的预制语块能提高语言表达的自动化程度,从而保证网聊过程的流利性。

(四)有利于保证语言的正确性

因为90%以上的预制语块都是按照一定的语法规则生成的语言单位,所以人们在交际时不必有意识地注意语法结构。这就可以保证语言使用的正确性,避免因语言错误而带来的尴尬,同时更能激发网聊者用英语进行交流的积极性。因为预制语块是根据一定的语法规则预先构建成的,所以使用者在很大程度上可以避免语言错误,从而保证了交际的正常进行。因此,在英语网聊中,大量使用预制语块不但能保证语言的流利性,更能保证语言的正确性。

(五)有利于提高语言表达的生动性

尽管不少网聊者能够流利地用英语表达自己的思想,但与母语者相比,却明显带有“外国腔”。外语学习者用英语交流时,更多地使用按照语法规则生成的句子,而忽视了预制语块的作用。为了使表达的语言更生动、更地道,恰当地运用预制语块是一个非常有效的办法。由于预制语块具有板块性和真实性的特征,在交流中灵活运用,可使文字表达更加准确、生动。如向某人表示祝贺“I’d like to be the first to congratulate you on your excellent research;Let me congratulate you on your appointment as a manager;May I congratulate you on your promotion”。 灵活运用这些语块 “I’d like to be the first to congratulate you on;Let me congratulate you on;May I congratulate you on”,不但能巧妙地表达你对别人真诚的祝贺,而且又能使你的表达更准确、更生动。

(六)有利于扩大网聊者的语块群

生成性是预制语块的一大特点。语言学家认为,预制语块本身是语言习得的第一材料。预制语块是理想的语言储存单位,它是词汇学习本质规律的体现,是按照一定的语法规则和语块生成,并且能生成许多同类短语。例如 “as……as+N” 这个语块,在空白处我们可以填充一些形容词和副词,如strong,gentle,fast等,即“as strong as an ox; as fast as a horse; as inseparable as fish and water; as gentle as a lamb”,这些短语共享一个语块结构。记住了这一个语块就等于记住了这一语块群。

五、结语

预制语块充分利用了语言本身的特点,增加了英语网聊沟通的有效性。英语网聊中预制语块的运用,一定要遵守会话中的礼貌原则和交际原则。因此,在英语网聊中,对预制语块及其语用功能的分析﹑它们在各种不同语境中的运用以及中西预制语块的比较,能让网聊者有机会学习地道的英语,并在不同的场合正确﹑恰当﹑委婉﹑有效地使用英语。

参考文献:

[1]陆敏。基于预制语块理论对二语教学的新认识[J].红河学院学报,2010.

英语聊天 篇四

没想到我会出国,还出过两次。第一次是1993年去美国,中国记协组织的。第二次是2000年去欧洲,是欧盟邀请的,说是去开“欧元研讨会”,其实是欧盟向咱们中国宣传他们的欧元。

出国访问,我觉得别的都行,就两样不好:一是吃不惯他们那饭,二是听不懂他们那话。美国也罢,欧洲也罢,他们那饭一是甜,二是生,很不合咱的胃口。每次出国回来,我都饿得精瘦。语言不通,那就更觉别扭。去美国那次,代表团里没有懂英语的,多亏接待单位给我们配了个翻译,全程陪着我们。有翻译,集体行动方便,分散活动也就傻眼。我们去华盛顿访问,当地记协特地安排了一项活动,搞了一个小型酒会,让美国记者跟中国记者随便聊聊。中国这边,最活跃的是中央电视事部主任刘效礼,他把翻译拉到身边,跟美国一家报社的一个主管侃得很是热闹,别人只是坐在一边看。一会儿,一个美国记者走到我跟前,要跟我聊聊。我用表情“说”:我不会英语!他也用表情“说”:那没关系!他拿过一张纸和笔,就在上面画,看样子画的是中国地图,想借助这张地图和我聊聊中国。可是,聊了一会,他就泄气了,因为我完全不知他说的啥,他也完全不知我说的啥,最后他只好失望地走了。在纽约,我们访问联合国,接待我们的那位联合国工作人员是个俄罗斯人,对中国特友好,领着我们看了联合国总部的好多地方,中午还特意让我们去听了每日一次的联合国新闻会。那会“听”得真是难受,我们就那样干坐着,一句也没听懂,事后才知那天说的是巴勒斯坦问题。

第二次出国,情形就更糟。欧盟那边,以为我们是都懂英语的,人家根本没为我们准备翻译。实际情况是:被邀请的中国记者,有香港的、澳门的、大陆的。香港、澳门的记者全都懂英语。大陆去的记者,新华社的懂英语,中青报的懂英语;党报去的记者,除了深圳特区报的辜晓进和人民日报常年搞对外报道一位记者外,其余的则全都不懂英语。“研讨会”开始第一天上午,主办者介绍会议日程和欧盟基本情况,一间会议室里,香港、澳门和新华社、中青报的记者坐一边,大陆党报系统的记者坐一边,“阵线”分明。主办者讲话,听得懂英语的那一边不断发出笑声,党报这边却鸦雀无声。那情景真是尴尬!于是紧急求援,找了驻欧盟大使宋明江,把他的贴身翻译请来了,做了“研讨会”的临时翻译。宋大使事务繁忙,离不开那翻译,第二天那翻译就来不了了。没翻译会不能开啊,于是又想了一个办法:演讲者说英语(这一天发言的是几个外国记者介绍自己采访欧盟的经验),由香港的记者译成粤语,然后再由澳门的记者译成普通话。澳门的记者嫌费劲,后来不译了,我们就只能听香港明报的记者说粤语。后来我们也“草鸡”了,因为我们听着粤语比英语还难懂。再后来就连粤语也不翻了,由着发言人叽哩哇啦说英语。第三天,彭定康来演讲。彭是欧盟高级专员。这时的彭定康对中国很友好、很有感情,据说他的讲话也很精彩,可惜我一句也没听懂。听不懂还得在那里坐着,为了礼貌,没听懂你还得装做“听懂了”,那真是如坐针毡!

第一次出国回来,我曾经下决心学英语,让孩子给我买了英语教材。孩子给我买的是“中级”,我要做的却是从“初级”开始,“初级”也得有人教,没人教我连“门”都入不了。我上学时学的是俄语,英语一字不识,是个“全文盲”。我跟我的孩子说:“我这一辈子也就这样了!下一辈子我要是还当记者,别的不学,我也要先学会英语!这不光是为了出国,今后在中国当记者,不懂外语就是半残废!”

(作者为大众日报高级记者)

英语聊天 篇五

I am greatly interested in chatting on the net, especially in English. I still remembered the first time when I logged on the Legend web site and met a girl called Orange . We chatted about some interesting topics. I think I can practice my English well this way.

我非常喜欢网上聊天,尤其是英语聊天。我仍然记得第一次登录联想网站并在“英语沙龙”聊天室遇见“橘”姑娘的情景。我们谈了一些有趣的话题。我想我可以通过这一方法练习英语。

最新范文

关于优美短句子【最新6篇】02-09

十年人生规划(7篇)02-09

意字开头成语(优秀5篇)02-09

面试时的礼仪(优秀7篇)02-09

故弄玄虚成语最新2篇02-09

商业策划书【最新10篇】02-09

数据保密解决方案优秀3篇02-09

最新会议筹备方案(3篇)02-09

中秋情人短信【优秀2篇】02-09

五一劳动节祝福语(优秀3篇)02-09

149 313013