中国学习者英语语料库
基本信息
内容简介回到顶部↑
中国学习者英语语料库(chinese learner english corpus,clec)是国家社科基金“九五”规划项目“基于语料库的中国学习者英语失误分析”(corpus-based analysis of chinese learner english,cbacle)的一个重要组成部分。本书论述了中国学习者英语语料库研究方法,包括:如何建立clec,如何对clec进行统计分析。此外,还收录了据此方法所得的clec的各种统计资料和列表;所附光盘还载有研究时所需的工具软件以及clec的各种语料数据。.
本书所述的语料库语言学研究方法对研究中国学习者英语的特点具有开创性的意义,该方法亦可用于其他二语习得的研究;书中的研究结果对推进我国英语教学的意义也是深远的,如编辑词典、编写教材、语言测试,等等。...
本书所述的语料库语言学研究方法对研究中国学习者英语的特点具有开创性的意义,该方法亦可用于其他二语习得的研究;书中的研究结果对推进我国英语教学的意义也是深远的,如编辑词典、编写教材、语言测试,等等。...
目录回到顶部↑
1 导言.
2 clec的建立
2.1 样本的选定
2.2 样本的处理
2.3 言语失误分类表的制订
2.4 语料库的制作工具
3 clec的统计分析
3.1 统计列表
3.1.1 词频排列表(按频数)
3.1.2 拼写失误表
3.1.3 词目表
3.1.4 词频分布表
3.1.5 词目分布表
3.1.6 词法标注频数表
3.1.7 言语失误表
3.2 clec的对比分析..
3.2.1 分布模型
3.2.2 型斤欠比
3.2.3 词长和句长
3.2.4 超用词和少用词
2 clec的建立
2.1 样本的选定
2.2 样本的处理
2.3 言语失误分类表的制订
2.4 语料库的制作工具
3 clec的统计分析
3.1 统计列表
3.1.1 词频排列表(按频数)
3.1.2 拼写失误表
3.1.3 词目表
3.1.4 词频分布表
3.1.5 词目分布表
3.1.6 词法标注频数表
3.1.7 言语失误表
3.2 clec的对比分析..
3.2.1 分布模型
3.2.2 型斤欠比
3.2.3 词长和句长
3.2.4 超用词和少用词
前言回到顶部↑
“基于语料库的中国学习者英语失误分析”是国家社科基金“九五”规划的一个项目,由桂诗春、杨惠中负责。按照原定的计划,这个项目由两个部分组成:一是建立一个100万词的中国英语学习者的书面语语料库;二是根据这个语料库对中国学习者的英语失误进行分析。这两部分分别体现为《中国学习者英语语料库》和《中国学习者英语失误分析》两本书;它们互相补充,结成姐妹篇。.
现在呈献在读者面前的是《中国学习者英语语料库》,首先需要说明的是:为什么只收集100万词的语料?按目前的技术条件,建立几百万词、甚至上千万词的语料库并非难事。但是我们的语料库必须对言语失误按照统一的言语失误表进行标注,而失误标注又颇为耗费人力和时间。由少数人来做,易于统一,但需假以时日;由较多的人来做,可以加快进度,但却不易统一。如果增加语料,工作就更为繁复,所以我们定在100万词,以便于操作,同时又可以积累经验,以利于语料库以后的扩充。所以我们对语料库的理解是它是一个不断扩充的工程,只要有可能,我们的语料库将来还可以在规模、层次、标注等方面继续扩充和完善。..
语料库的出版也不是易事。BROWN语料库的篇幅是424页,Carroll的Word Frequency Book的篇幅是856页;而我们的语料库还增加了关于言语失误的各种统计资料,篇幅更不会小。好在现代电子技术发达,我们不但有可能把一些次要的表格、甚至连整个语料库本身也可以收录在光盘里。在目前向读者提供的光盘里,我们除了各种表格外,还提供了整个语料库和各个分体语料库,并且有一个简单的检索程序,让读者可以根据教学需要查阅全体(或不同类型的)学习者的语料和言语失误,进行研究。读者也可以使用一些通用的语料库工具,做更多的分析。因为我们的语料库都用统一的.txt格式储存。语料库中所使用的各种统计分析手段都是目前语料库研究中通用的手段,绝大部分都是利用目前较为成熟的程序。在正文里我们也做了一些初步的解释,但不可能太详尽。好在中国的图书市场上现在也有几本关于语料库的著作,如Biber等人的Corpus Linguistics,Kennedy的An Introduction to Corpus Linguistics,读者可以参考。
参加本项目的同志除桂诗春、杨惠中外,还有杨达复、何安平、李文中、濮建忠、卫乃兴、雷秀云、周海中、常新萍、廖海青、常晨光、王哲、戴凡、王初明、许罗迈、曾用强、李金辉、杜金榜、魏新华、贾冠杰、田宝堂、罗颖、王龙吟等,他们都是上海、广州、河南等地的高等院校教师。他们在编制本语料库的工作中付出了大量的劳动,有的负责制订编制英语失误分类表、有的负责标注、有的负责编写程序。在整个语料库的标注完成后,又由桂诗春、杨达复、何安平三人进行标注的统一。语料库中的中学和大学英语专业的语料采集自北京、上海、广州、河南等地的中学和高等院校,大学英语的语料由CET考试委员会提供,清华大学外国语学院也提供了一些大学英语六级的语料素材。目前这个语料库虽然也还比较粗糙,在许多地方也有待完善,但是它总算是我们的阶段性成果的一个标志。我们热诚地希望海内外的读者和同行提出批评和建议。另外,上海外语教育出版社对《中国学习者英语语料库》的出版给予了十分可贵的支持,责任编辑李法敏同志在该书的策划、编辑、校对等方面十分认真负责,在此我们表示衷心的感谢。...
桂诗春
杨惠中
2002年9月
现在呈献在读者面前的是《中国学习者英语语料库》,首先需要说明的是:为什么只收集100万词的语料?按目前的技术条件,建立几百万词、甚至上千万词的语料库并非难事。但是我们的语料库必须对言语失误按照统一的言语失误表进行标注,而失误标注又颇为耗费人力和时间。由少数人来做,易于统一,但需假以时日;由较多的人来做,可以加快进度,但却不易统一。如果增加语料,工作就更为繁复,所以我们定在100万词,以便于操作,同时又可以积累经验,以利于语料库以后的扩充。所以我们对语料库的理解是它是一个不断扩充的工程,只要有可能,我们的语料库将来还可以在规模、层次、标注等方面继续扩充和完善。..
语料库的出版也不是易事。BROWN语料库的篇幅是424页,Carroll的Word Frequency Book的篇幅是856页;而我们的语料库还增加了关于言语失误的各种统计资料,篇幅更不会小。好在现代电子技术发达,我们不但有可能把一些次要的表格、甚至连整个语料库本身也可以收录在光盘里。在目前向读者提供的光盘里,我们除了各种表格外,还提供了整个语料库和各个分体语料库,并且有一个简单的检索程序,让读者可以根据教学需要查阅全体(或不同类型的)学习者的语料和言语失误,进行研究。读者也可以使用一些通用的语料库工具,做更多的分析。因为我们的语料库都用统一的.txt格式储存。语料库中所使用的各种统计分析手段都是目前语料库研究中通用的手段,绝大部分都是利用目前较为成熟的程序。在正文里我们也做了一些初步的解释,但不可能太详尽。好在中国的图书市场上现在也有几本关于语料库的著作,如Biber等人的Corpus Linguistics,Kennedy的An Introduction to Corpus Linguistics,读者可以参考。
参加本项目的同志除桂诗春、杨惠中外,还有杨达复、何安平、李文中、濮建忠、卫乃兴、雷秀云、周海中、常新萍、廖海青、常晨光、王哲、戴凡、王初明、许罗迈、曾用强、李金辉、杜金榜、魏新华、贾冠杰、田宝堂、罗颖、王龙吟等,他们都是上海、广州、河南等地的高等院校教师。他们在编制本语料库的工作中付出了大量的劳动,有的负责制订编制英语失误分类表、有的负责标注、有的负责编写程序。在整个语料库的标注完成后,又由桂诗春、杨达复、何安平三人进行标注的统一。语料库中的中学和大学英语专业的语料采集自北京、上海、广州、河南等地的中学和高等院校,大学英语的语料由CET考试委员会提供,清华大学外国语学院也提供了一些大学英语六级的语料素材。目前这个语料库虽然也还比较粗糙,在许多地方也有待完善,但是它总算是我们的阶段性成果的一个标志。我们热诚地希望海内外的读者和同行提出批评和建议。另外,上海外语教育出版社对《中国学习者英语语料库》的出版给予了十分可贵的支持,责任编辑李法敏同志在该书的策划、编辑、校对等方面十分认真负责,在此我们表示衷心的感谢。...
桂诗春
杨惠中
2002年9月

点击看大图
加载中...