Writeups

Just a blog.

英语易读性评测浅研究(一)

工作心得 语料分析 易读性 在线工具

上周五接到了一项新任务,设计一个可供评测英语文本难易程度的在线工具。原本提出的需求十分简单,就是在线计算文本的单词数、句子数、平均单词长度和平均句子长度;并且要将文本中比较难的词汇或英语常见短语列举出来。类似这样一个在线工具一直是我想要的,没想到设计它的工作有朝一日会落在我的头上。我回复头儿说给我一周时间研究研究。头儿的答复是不要想得太复杂,打两个电话一两天就搞定了。

本着一向没事儿找事儿的态度,我又屁颠儿屁颠儿地到CNKI上搜论文看起来了。一看不要紧,发现这里面的水还不浅。原来国外早就有了许多对于英语Readability的评测标准,而且各类桌面软件和在线工具也是应接不暇。其实,对于文本的分析,是门很深的学问。我自己不是语料库出身,就算是看看论文,知道几个新术语,也不过是最浮于表面的了解层面而已。最好的情形是通过单位的关系,可以向这方面的专家当面请教。但是一时间却也看不到有这方面的机会。鉴于是一个单页面的工具,可以先将已知的一些评测Readability的基本功能加上,今后有缘能够向专家讨教一二的话,回来再对在线工具进行迭代优化吧。

首先,对于离线的软件,文本的输入形式有三种。第一种是通过黏贴的方式将文本黏贴到textarea里面,然后再进行处理;第二种是直接输入网址,然后软件自动对网址中的文章进行评测;第三种就是在软件中上传txt文件,然后进行分析。而在线工具的文本输入基本上都是通过黏贴文本的方式实现的。桌面软件使用过的包括:1. AntWordProfiler;2. Readme Tool。有一些离线的软件没有搜索到下载,只能通过论文中的截图略窥一二,其中包括:ERMS、Readability_Analyzer等。在线工具网站包括:1. wordscount;2. readability-score;3. http://www.admc.hct.ac.ae/hd1/english/readability.htm 等。

大多数离线或在线的易读性评测工具中,提供了以下几个指标(指标有很多,在此仅记录其中几个):

Flesch Reading Ease

这个指标的计算公式是:Flesch Reading Ease = 206.835 – ( 1.015× ASL) – ( 84.6×ASW)

其中,ASL = 语句平均长度(单词数除以语句数);ASW = 单词的平均音节数(音节数除以单词数)。计算出来的难以程度大致可以从下表中得知:

指标数值 难度
0-30 很难(very difficult)
30-50 难(difficult)
50-60 较难(Fairly difficult)
60-70 标准(Standard)
70-80 较容易(Fairly easy)
80-90 容易(Easy)
90-100 很容易(Very easy)

Flesch-Kincaid Grade Level

Flesch-Kincaid 年级水平计算公式为: ( 39×ASL) + ( 11.8×ASW) – 15.59

Flesch-Kincaid 年级水平是按美国中小学年级水平来测量文本的易读性的 计算出的年级水平分值越高表示对读者的阅读能力的要求越高; 分值越低表示对读者的阅读能力要求也就越低。其难以程度大致可以从下表中得知:

Kincaid 年纪水平 1-6 6-8 9-12 12 以上
学生年纪 小学程度 初中程度 高中程度 大学及以上
难易度 很容易 容易 较难

Automated Readability Index

计算公式:ARI = 4.71(characters/words) +0.5(words/sentences)-21.43

其中的 character 标识字母、数字和标点符号数;word 是按空格数计算的。如果 word 是由几个简单的词连在一起的,那么统计时就可能被作为一个长词。英语单词的平均字母数为5恶,长词往往会被当成难词。

Gunning Fog

计算公式:0.4[(words/sentences) + 100(complex words/words)]

其中:complex words指的是包含三个或以上音节数的单词数量

SMOG

计算公式:grade = 1.0430 * Math.sqrt(number of polysyllables * 30 / number of sentences) + 3.1291

Coleman-Liau Readability Score

计算公式:CLI = 0.0588L - 0.296S - 15.8

其中:L 代表的是平均每100个单词所包含的字母数。S代表的是平均每100个单词所包含的句子数

以上六个指标,除了第一个Flesch Reading Ease意外,其余的得出的数值基本上对应着美国中小学生的年级水平,所以都是grade评测,衡量需要多少年的正规教育,才可以理解该文本。

要正确理解易读性的评测公式,需要对一些概念有一些理解。今天时间已晚,待明后天有时间再继续。

【参考文献】(大致记录,格式先不计较了)

  1. 英语文本易读性测量软件AntWordProfiler的使用. “外语艺术教育研究”. 王正胜
  2. 英语易读度测量程序开发. “重庆大学学报(社会科学版)”. 晏生宏
  3. 信息技术环境下的文本易读性分析及其工具. “龙岩学院学报”. 许智坚