READ–IT: Assessing Readability of Italian Texts with a View to Text Simplification-paper

时间:2021-05-15 21:55:09

https://aclanthology.info/pdf/W/W11/W11-2308.pdf

2 background
2000年以前 ----
传统可读性准则局限于表面的文本特征,例如the Flesch-Kincaid measure(现在还在用的最普遍的)是每个单词的平均音节数和每个句子的平均单词数的线性函数,前者和后者都作为词汇和语法复杂度的代表。对于意大利而言,有两个可读性公式:the Flesh-Kincaid的从英语道意大利语的转变,即the Flesch-Vacca formula公式;the GulpEase index,基于每个单词的平均的字符数目和每句话的平均单词数目来评估可读性。
传统可读性评估准则快又简单,但是有很多缺点:
a、使用句子长度来衡量句法复杂度时,认为句子越长句法复杂度越高,但是事实并不总是这样
b、使用词的音节数是假设更常出现的词更可能有更少的音节,但是,和之前的情况一样,词的长度并不直接反应难度。
2001-2009年 ---
这些准则的不可靠性已经被这几年的一些实验证明。
在评估给定文本的单词难度时,第一步是基于vocabulary的公式例如Dale-Chall formula,结合了平均句子长度和单词频率。但是后者重建了不在3000个easy单词里的单词的比例,方式是通过match自身单词列表和被评估的材料里的单词,去决定合适的reading level。如果基于单词的方法在评估文本可读性上有提高,可能是因为频率词典和参考语料的可得性,它们仍然和与句子结构有关的东西不合适。

后来应用了lexical, syntactic, semantic, discourse各种形式的特征,也考虑了读者的类型。

转变 :Si and Callan(2001) 提出的静态的基于vocabulary的方法,使用了unigram语言模型+句子长度来捕捉scientific web pages的内容信息,还有CollinsThompson and Callan (2004) 应用了相似的语言模型 (Smoothed Unigram model)来预测短文本和网页文档的阅读难度。这些方法都可以看作基于vocabulary方法的一般化,目的是捕捉finer-grained和更灵活的词汇使用的信息。

2005-2009年,更多的研究开始重视syntactic特征,当然,这些句法结构也会和n-gram模型、句法树等更多的传统特征结合。
但是,除了lexical和syntactic复杂特征,还有其他一些重要因素决定者文本的阅读难度,例如structure of the text,discourse topic的定义,discourse cohesion and coherence等。最近纪念的方法开始基于不同linguistic levels的组合特征,称为lexical、syntactic and discourse。
除了文本内在的性质之外,文本的读者类型的认知也属于可读性判断的的特征。2005-2007年间,有人专门针对有轻微智力障碍的人做阅读能力评估,也有人取分L1和L2的使用的特征类型,L1是first language learners,L2是second:认为L2的grammatical features比L1的更加相关。
应用:
a、不同等级的阅读材料
b、文本阅读难度的排序~网页返回内容
c、文本简化、机器翻译、文本摘要
现在nlp可读性metrics基本都是英语,少部分是葡萄牙语、德语、法语。

3 Our approach

应用:文本简化
目标人群:低文化水平者或者稍微有认知缺陷的。
语言:第一次用高级的方法论做意大利语的可读性测评。
方法:分类问题——给定意大利语料和目标人群,二分类是取分出易读和难读的文本。
特征:
a 、关注于lexical和syntactic特征,它们的选择会受application、目标受众和处理的文本(因为意大利语本身就是资源较少的语言)的影响。在特征选择中,我们更喜欢易于识别的特征,它们在nlp输出中可以被可靠的识别。选择的syntactic特征中也包括文本简化方向的,目的是使得可读性评估的步骤和文本简化过程一致。
b、我们处理的是两类文本:documents和sentences,后者代表了我们工作的重要的创新性,因为到目前为止大多数研究都只关注于document级别的可读性分类。当目标应用时文本简化时,我们非常相信在句子级别的可读性评估也是非常有用的。对整个document评级来说的效果很好方法,用在短文本上并不可靠,所以用在句子上也不会可靠。
挑战:基于句子的可读性评估,如果所有在简化的文本中出现的句子可以被假设为简单易读的句子,相反却不成立,因为难文本中并不是所有的句子都是难读的。因为在句子级别上没有训练数据,所以评估我们方法的有效性变得困难,也就是说在难读的文本类别中错误的可读性评估既和在难文本中出现的易读句子有关,也不代表真正的分类错误。为了在单个句子的可能性评估上克服这个问题,我们引入了一个关于易读句子的距离的概念。这种方法可以创造可读性评估和文本简化两个过程的整合的必要条件。之前文本可读性评估是针对整个文本做的,文本简化是在句子级别做的:因为两个过程互不相干,简化操作在整个文本可读性级别的影响并不总是立即显现。随着句子级别的可读性评估,这将不再是个问题。

4 READ-IT

我们的方法已经做成了一个软件-READ-IT,该软件用在文本句法分析,既可以是document也可以是sentence,给出可读性的得分。它是一个基于LIBSVM中的SVM的分类器,给定特征集合和训练语料,生成一个统计模型,可以用于模型没有见过的document和sentence的可读性评估。
可以通过配置文件来参数化特征集合:因为用于document级别的可读性评估的相关特征集合和sentence级别的是不一样的。这也为针对更具体的目标受众来专门化可读性评估方法创造了先决条件:2007指出,L1和L2中不同类型的特征会分别起作用。
4.1 features
预测可读性的特征可以归为四类:raw text特征、lexical特征和morpho-syntactic形态句法and syntactic特征。这四个特征是根据对文本不同等级的评估得到的,包括tokenization词语切分、lemmatization语义化、POS tagging词性标注和dependency parsing依存句法分析。

raw text features:
指的是在传统可读性metrics中典型使用的特征,包括sentence length即每句中平均单词数,word length即每个单词的平均字符数。

lexical features:

basic Italian vocabulary rate特征:指的是文本的vocabulary的内部的组成。我们参考资源是the Basic Italian Vocabulary by DeMauro (2000),包括意大利本国人非常熟悉的7000个单词列表。我们计算了其两个不同特征:i)在这个列表中所有unique唯一词的比例,计算时基于a per-lemma basis ~我觉得意思就是把list中所有词的lemma找出来,然后必然会用词的lemma是一样的,最后算出所有lemma占比 ii)出现的基本的Italian vocabulary内部分布为使用分类类型,包括fundamental words是非常频繁的,high usage words是频繁的,high availability words是相对频率较低的和日常物品或者行为相关所以也被speakers熟知。反之,后者代表了在可读性测评中一个新特征,前者源于Dale-Chall公式,可以视为Petersen使用的out-of-vocabulary比例特征的实现。

type/token ratio:这个特征指的是lexical类型的数量/tokens的数目。Wright (2003) for adults and
in Retherford (2003) 表明,这个特征可以指示表达性语言延迟或者乱序,也已经被Aluisio et al. (2010).用做可读性评测了。由于它对简单样本的敏感性,这个特征已经用来计算相同长度的文本样本了。

Morpho-syntactic features:

Language Model probability of Part-Of-Speech unigrams:这个特征是基于unigram语言模型,假设a token的概率适合上下文无关的,由POS类型列表和它们的概率来定义这个模型。这个特征已经在自动可读性评估上表明是可靠的indicator,例如Pitler and Nenkova (2008) and Aluisio et al. (2010)。

lexical density:
指的是content words实词即动词、名词、形容词和副词的数目/文本中lexical token的数目,已经在y Aluisio et al. (2010) and Feng (2010)使用了。

verbal mood情态动词:
指的是情态动词的分布,这是一个意大利语的丰富的动词形态中有预测能力的特征。

syntactic features:

Unconditional probability of dependency types:这个特征指的语义依存的不同的类型的非条件概率,例如主语、直接宾语、修饰语等,可以视为Nenkova (2010)使用的基于依存的phrase type rate的同类特征。---引:Phrase type rate was also computed for PPs, VPs and NPs and is equal to the number of phrases of the given type that appeared in the sentence, divided by the sentence length. For example, the sentence “The boy caught a huge fish this morning” will have NP phrase number equal to 3/8 and VP phrase number equal to 1/8.

parse tree depth features:parse tree的深度可以表示增长的句子复杂度,这类特征是为了捕捉parse tree深度的不同的方面,包括了以下几种方法:a)depth of the whole parse tree所有parse tree的深度,计算方式是从依存树的根节点到一些叶子节点 b)the average depth of embedded complement ‘chains’,且是名词head,包括介词补语或者名词和形容词修饰语 c)the probability distribution of embedded complement ‘chains’ by depth.第一个特征已经在Schwarm and Ostendorf, 2005; Heilman et al., 2007; Nenkova, 2010的可读性测评中使用,后面两个Nenkova (2010)使用了’head noun modifiers‘特征。--引:Head noun modifiers. Noun phrases can be very complex, and the head noun can be modified in a variety of ways—pre-modifiers, prepositional phrase modifiers,
apposition. The length in words of these modifiers was calculated. Each feature also had a variant in which the modifier length was divided by the sentence length. Finally, two more features on total modification were computed: one was the sum of all modifier lengths, the other the sum of normalized modifier length.

Verbal predicates features:这类特征捕捉动词谓语行为的不同方面,它们涉及到关于整个sentence roots的数量的verbal roots的数量和它们的arity计数。the arity of verbal predicates动词谓语的计数的计算方式:共享相同的verbal head(包括argument论元和modifier)的实例化依存关系的数量。即使在verb dependents和句子复杂度之间没有明显的关系,我们相信低数量和高数量的depends都会使得句子可读性变得很复杂,即使理由各不相同,如elliptical constructions in the former case前者是椭圆形结构, a high number of modifiers in the latter后者是由很多修饰语。特征集合也考虑了the distribution of verbal predicates by arity.这类特征还从未在可读性评估中用过。

Subordination features从属特征:subordination是语言结构复杂度的一个指标,在Aluisio et al. (2010)中,这类特征介绍了这类特征用于文本简化任务。其中第一个特征是计算the distribution of subordinate vs main clauses,对于subordinates,我们也考虑它们和主语从句的相对顺序:根据Miller and Weinert(1998),在post-verb中包含subordinate从句的句子要比在pre-verb中的读起来更容易。另外两个特征是a) the average depth of ‘chains’ of embedded subordinate clauses
and b) the probability distribution of embedded subordinate clauses ‘chains’ by depth.

Length of dependency links feature.

Length of dependency links feature:Lin (1996) and Gibson (1998)表明基于依存关系的长度的方法可以预测句子的句法复杂度。McDonald and Nivre (2007)也证明了当分析长依赖时statistical parsers的准确率会下降。在这里,dependency length的计算方法时syntactic head和the dependent之间出现的words。这个特征是Nenkova (2010) and Feng (2010)的可读性评测中基于依存的phrase length特征。--引:Phrase length. (FC4) The number of words in a PP, NP, VP, without any normalization;
it is computed only for the largest phrases. Normalized phrase length is the average phrase length (for VPs, NPs, PPs) divided by the sentence length. This was computed both for (FC5) longest phrase where embedded phrases of the same type were counted only once and (FC6) for each phrase regardless of embedding.

5 corpora
the Weekly Reader for English是由target grade level的,但是没有意大利语的电子版形式。
使用的语料:报纸语料La Repubblica (henceforth, “Rep”),易读的语料Due Parole (henceforth,
“2Par”) ,后者是专门给初级文化水平或者有轻微智力障碍的人的。
选择这两种语料的动机:由于在简化文本上第二个是唯一的选择,为了避免由于在文本可读性度量时文本类型的变化带来的干扰,实验证实在一些不同的参数上两个语料显示出了相似的行为,Biber, 2009说明有些特征是可以表明文本类型的差异的,例如:lexical density, the noun/verb ratio, the percentage of verbal roots, etc.另一方面,一些特征是和文本复杂度典型相关的,如。。。。

6 实验和结果
POS tagged by the Part–Of–Speech tagger described in Dell’Orletta (2009)
dependency–parsed by the DeSR parser (Attardi,2006) using Support Vector Machine as learning algorithm
test the performance of READ-IT :
i) document readability classification,
ii) sentence readability classification
iii)detection of easy–to–read sentences within difficult–to–read texts.
任务i)the document classification
语料:638个文本,其中319来自2Par作为简单文本,319来自Rep作为难文本
使用5折交叉验证
任务ii)the sentence classification subtask
语料:3000个2par中的句子和Rep中3000个句子,2Par中和Rep中分别取500个组成1000个句子作为测试集
任务iii)readability assessment
REAT-IT执行,从newspaper La Repubblica中提取的25百万的单词,总共有123171个句子,最终目标是找出易读的句子。
上述所有实验使用了不同的可读性模型:
a、base model,只用raw text features
b、lexical model,只用raw text和lexical组合特征
c、morphos model:使用raw text, lexical and morpho–syntactic features
d、syntax model:组合raw text, lexical, morpho–syntactic and syntactic features
注意,在基于句子的可读性评估中,我们没有考虑type/token比例特征,所有的特征都考虑到the distribution of ‘chains’ of embedded complements and subordinate clauses and the distribution of verbal predicates by arity.
因为还没有过意大利语的可读性分类器,所有我们选择base model作为baseline,这可以作为the GulpEase index的近似,它也是基于相同raw text特征。

6.1 evaluation methodology评估方法
a、系统整体的准确率accuracy,是关于document或sentence正确分类的比例的global score是易读还是难读,我理解的global就是难易一起来看
b、precision和recall 是要难和易两个level分开来看的
precision:READ-IT正确分类的document和sentence / READ-IT分类成属于易读或者是难读的类别的数目。
recall:正确分类的document或者sentences / 所有在测试集中原本就属于每个难或者易的所有document或sentences
每次实验,evaluation都会使用分类器的4个models
Rep即难句中的分类错误,也就是难的被分类为简单的的错误应该更深入的分析错误原因,因为在上下文很难时,也会有简单的句子出现。
基于Euclidean distance特征向量的概念,我们引入一种新的evaluation方法:每个特征向量都是一个n维的语言特征向量(section4.1),代表了句子集合。两个向量的距离为0表示相同的句子集合,即这些句子共享相同的语言特征值,反之,两个向量之间的距离越大,关于句子集合的特征隔的越远。
相同的距离概念也用于测试哪个模型在预测n个单词长度的句子的可读性时更有效。

6.2 results
表一
a、document classification
base model表现最差
morphos model性能最好
lexical model 准确率高
表二
b、sentence classification
最reliable的时syntax model
morpho–syntactic and syntactic features在 Accuracy, Precision and Recall分数上都比document classification增加了
表三
c、最好的READ-IT model即syntax model在测试集上的性能
为了评估2par中错误分类的句子,计算了2Par和以下三者之间的距离 i)wrong句子,140个 ii)correct正确分类的句子,360个 iii)所有的Rep测试集。错句子和2Par的距离要比2par和正确分类的句子的距离低很多。这表明错误分类为简单句的句子(属于2par)事实上要比正确分类(属于Rep)的更易读。很明显,Rep测试集包含正确和错误的句子,和2Par的距离值位于中间。
表四
Rep 2.5句子分类为难读的比例。syntax model将更多的句子分类为难的,但是从结果来看并不能说这个模型是不是最好的,因为Rep 2.5句子没有标注和可读性信息。
表五
为了比较4个模型的性能并找出最好的一个,我们计算了每个模型分类后得到的易读的句子和2Par之间的距离。表明,syntax model看起来是最好的,因为它表现出了和2Par的最短距离,另外,整个Rep2.5语料显示出来的更高的距离,因为它包含了难和简单的句子。很明显,syntax model分类为难句Diff syntax的句子和2Par的距离最大

为了测试相同句子长度时model的性能,我们考虑了长度在8-30范围的句子,每一个相同长度作为一个集合,比较4个models将Rep2.5分类为易读的句子和2Par之间的距离。
figure 1
每一个点表示2Par语料相同长度集合句子和相同词数的句子