北京PTE学术英语考试评分

来源：教育联展网编辑：佚名发布时间：2022-01-07

英语语言能力测试越来越被大学、高等教育机构、政府部门和其他组织所需要，其目的是准确衡量国际学生在学术环境中的沟通技能。为了满足这一需求，培生开发了 PTE学术英语考试（PTE Academic）。该测试能可靠地测量非英语母语，且希望在以英语为主要教学语言的机构学习的考生其阅读、写作、听力和口语能力。

AI自动评分可靠性验证

PTE学术英语考试于2009年在全球推广，此外，Pearson考试中心向全球提供PTE学术英语考试服务。Pearson VUE是管理电子化评测和认证委员会的全球领导者，提供从测试开发到测试交付再到数据管理的一整套服务。

作为教育出版和评估领域的**领导者，Pearson将运用其几项自主专利技术来自动评估考生在PTE 学术英语考试上的表现。世界各地的学术机构，企业和政府机构都选择Pearson的自动评分技术来测量学生、员工或申请人的能力。使用口语和写作自动评分技术的Pearson客户包括2008年财富20强企业中的8家；2008年印度BPO公司15强中的11家；美国、德国和荷兰政府；世界体育组织，如FIFA国际足联（世界杯组织者）和亚运会；主要航空公司和航空学校；和一流大学和语言学校。

大范围的现场实地测试项目曾被用来检测PTE学术英语考试各项性能，并评估其有效性的，同时获得优化自动评分引擎所需的数据。该项目历时超过18个月，测试数据来自21个国家中38座城市的1万多名参加PTE学术英语考试现场实地测试的考生。这些考生来自158个不同的国家，讲着126种不同的母语，包括（但不限于）粤语、法语、古吉拉特语、希伯来语、印地语、印度尼西亚语、日语、韩语、普通话、马拉地语、波兰语、西班牙语、乌尔都语、越南语、泰米尔语、泰卢固语、泰语和土耳其语。现场实地测试的数据被用于优化PTE学术英语考试中写作和口语部分的自动评分引擎

为什么使用自动评分

研究表明，在很多方面上，自动评分结果比人工更具分析性和客观性。与易受各种因素影响的人工评分不同，自动评分系统会更公正。这意味着自动评分系统不会被与语言无关的因素而“分散注意力”，例如考生的外表，性格或肢体语言（如口语面试中可能发生的那样）。这种公正性意味着考生可以确信，评分是单独依据他们的语言水平表现来评判，并且认可考试的合作伙伴也可以确信考生的分数是“普适的”—即便考生在北京，布鲁塞尔或百慕大，他们仍然会取得同样的分数。

此外，自动评分允许某一语言样本的个体特征（口语或写作）被独立分析，因此语言中某个方面的不足并不会影响其他方面的评分。而人工评分者常会表现出从语言的一个方面到另一个方面有“判断转移”。例如，有些考生的语法非常差，但因为他们表达得流畅而被评为精通级。相反的是，自动评分可以客观地评估不同的语言技能。

在自动评分技术开发时，Pearson进行了“有效性研究”，用以确保机器所给出的分数与老练的人工评分者给出的分数相当。在有效性研究中，人工评分者和自动评分系统对同一组新的考生回答（机器从未见过的）进行评分。在Pearson的有效性研究中，当人工评分与机器自动评分进行对比时，人们发现它们是相似的。事实上，人工评分和自动评分之间的差异非常小，通常小于两个人工评分者之间的差异。在写作和口语评分中均是如此。

研究表明，PTE学术英语考试的自动评分技术可与那些受过培训的，且只考虑相关语言技能的，细心的人类专家相媲美。这意味着自动化系统在评估考生的语言技能时会“像人”一样“行动”，但又具备机器的精确性、一致性和客观性。

写作英语技能评分技术

PTE学术英语考试的写作部分使用Intelligent Essay Assessor TM （IEA）进行评分，这是一种自动评分工具，由Pearson**先进的Knowledge Analysis TechnologiesTM（KAT TM ）引擎提供支持。基于20多年的研究和开发，KAT引擎**检查整个段落来自动评估文本的含义。与熟练的人工评分者一样精准，KAT引擎运用一种自有的,名为潜在语义分析（Latent Semantic Analysis, LSA）的数学方法来准确地评估写作。使用LSA（一种**分析大量相关文本来得出单词和段落的语义相似性的方法）， KAT引擎“理解”文本的含义与人类所理解的大致相同。

被调整后的IEA可理解和评估任何学科领域的文本，包括用于离题响应的内置检测器，或可能需要提交给人类阅读者的其他情况。由独立研究员和Pearson进行的研究表明，IEA在知识评估和基于知识的推理上的可靠性。IEA的开发已超过十年，它已用于评估数百万篇论文，包括对小学，中学和大学水平的写作评分，以及评估军事领导技能。

IEA与PTE学术英语考试

IEA（Intelligent Essay Assessor）自动评估考生的写作技能和知识，并且可以受训为各种写作特征打分，人们可以信赖这个评分。它运用事先由人类阅读专家评分并给的回复作为指导，对考生所应答的整体内容进行评估。

PTE学术英语考试中，要求考生写200-300字的论文以及50-70字的总结。当答案被提交进行评分时，系统会评估答案的含义以及写作技术等方面。系统将考试答案与大量事先受训的答案进行比较，计算相似性，并基于内容分配分数，部分依据将答案归类在**有相似性的受训答案类别中。对写作技术方面进行评分的方法大致相同。系统评估考生答案中的每个写作特征（语法、结构和连贯性等），将其与大量事先受训的答案进行比较，然后根据该特征对答案进行排序。

对于IEA的训练，在现场实地测试中收集了超过5万份写作地答复（包括作文和总结）。这些写作答复在许多单项特征被给予评分，包括内容、形式要求、语法、词汇、一般语言范围、拼写、衍变、结构和连贯性。所有考生在现场实地测试中的答案，首先由两名人工评分者评分，当前两名评分者意见不统一时，还有第三名人工评分者再次打分。这些人工评分者的评分作为训练IEA的资料被输入其中。

由于考生的写作的答案被随机分配给来自澳大利亚、英国和美国的200多名评分者，这台自动评分系统接受了丰富且具有国际视角的评分训练。评分结果去除了主观倾向性。依据以上各个写作单项特征的得分，可以**对所有写作特征单项的总和，给到每个考生写作表现的总体衡量标准。这个衡量标准由人工评分者和系统生成的分数组成。总分和两组人工评分者评分的相关系数为0.87。人工评分者与系统自动生成评分的相关系数为0.88。PTE学术英语考试写作量表的信赖度为0.89。

上一篇：北京学习PTE考的优势和劣势下一篇：北京POT与PTE学术英语培训

北京羊驼教育PTE培训

北京PTE学术英语考试评分

选课

校区导航

共1个校区

最新新闻

相关推荐

常见问题

申请试听名额