利用千帆SDK实现作文自动批改

时间:2024-09-29 13:01:08

目录

作文批改实操

0. 环境准备

1. 大模型推理调用

1.1 Prompt 初探(尝试到优化)

1.2 Prompt 自动优化迭代(APO:Automatic Prompt Optimization)

1.3 推理超参优化(autotuner)

1.3.1 准备工作

1.3.2 默认值Baseline

1.3.3 自动搜索最优配置值

2. 大模型精调优化

2.1 数据准备

2.1.1 收集种子数据

2.1.2 分析种子数据

2.2 数据增强

2.3 数据清洗

2.4 精调准备

2.5 精调运行

2.5.1 精调选择 Checkpoint

2.5.2 精调完成

2.6 模型评估

3. 大模型服务部署


作文批改实操

注意:您使用该案例默认的数据和模型训练时,会产生一定费用。计费方式参考:精调付费

在教育场景中,对于学生作文,通常我们会从作文的内容是否符合题意、作文结构是否严谨、作文是否存在缺点和扣分项等方面,对我们的作文做出评判,并给我们打出最终的得分,这属于偏主观的打分,比较耗费老师的精力。而在大模型时代,大模型也可以成为一名作文点评专家。大模型有很好的格式遵循和风格遵循能力,我们将点评的要求或者模板"调教"给大模型,大模型就能按照我们的要求对一篇作文做出点评和打分。

众所周知,高考作文批改是由两位老师一起完成的,每篇作文花大概30秒到2分钟不等,因此对于高中作文大模型打分,既要追求效率,又要追求性能和成本。

下面我们将结合百度智能云千帆ModelBuilder平台(下面简称:千帆平台) SDK 运行代码的方式,找到给作文打分的大模型最优解。作文批改大模型,即可以成为老师的得力助手,也能够让学生知道作文还可以从哪些方面提升,大大节省老师批改的成本和时间。

0. 环境准备

在此部分,我们将讨论使用千帆平台进行推理任务之前的准备工作。这包括获取访问权限、安装 SDK 等内容。

然后通过如下方式设置鉴权所需的 Access Key 和 Secret Key,相关 Key 可以从 百度智能云控制台 - 安全认证 页面获得。

In [ ]:

!pip install -U qianfan>=0.3.8.2 qianfan[local_data_clean]

In [ ]:

import os

# 这里请根据 SDK 文档获取自己的 access key 和 secret key
os.environ["QIANFAN_ACCESS_KEY"] = "your_qianfan_console_access_key"
os.environ["QIANFAN_SECRET_KEY"] = "your_qianfan_console_secret_key"

1. 大模型推理调用

初探通用大模型作文批改能力,我们从网上找到高考作文的题目,对应的范文,以及评分规则入手,一步步调用大模型激发其能力。

  • 题目:2023年 全国甲卷作文真题
  • 范文:我的世界大于这世界

1.1 Prompt 初探(尝试到优化)

本节将介绍如何从用户提供的简单 prompt 出发,构建一个基本的推理任务。我们将演示如何使用千帆 SDK 调用大模型以获取模型推理的结果。

作文上,准备了两份数据:高考范文和偏离主题作文。

In [1]:

import qianfan
from qianfan import ChatCompletion, Completion
from qianfan.common import Prompt

prompt = Prompt("请帮我批改如下高考作文,给出评价和评分(0-60分):\n题目:{question}\n作文内容:{article}")
target = {
    "question": "人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。这句话引发了你怎样的联想与思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。",
    "article": """
我的世界大于这世界
我们消磨时间,也悔恨虚度了时间。在新时代的技术潮流中,当我们学会了用充满科技感的软件感受大千世界,便开始用无限的信息充斥着所有时间——浏览新鲜事儿,刷刷直播视频,关注好友动态……直到耗尽睡前的全部精力。当我们想要获得更多,便开始想尽办法“抢先”“争先”,不断被向前驱赶。
可是,我们的世界不止有这些,我们还可以去欣赏“江间波浪兼天涌,塞上风云接地阴”的壮阔,还可以去感受“揉碎在浮躁间,沉淀着彩虹似的梦”的温柔,更可以来一场“携手藕花湖上路,一霎黄梅细雨”的闲庭信步。只有当我们做了时间的主人才更能体会——我的世界,大于这世界。
时不重至,华不再阳。只有做时间的朋友,才能拥有有意义的人生,创造更有价值的事业。55岁的翟志刚,一直都和所有航天员一样,进行着日复一日的训练。13年间,他先后成为神舟十号和神舟十二号任务的备份航天员。“把结果交给时间,不虚度时间”,让他把梦想放飞在了太空。在北京冬奥会上,谷爱凌流畅的滑线感动了世界,这名18岁的姑娘在接受多家媒体采访时,都曾讲述过在车上写作业,甚至在训练和学业同样繁忙时仍能保持很长睡眠时间的故事。“珍惜时间,合理规划时间”,让她用热爱把冰雪融化。
现如今,技术的进步,正在提高人们利用时间的效率,互联网拉进了人们彼此之间的距离。通过聊天软件,我们可以随时获取信息和交流。过去,一封信是车马慢慢,递送到亲人的手里;现在,邮件秒达在同事的邮箱;功能丰富的购物平台,让买卖的时间大大缩短,人们不再需要通过“逛街”耗费时间和精力;于我们学生来说,在线教育,使得我们可以在自己的时间和节奏下,学习新的技能和知识……通过技术省力省时的现象,在我们身边不胜枚举。
然而,技术是把双刃剑,它让我们对时间的控制越来越精准、自信,同时,也让我们逐渐模糊了时间的概念,我们开始漫无目的地趴在“网”上,消耗时光。再如“节点”“抢先”,也让我们对时间的把控失了味儿。可如果只为达到“节点”,就不会拥有太空漫步的本领,最后只能与梦想擦肩;假如只为一时“抢先”,就不会有一手提着雪板,一手拿着食物走入赛场的从容。我们可以拥抱技术,用时间工具更好地为我们服务,让技术为生活增香添色。但是,我们不要让“科技”、让“时限”,无孔不入包围我们的生活,失去张弛有度的人生。
总之,在通过技术精确利用时间的同时,我们不要愈发深入地陷在时间的束缚和催促下。只有汲取科技的力量,善用时间,才能感受生活的美好,延展自我的世界。正如杜牧所言:“浮生若梦冰如水,日夜东流人不知。”韶华易逝,我们能做的就是在有限的生命长度里拓宽自己无限的宽度和深度。这样,我的世界便大于这世界。
    """,
    "expect": '{"详细解析": {"内容项": {"解析": "文章围绕技术发展对人们时间观念的影响进行了深入的思考和讨论,立意明确,中心突出,内容充实,思想健康,感情真挚。作者通过列举翟志刚和谷爱凌的事例,以及现代科技带来的便利和负面影响,阐述了做时间主人的重要性,并提出了在利用科技的同时,也要善用时间,拓宽生命宽度的观点。整篇文章逻辑清晰,论述有力,符合题意。", "等级": "一等", "得分": "20分"}, "表达项": {"解析": "文章采用议论文的文体,结构严谨,语言流畅,字迹工整,符合文体要求。作者在论述过程中运用了多种论证方法,如举例论证、对比论证等,使文章更具说服力。同时,作者还引用了一些诗句和名言,增加了文章的文采和深度。", "等级": "一等", "得分": "20分"}, "发展等级": {"解析": "文章在立意、内容和表达等方面都表现出较高的水平,尤其是在思想深度和文采方面,作者通过深入的思考和精心的表达,使文章具有了一定的创意和启发性。因此,本文在发展等级方面也可以给予较高的评价。", "等级": "一等", "得分": "20分"}, "扣分项和残篇评定": {"解析": "文章在字数、标题、错别字、标点符号等方面都没有明显的问题,因此不需要扣分。同时,文章也不是残篇,结构完整,论述充分。", "扣分": "0分"}}, "缺点和改进意见": {"缺点": "虽然文章整体表现优秀,但在一些细节方面还可以进一步完善。例如,部分论据的阐述可以更加具体和生动,以增加读者的阅读兴趣和理解深度;另外,个别句子的表达可以更加精炼和准确,以提高文章的整体质量。", "改进意见": "作者可以在今后的写作中注重论据的具体性和生动性,通过描绘更多的细节和场景来增强文章的说服力和感染力;同时,也可以加强对句子表达的锤炼和打磨,力求用更精炼、更准确的语言来表达自己的思想和观点。"}, "最终得分": "60分"}'
}

bad_target = {
    "question": "人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。这句话引发了你怎样的联想与思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。" ,
    "article": """
做网络的主人
随着时代的发展,社会的进步,网络像是一列快车,加速着我们迈进未来的脚步,引领着我们走向瞬息万变的大千世界。
老子说过,一切事物都有正反两面,网络也不例外。“秀才不出门,全知天下事”。坐在电脑前,鼠标轻轻一点,世界近在眼前。优雅的音乐,网上聊天使我们放松心情;奇闻异事,大好河山使我们大开眼界,不出门便走遍大江南北;搞笑的视频使我们的生活增添了几分乐趣;网上购物,读书,使我们的生活变得便捷……网络融入我们的生活,使我们乐在其中!非典”肆虐时期,北京中小学无法正常上课,便开展网上教学,学生们都通过网络在家中上课。多么神奇啊!一根线,一台电脑,既保证了师生们的生命安全,又保证了正常的学习。
网络上有着多于我们书本的知识。因此,我们对网络便产生了依赖,变得懒惰。写作文,不要想,电脑上有抄;做题目,小意思,电脑会告诉我。做作业就像完成任务一样,只要完成就够了。老师为了我们将知识记得更牢固而辛苦布置的作业,我们都顺手抄了,没有记住,离开了电脑我们什么都不会。
网络是把双刃剑,它给予我们思想上的满足,带给我们方便,让我们了解到世界的丰富多彩,同时又让我们沉醉、依赖于它,成了一个个网虫,渐渐因为没有满足而走向违法犯罪。
上网就如同吃饭,会吃的人长精神,不会吃的人长病疽。作为现代人,要有驾驭网络的能力,要充分利用现代科技的先进条件,借网络为已用,化网络为神奇,让生命之舟在网络这个*海洋里,破激流,越险滩,乘风破浪,鼓帆竞航,奔向理想的彼岸。
“每个人都该承担一定的社会责任,在网上规范言行!”“让网络成为一方净土,从我做起!我们一定要知荣明耻,树网络新风,一句话,网络是我们大家的朋友,需要我们共同维护,我们应当让网络成为我们的朋友,成为我们健康成长的又一个人生舞台。我们应当远离网络的阴暗面,坚决上绿色的网站,做文明的中学生让我们拥有网络吧!它会使你的生活更精彩;让我们拥有网络吧!它会让奔小康的路更宽、更阔!让我们一起呼吁——“绿色上网”!让网络时空绽开文明之花!
    """,
    "expect": ''
}
prompt_r = prompt.render(**bad_target)[0]
print(prompt_r)
请帮我批改如下高考作文,给出评价和评分(0-60分):
题目:人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。这句话引发了你怎样的联想与思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
作文内容:
做网络的主人
随着时代的发展,社会的进步,网络像是一列快车,加速着我们迈进未来的脚步,引领着我们走向瞬息万变的大千世界。
老子说过,一切事物都有正反两面,网络也不例外。“秀才不出门,全知天下事”。坐在电脑前,鼠标轻轻一点,世界近在眼前。优雅的音乐,网上聊天使我们放松心情;奇闻异事,大好河山使我们大开眼界,不出门便走遍大江南北;搞笑的视频使我们的生活增添了几分乐趣;网上购物,读书,使我们的生活变得便捷……网络融入我们的生活,使我们乐在其中!非典”肆虐时期,北京中小学无法正常上课,便开展网上教学,学生们都通过网络在家中上课。多么神奇啊!一根线,一台电脑,既保证了师生们的生命安全,又保证了正常的学习。
网络上有着多于我们书本的知识。因此,我们对网络便产生了依赖,变得懒惰。写作文,不要想,电脑上有抄;做题目,小意思,电脑会告诉我。做作业就像完成任务一样,只要完成就够了。老师为了我们将知识记得更牢固而辛苦布置的作业,我们都顺手抄了,没有记住,离开了电脑我们什么都不会。
网络是把双刃剑,它给予我们思想上的满足,带给我们方便,让我们了解到世界的丰富多彩,同时又让我们沉醉、依赖于它,成了一个个网虫,渐渐因为没有满足而走向违法犯罪。
上网就如同吃饭,会吃的人长精神,不会吃的人长病疽。作为现代人,要有驾驭网络的能力,要充分利用现代科技的先进条件,借网络为已用,化网络为神奇,让生命之舟在网络这个*海洋里,破激流,越险滩,乘风破浪,鼓帆竞航,奔向理想的彼岸。
“每个人都该承担一定的社会责任,在网上规范言行!”“让网络成为一方净土,从我做起!我们一定要知荣明耻,树网络新风,一句话,网络是我们大家的朋友,需要我们共同维护,我们应当让网络成为我们的朋友,成为我们健康成长的又一个人生舞台。我们应当远离网络的阴暗面,坚决上绿色的网站,做文明的中学生让我们拥有网络吧!它会使你的生活更精彩;让我们拥有网络吧!它会让奔小康的路更宽、更阔!让我们一起呼吁——“绿色上网”!让网络时空绽开文明之花!
    

In [2]:

from qianfan import ChatCompletion, Completion

comp = Completion(model="ERNIE-Speed")

result = comp.do(
    prompt=prompt_r,
    stream=True)

for s in result:
    print(s['result'])
[WARNING] [04-16 12:34:05] base.py:406 [t:8211643072]: retry is not available when stream is enabled
[WARNING] [04-16 12:34:05] base.py:621 [t:8211643072]: This key `messages` does not seem to be a parameter that the model `ERNIE-Speed` will accept
作文评价
及评分:

该篇文章围绕“人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人”这一主题展开,讨论了网络时代的利弊,
并结合自身观点提出了应对策略。
文章结构清晰,层次分明,从网络的正面影响谈起,逐步深入到网络带来的负面影响,最后提出了如何正确对待网络的建议。
整体上,文章符合高考作文的评分标准。


首先,文章紧扣题目要求,选准角度,立意明确,文体符合规范,自拟了标题。
在内容方面,文章不仅提到了网络带来的便利,还深入探讨了网络依赖和网络犯罪的隐患,思考深入,内容丰富。


其次,文章的语言表达准确,用词恰当,句式变化丰富,符合语言规范。
在逻辑方面,文章条理清晰,段落间逻辑连贯,整体结构严谨。


但是,文章也存在一些不足之处。
一方面,部分句子表达过于繁琐,可以更加简洁明了。
另一方面,虽然文章讨论了网络的负面影响,但对策部分稍显简单,可以进一步展开和深化。


根据以上评价,我给这篇文章一个评分:55分(满分60分)。文章紧扣主题,立意明确,内容丰富,语言表达准确,
逻辑清晰。
但在句子表达和对策部分还有提升的空间。


改进建议:

1. 在表达网络影响时,可以更加简洁明了地阐述观点。

2. 在对策部分,可以进一步展开和深化,例如具体描述如何“绿色上网”,如何区分网上信息的真伪等。


总的来说,这篇文章展现出了作者对网络的深入思考和对题目的理解。
通过加强语言表达和对策的深化,相信作者在未来的写作中会有更好的表现。

由于场景比较复杂,如果我们直接调用大模型,从返回的结果来看,可能会发现存在如下问题:

  • 评分不能准确遵循要求,打分普遍偏高
  • 输出的格式不固定,也没细分项打分
  • 作文解析比较空泛,给出的意见指导性较差

开始着手与 Prompt 优化调整。通过调用千帆平台提供的prompt优化接口,可先进行初步快速优化:

  • 平台Prompt优化:百度智能云千帆大模型平台
  • Prompt 优化文档:Prompt优化 - ModelBuilder

In [3]:

# 调用平台优化能力,耗时10秒左右
optimized_prompt = prompt.optimize()
print(optimized_prompt.template)
请帮我批改以下高考作文,给出评价和评分(0-60分)。作文题目为{question},文章内容为{article}。请在评语中针对文章的结构、语言、逻辑和内容进行评估,并提供具有建设性的反馈和建议,以帮助作者提高文章质量。请注意,您的评语应该既具体又富有启发性,以便作者能够了解自己的不足之处并有所改进。

然而以上 prompt 由于并不清楚任务的具体要求,给出的要求也较为笼统,因此我们需要进一步对 prompt 进行细化,这时候可以通过 prompt 框架来指引优化。

CRISPE 是一个通用的 prompt 框架,CRISPE是首字母的缩写,分别代表以下含义:

  • CR:Capacity and Role(能力与角色):这是你给大模型立下的人设。
  • I:Insight(洞悉;领悟):这是你为大模型提供的背景信息和上下文。
  • S:Statement(表述;声明):你希望大模型具体执行的任务。
  • P:Personality(人格;性格):你希望大模型输出内容的风格。
  • E:Experiment(尝试;实践):你给大模型所做的限制条件。

我们可以基于这个框架,提供更多的关于人设、输出结构、批改要求等信息。CRISPE Prompt 介绍

In [4]:

# 我们加入了高考评分规则,以及对应的角色信息,提供由平台优化得到的输出内容要求,一起组装 CRISPE 模板
essay_rule = """
高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定
        1、基础等级
        基础等级分内容和表达两项。
        1)内容项
        具体评分规则如下:符合题意、中心突出、内容充实、思想健康、感情真挚为一等,可按16-20分酌情给分;符合题意、主题明确、内容较充实、思想健康、感情真实为二等,可按11-15分酌情给分;基本符合题意、中心基本明确、内容单薄、思想基本健康、感情基本真实为三等,可按6-10分酌情给分;偏离题意、中心不明确、内容不当、思想不健康、感情虚假为四等,可按0-5分酌情给分。
        2)表达项
        具体评分规则如下:符合文体要求、结构严谨、语言流畅、字迹工整为一等,可按16-20分酌情给分;符合文体要求、结构完整、语言通顺、字迹清楚为二等,可按11-15分酌情给分;基本符合文体要求、结构基本完整、语言基本通顺、字迹基本清楚为三等,可按6-10分酌情给分;不符合文体要求、结构混乱、语言不通顺语病多、字迹潦草难辨为四等,可按0-5分酌情给分。
        2、发展等级
        基础等级分要与发展等级分相匹配,发展等级分不能跨越基础等级的得分等级。
        具体评分规则如下:深刻、丰富、有文采、有创意为一等,可按16-20分酌情给分;较深刻、较丰富、较有文采、较有创意为二等,可按11-15分酌情给分;略显深刻、略显丰富、略显文采、略显创意为三等,可按6-10分酌情给分;个别语句有深意、个别例子较好、个别语句较精彩、个别地方有深意为四等,可按0-5分酌情给分。
        3、关于作文的其他项评定
        1)扣分项评定
        出现错别字,1个错别字扣1分,重复不计,扣完5分为止;标点符号出现3处以上错误的酌情扣分;不足字数者,每少50字扣1分;无标题扣2分。
        2)残篇评定
        400字以上的文章,按评分标准评分,扣字数分。(少50个字扣1分)
        400字以下的文章,20分以下评分,不再扣字数分。
        200字以下的文章,10分以下评分,不再扣字数分。
        只写一两句话的,给1分或2分,不评0分。
        只写标题的,给1分或2分,不评0分。
        完全空白的,评0分.
"""

crispe_prompt = Prompt(Prompt.crispe_prompt(
    statement="请帮助我批改这篇高考作文,并给出相应的评价和评分(0-60分)",
    capacity="你是一个高中语文老师\n",
    insight="\n作文批改规则:" + essay_rule + "\n作文题目: {{question}}\n作文内容:{{article}}\n",
    personality="""你的回答应该细致、具体,并针对文章的每个方面进行点评,包括结构、语言、逻辑、文采等方面。你应该给出明确的建议和指导,以帮助作者改进文章质量,并提高其得分。同时,你的回答应该紧扣标准和要求,不偏离主题,体现公正和客观。""",
    experiment='{"详细解析":{"内容项": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"表达项": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"发展等级": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"扣分项和残篇评定": {"解析": "xxxxxx。","扣分": "xx分"}},"缺点和改进意见": {"缺点": "xxxxxx。","改进意见": "xxxxxxx。"},"最终得分": "xx分"}'
    ),
    identifier="{{}}"
)

In [5]:

# 并对优化的 Prompt 进行平台侧的评估打分,使用3.5旗舰版模型进行初步打分
prompts = {"起始 Prompt": prompt, "平台优化 Prompt": optimized_prompt, "CRISPE Prompt": crispe_prompt}
for key, p in prompts.items():
    print(f"{key}:\n{p.template}\n {'-' * 30}")

scenes = [
    {
        "args": target,
        "expected": target['expect']
    },
]

# Prompt评估打分,对应产品链接:https://console.bce.baidu.com/qianfan/prompt/evaluate 
"""
print("\n\n")
results = Prompt.evaluate(prompts.values(), scenes, Completion(model="ERNIE-Speed"))
for i, p in enumerate(prompts.items()):
    print(f"{p[0]} 分数:{results[i].scene[0]['score']}")
"""
起始 Prompt:
请帮我批改如下高考作文,给出评价和评分(0-60分):
题目:{question}
作文内容:{article}
 ------------------------------
平台优化 Prompt:
请帮我批改以下高考作文,给出评价和评分(0-60分)。作文题目为{question},文章内容为{article}。请在评语中针对文章的结构、语言、逻辑和内容进行评估,并提供具有建设性的反馈和建议,以帮助作者提高文章质量。请注意,您的评语应该既具体又富有启发性,以便作者能够了解自己的不足之处并有所改进。
 ------------------------------
CRISPE Prompt:
能力与角色:你是一个高中语文老师

背景信息:
作文批改规则:
高考作文评分批改分为基础等级、发展等级、关于作文的其他项评定
        1、基础等级
        基础等级分内容和表达两项。
        1)内容项
        具体评分规则如下:符合题意、中心突出、内容充实、思想健康、感情真挚为一等,可按16-20分酌情给分;符合题意、主题明确、内容较充实、思想健康、感情真实为二等,可按11-15分酌情给分;基本符合题意、中心基本明确、内容单薄、思想基本健康、感情基本真实为三等,可按6-10分酌情给分;偏离题意、中心不明确、内容不当、思想不健康、感情虚假为四等,可按0-5分酌情给分。
        2)表达项
        具体评分规则如下:符合文体要求、结构严谨、语言流畅、字迹工整为一等,可按16-20分酌情给分;符合文体要求、结构完整、语言通顺、字迹清楚为二等,可按11-15分酌情给分;基本符合文体要求、结构基本完整、语言基本通顺、字迹基本清楚为三等,可按6-10分酌情给分;不符合文体要求、结构混乱、语言不通顺语病多、字迹潦草难辨为四等,可按0-5分酌情给分。
        2、发展等级
        基础等级分要与发展等级分相匹配,发展等级分不能跨越基础等级的得分等级。
        具体评分规则如下:深刻、丰富、有文采、有创意为一等,可按16-20分酌情给分;较深刻、较丰富、较有文采、较有创意为二等,可按11-15分酌情给分;略显深刻、略显丰富、略显文采、略显创意为三等,可按6-10分酌情给分;个别语句有深意、个别例子较好、个别语句较精彩、个别地方有深意为四等,可按0-5分酌情给分。
        3、关于作文的其他项评定
        1)扣分项评定
        出现错别字,1个错别字扣1分,重复不计,扣完5分为止;标点符号出现3处以上错误的酌情扣分;不足字数者,每少50字扣1分;无标题扣2分。
        2)残篇评定
        400字以上的文章,按评分标准评分,扣字数分。(少50个字扣1分)
        400字以下的文章,20分以下评分,不再扣字数分。
        200字以下的文章,10分以下评分,不再扣字数分。
        只写一两句话的,给1分或2分,不评0分。
        只写标题的,给1分或2分,不评0分。
        完全空白的,评0分.

作文题目: {{question}}
作文内容:{{article}}

指令:请帮助我批改这篇高考作文,并给出相应的评价和评分(0-60分)
输出风格:你的回答应该细致、具体,并针对文章的每个方面进行点评,包括结构、语言、逻辑、文采等方面。你应该给出明确的建议和指导,以帮助作者改进文章质量,并提高其得分。同时,你的回答应该紧扣标准和要求,不偏离主题,体现公正和客观。
输出范围:{"详细解析":{"内容项": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"表达项": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"发展等级": {"解析": "xxxxxx。","等级": "xx等","得分": "xx分"},"扣分项和残篇评定": {"解析": "xxxxxx。","扣分": "xx分"}},"缺点和改进意见": {"缺点": "xxxxxx。","改进意见": "xxxxxxx。"},"最终得分": "xx分"}
 ------------------------------

Out[5]:

'\nprint("\n\n")\nresults = Prompt.evaluate(prompts.values(), scenes, Completion(model="ERNIE-Speed"))\nfor i, p in enumerate(prompts.items()):\n    print(f"{p[0]} 分数:{results[i].scene[0][\'score\']}")\n'

In [6]:

# 看看优化后的效果

result = comp.do(
    prompt=crispe_prompt.render(**bad_target)[0],
    stream=True)

for s in result:
    print(s['result'])
[WARNING] [04-16 12:36:48] base.py:406 [t:8211643072]: retry is not available when stream is enabled
[WARNING] [04-16 12:36:48] base.py:621 [t:8211643072]: This key `messages` does not seem to be a parameter that the model `ERNIE-Speed` will accept
详细解析
:

内容项:

* 解析:文章选题紧扣题目要求,从网络技术发展对人们掌控时间的影响展开联想和思考。
内容层次清晰,先介绍了网络带来的便利,再指出网络依赖的弊端,最后提出正确对待网络的方法。
整体上符合题意,中心明确,内容充实。

* 等级:一等。

* 得分:18分。


表达项:

* 解析:文章结构严谨,语言流畅,字迹工整。
文中例子恰当,论证有力,同时使用了修辞手法增加文采。
符合文体要求。

* 等级:一等。

* 得分:17分。


发展等级:

* 解析:文章在探讨网络影响时,既有深刻的分析,也有对未来发展的展望,展现出作者较深的思考和丰富的论述。
同时,文章有一定的文采和创意。

* 等级:二等。

* 得分:13分。


扣分项和残篇评定:

* 解析:文章未出现错别字、标点符号错误,字数达到要求,无标题扣分情况。

* 扣分:无扣分。


缺点和改进意见:

* 缺点:文章在个别地方的语言表达可以更加精炼,部分句子的转折和衔接可以更自然。

* 改进意见:在修改时,可以进一步斟酌语言,使其更加准确、生动。
例如,“网络像是一列快车”可以改为“网络如同时代的快车”,使表达更加形象。


最终得分:内容项得分+表达项得分+发展等级得分-扣分= 18分(内容项)+ 17分(
表达项)+ 13分(发展等级)- 0分(扣分)= 48分(最终得分)。由于本次作文并无明显
缺陷和错误,总体表现良好,所以给予一定的加分空间,最终得分为49分(根据作文实际水平可考虑给予上下一分的
浮动空间)。

1.2 Prompt 自动优化迭代(APO:Automatic Prompt Optimization)

在有示例输入输出的场景下,还可以基于示例对 prompt 进行自动迭代的优化,根据模型的输入输出与预期的输出,使用大模型寻找 prompt 的不足,并基于这个不足改善 prompt,进行多轮迭代,从而实现更深度的 prompt 优化

APO 优化大致流程: 

APO Process

In [48]:

from qianfan.dataset import Dataset

# 当前通过一条样本,展现相关流程;
sample = Dataset.create_from_pyobj(
    [target], 
    input_columns=['question', 'article'],
    reference_column='expect'
)

# 并且迭代次数调至最低,实际可按照业务需求自行设定;
# 评估使用的大模型,默认是 ERNIE 4.0 ,花费的时间和成本会比较大,本次流程中使用 EB3.5模型
"""
apo_prompt = prompt.apo_by_sample(
        sample,
        infer_config={"model": "ERNIE-Speed"},
        optimize_config = {"model" : "ERNIE-4.0-8K"},
        iteration_round=3)
print(apo_prompt.template)
"""
[INFO] [04-15 19:19:35] dataset_utils.py:433 [t:140525388687168]: prompt template detected, start to check template variables
[INFO] [04-15 19:19:36] openapi_requestor.py:359 [t:140524358305536]: requesting llm api endpoint: /chat/ernie_speed
[INFO] [04-15 19:19:47] base.py:92 [t:140524358305536]: All tasks finished, exeutor will be shutdown
[INFO] [04-15 19:19:47] prompt.py:640 [t:140525388687168]: Feedback input: '我正在编写prompt\n\n**我现在的prompt是**:\n请帮我批改如下高考作文,给出评价和评分(0-60分):\n题目:{question}\n作文内容:{article}\n\n**我尝试的输入**:\n{\n    "question": "人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。这句话引发了你怎样的联想与思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。",\n    "article": "\\n我的世界大于这世界\\n我们消磨时间,也悔恨虚度了时间。在新时代的技术潮流中,当我们学会了用充满科技感的软件感受大千世界,便开始用无限的信息充斥着所有时间——浏览新鲜事儿,刷刷直播视频,关注好友动态……直到耗尽睡前的全部精力。当我们想要获得更多,便开始想尽办法“抢先”“争先”,不断被向前驱赶。\\n可是,我们的世界不止有这些,我们还可以去欣赏“江间波浪兼天涌,塞上风云接地阴”的壮阔,还可以去感受“揉碎在浮躁间,沉淀着彩虹似的梦”的温柔,更可以来一场“携手藕花湖上路,一霎黄梅细雨”的闲庭信步。只有当我们做了时间的主人才更能体会——我的世界,大于这世界。\\n时不重至,华不再阳。只有做时间的朋友,才能拥有有意义的人生,创造更有价值的事业。55岁的翟志刚,一直都和所有航天员一样,进行着日复一日的训练。13年间,他先后成为神舟十号和神舟十二号任务的备份航天员。“把结果交给时间,不虚度时间”,让他把梦想放飞在了太空。在北京冬奥会上,谷爱凌流畅的滑线感动了世界,这名18岁的姑娘在接受多家媒体采访时,都曾讲述过在车上写作业,甚至在训练和学业同样繁忙时仍能保持很长睡眠时间的故事。“珍惜时间,合理规划时间”,让她用热爱把冰雪融化。\\n现如今,技术的进步,正在提高人们利用时间的效率,互联网拉进了人们彼此之间的距离。通过聊天软件,我们可以随时获取信息和交流。过去,一封信是车马慢慢,递送到亲人的手里;现在,邮件秒达在同事的邮箱;功能丰富的购物平台,让买卖的时间大大缩短,人们不再需要通过“逛街”耗费时间和精力;于我们学生来说,在线教育,使得我们可以在自己的时间和节奏下,学习新的技能和知识……通过技术省力省时的现象,在我们身边不胜枚举。\\n然而,技术是把双刃剑,它让我们对时间的控制越来越精准、自信,同时,也让我们逐渐模糊了时间的概念,我们开始漫无目的地趴在“网”上,消耗时光。再如“节点”“抢先”,也让我们对时间的把控失了味儿。可如果只为达到“节点”,就不会拥有太空漫步的本领,最后只能与梦想擦肩;假如只为一时“抢先”,就不会有一手提着雪板,一手拿着食物走入赛场的从容。我们可以拥抱技术,用时间工具更好地为我们服务,让技术为生活增香添色。但是,我们不要让“科技”、让“时限”,无孔不入包围我们的生活,失去张弛有度的人生。\\n总之,在通过技术精确利用时间的同时,我们不要愈发深入地陷在时间的束缚和催促下。只有汲取科技的力量,善用时间,才能感受生活的美好,延展自我的世界。正如杜牧所言:“浮生若梦冰如水,日夜东流人不知。”韶华易逝,我们能做的就是在有限的生命长度里拓宽自己无限的宽度和深度。这样,我的世界便大于这世界。\\n    "\n}\n\n**我期望得到的输出**:\n{"详细解析": {"内容项": {"解析": "文章围绕技术发展对人们时间观念的影响进行了深入的思考和讨论,立意明确,中心突出,内容充实,思想健康,感情真挚。作者通过列举翟志刚和谷爱凌的事例,以及现代科技带来的便利和负面影响,阐述了做时间主人的重要性,并提出了在利用科技的同时,也要善用时间,拓宽生命宽度的观点。整篇文章逻辑清晰,论述有力,符合题意。", "等级": "一等", "得分": "20分"}, "表达项": {"解析": "文章采用议论文的文体,结构严谨,语言流畅,字迹工整,符合文体要求。作者在论述过程中运用了多种论证方法,如举例论证、对比论证等,使文章更具说服力。同时,作者还引用了一些诗句和名言,增加了文章的文采和深度。", "等级": "一等", "得分": "20分"}, "发展等级": {"解析": "文章在立意、内容和表达等方面都表现出较高的水平,尤其是在思想深度和文采方面,作者通过深入的思考和精心的表达,使文章具有了一定的创意和启发性。因此,本文在发展等级方面也可以给予较高的评价。", "等级": "一等", "得分": "20分"}, "扣分项和残篇评定": {"解析": "文章在字数、标题、错别字、标点符号等方面都没有明显的问题,因此不需要扣分。同时,文章也不是残篇,结构完整,论述充分。", "扣分": "0分"}}, "缺点和改进意见": {"缺点": "虽然文章整体表现优秀,但在一些细节方面还可以进一步完善。例如,部分论据的阐述可以更加具体和生动,以增加读者的阅读兴趣和理解深度;另外,个别句子的表达可以更加精炼和准确,以提高文章的整体质量。", "改进意见": "作者可以在今后的写作中注重论据的具体性和生动性,通过描绘更多的细节和场景来增强文章的说服力和感染力;同时,也可以加强对句子表达的锤炼和打磨,力求用更精炼、更准确的语言来表达自己的思想和观点。"}, "最终得分": "60分"}\n\n**模型的输出是**:\n作文评分及评价:\n\n一、总体评价:\n\n该作文围绕题目“人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人”展开深入思考和联想,从多个角度探讨了时间掌控的利弊以及个人应有的态度。文章结构清晰,观点明确,论证充分,语言流畅,表达准确,展现出作者深刻的思考和独特的见解。\n\n二、具体内容评价:\n\n1. 引入:从新时代技术浪潮下人们消磨时间的方式谈起,引出主题,紧扣题目。\n2. 立意:提出“我的世界大于这世界”的观点,立意新颖,富有启发性。\n3. 论证:通过举例论证,如翟志刚、谷爱凌等人的事例,以及技术发展的利与弊,充分阐述了自己的观点。\n4. 深化:深入探讨了技术与时间的关系,以及如何正确对待和利用技术,体现了作者深入的思考。\n5. 结尾:总结全文,强调善用时间的重要性,引用了杜牧的诗句,升华主题。\n\n三、评分:\n\n根据高考作文评分标准,该作文内容紧扣题目,立意新颖,论证充分,表达清晰,语言流畅,无明显瑕疵。评分建议为55分以上。\n\n四、建议:\n\n1. 在举例论证时,可以进一步丰富例子,增加更多的现实生活中的例子,使论证更加具有说服力。\n2. 在探讨技术的利与弊时,可以进一步分析技术发展对人们时间观念的影响,以及如何更好地利用技术为生活服务。\n\n总体来看,这是一篇非常优秀的作文,展现了作者深刻的思考和独特的见解。\n\n===\n\n根据我期望得到的输出和模型的输出,告诉我几个理由为什么这个 prompt 并不能很好的完成这个任务'
[INFO] [04-15 19:19:47] openapi_requestor.py:359 [t:140525388687168]: requesting llm api endpoint: /chat/completions_pro
[INFO] [04-15 19:20:17] prompt.py:652 [t:140525388687168]: Feedback output: '这个prompt在尝试完成作文批改任务时存在几个潜在的问题,导致模型可能无法完全按照期望的方式输出结果:\n\n1. **详细的评分标准缺失**:虽然prompt中要求了评价和评分,但并未提供具体的评分标准。在高考作文批改中,通常会有一套详细的评分标准,包括内容、结构、语言、创新等多个方面。没有明确这些标准,模型可能难以对作文进行全面、准确的评价。\n2. **输入格式的复杂性**:输入的JSON格式包含了多个字段,如“question”和“article”。这种复杂的输入格式可能需要模型具备更高的理解和处理能力,尤其是在处理长文本(如作文内容)时。\n3. **期望输出的详细性**:期望的输出非常详细,包括了内容项、表达项、发展等级、扣分项和残篇评定等多个方面的解析。这需要模型不仅能够对作文进行整体评价,还要能够深入到各个细节方面进行分析。这对于当前的NLP模型来说可能是一个挑战。\n4. **领域知识的需求**:作文批改涉及到对作文主题、立意、论证等方面的深入理解,这需要模型具备一定的领域知识。在这个prompt中,作文主题是关于技术发展与时间掌控的,这需要模型对这个话题有一定的了解和思考。\n5. **主观性的处理**:作文批改本身是一个主观性很强的任务。不同的人可能对同一篇作文有不同的评价和看法。模型在处理这种主观性时可能会遇到困难,因为它需要学习并模拟人类的这种主观判断。\n\n综上所述,这个prompt在作文批改任务上可能无法完全按照期望的方式输出结果,主要是因为缺乏详细的评分标准、输入格式的复杂性、期望输出的详细性、领域知识的需求以及主观性的处理等问题。'
[INFO] [04-15 19:20:17] prompt.py:665 [t:140525388687168]: Update input: '我正在编写prompt\n\n**我现在的prompt是**:\n请帮我批改如下高考作文,给出评价和评分(0-60分):\n题目:{question}\n作文内容:{article}\n\n**我尝试的输入**:\n{\n    "question": "人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。这句话引发了你怎样的联想与思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。",\n    "article": "\\n我的世界大于这世界\\n我们消磨时间,也悔恨虚度了时间。在新时代的技术潮流中,当我们学会了用充满科技感的软件感受大千世界,便开始用无限的信息充斥着所有时间——浏览新鲜事儿,刷刷直播视频,关注好友动态……直到耗尽睡前的全部精力。当我们想要获得更多,便开始想尽办法“抢先”“争先”,不断被向前驱赶。\\n可是,我们的世界不止有这些,我们还可以去欣赏“江间波浪兼天涌,塞上风云接地阴”的壮阔,还可以去感受“揉碎在浮躁间,沉淀着彩虹似的梦”的温柔,更可以来一场“携手藕花湖上路,一霎黄梅细雨”的闲庭信步。只有当我们做了时间的主人才更能体会——我的世界,大于这世界。\\n时不重至,华不再阳。只有做时间的朋友,才能拥有有意义的人生,创造更有价值的事业。55岁的翟志刚,一直都和所有航天员一样,进行着日复一日的训练。13年间,他先后成为神舟十号和神舟十二号任务的备份航天员。“把结果交给时间,不虚度时间”,让他把梦想放飞在了太空。在北京冬奥会上,谷爱凌流畅的滑线感动了世界,这名18岁的姑娘在接受多家媒体采访时,都曾讲述过在车上写作业,甚至在训练和学业同样繁忙时仍能保持很长睡眠时间的故事。“珍惜时间,合理规划时间”,让她用热爱把冰雪融化。\\n现如今,技术的进步,正在提高人们利用时间的效率,互联网拉进了人们彼此之间的距离。通过聊天软件,我们可以随时获取信息和交流。过去,一封信是车马慢慢,递送到亲人的手里;现在,邮件秒达在同事的邮箱;功能丰富的购物平台,让买卖的时间大大缩短,人们不再需要通过“逛街”耗费时间和精力;于我们学生来说,在线教育,使得我们可以在自己的时间和节奏下,学习新的技能和知识……通过技术省力省时的现象,在我们身边不胜枚举。\\n然而,技术是把双刃剑,它让我们对时间的控制越来越精准、自信,同时,也让我们逐渐模糊了时间的概念,我们开始漫无目的地趴在“网”上,消耗时光。再如“节点”“抢先”,也让我们对时间的把控失了味儿。可如果只为达到“节点”,就不会拥有太空漫步的本领,最后只能与梦想擦肩;假如只为一时“抢先”,就不会有一手提着雪板,一手拿着食物走入赛场的从容。我们可以拥抱技术,用时间工具更好地为我们服务,让技术为生活增香添色。但是,我们不要让“科技”、让“时限”,无孔不入包围我们的生活,失去张弛有度的人生。\\n总之,在通过技术精确利用时间的同时,我们不要愈发深入地陷在时间的束缚和催促下。只有汲取科技的力量,善用时间,才能感受生活的美好,延展自我的世界。正如杜牧所言:“浮生若梦冰如水,日夜东流人不知。”韶华易逝,我们能做的就是在有限的生命长度里拓宽自己无限的宽度和深度。这样,我的世界便大于这世界。\\n    "\n}\n\n**我期望得到的输出**:\n{"详细解析": {"内容项": {"解析": "文章围绕技术发展对人们时间观念的影响进行了深入的思考和讨论,立意明确,中心突出,内容充实,思想健康,感情真挚。作者通过列举翟志刚和谷爱凌的事例,以及现代科技带来的便利和负面影响,阐述了做时间主人的重要性,并提出了在利用科技的同时,也要善用时间,拓宽生命宽度的观点。整篇文章逻辑清晰,论述有力,符合题意。", "等级": "一等", "得分": "20分"}, "表达项": {"解析": "文章采用议论文的文体,结构严谨,语言流畅,字迹工整,符合文体要求。作者在论述过程中运用了多种论证方法,如举例论证、对比论证等,使文章更具说服力。同时,作者还引用了一些诗句和名言,增加了文章的文采和深度。", "等级": "一等", "得分": "20分"}, "发展等级": {"解析": "文章在立意、内容和表达等方面都表现出较高的水平,尤其是在思想深度和文采方面,作者通过深入的思考和精心的表达,使文章具有了一定的创意和启发性。因此,本文在发展等级方面也可以给予较高的评价。", "等级": "一等", "得分": "20分"}, "扣分项和残篇评定": {"解析": "文章在字数、标题、错别字、标点符号等方面都没有明显的问题,因此不需要扣分。同时,文章也不是残篇,结构完整,论述充分。", "扣分": "0分"}}, "缺点和改进意见": {"缺点": "虽然文章整体表现优秀,但在一些细节方面还可以进一步完善。例如,部分论据的阐述可以更加具体和生动,以增加读者的阅读兴趣和理解深度;另外,个别句子的表达可以更加精炼和准确,以提高文章的整体质量。", "改进意见": "作者可以在今后的写作中注重论据的具体性和生动性,通过描绘更多的细节和场景来增强文章的说服力和感染力;同时,也可以加强对句子表达的锤炼和打磨,力求用更精炼、更准确的语言来表达自己的思想和观点。"}, "最终得分": "60分"}\n\n**模型的输出是**:\n作文评分及评价:\n\n一、总体评价:\n\n该作文围绕题目“人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人”展开深入思考和联想,从多个角度探讨了时间掌控的利弊以及个人应有的态度。文章结构清晰,观点明确,论证充分,语言流畅,表达准确,展现出作者深刻的思考和独特的见解。\n\n二、具体内容评价:\n\n1. 引入:从新时代技术浪潮下人们消磨时间的方式谈起,引出主题,紧扣题目。\n2. 立意:提出“我的世界大于这世界”的观点,立意新颖,富有启发性。\n3. 论证:通过举例论证,如翟志刚、谷爱凌等人的事例,以及技术发展的利与弊,充分阐述了自己的观点。\n4. 深化:深入探讨了技术与时间的关系,以及如何正确对待和利用技术,体现了作者深入的思考。\n5. 结尾:总结全文,强调善用时间的重要性,引用了杜牧的诗句,升华主题。\n\n三、评分:\n\n根据高考作文评分标准,该作文内容紧扣题目,立意新颖,论证充分,表达清晰,语言流畅,无明显瑕疵。评分建议为55分以上。\n\n四、建议:\n\n1. 在举例论证时,可以进一步丰富例子,增加更多的现实生活中的例子,使论证更加具有说服力。\n2. 在探讨技术的利与弊时,可以进一步分析技术发展对人们时间观念的影响,以及如何更好地利用技术为生活服务。\n\n总体来看,这是一篇非常优秀的作文,展现了作者深刻的思考和独特的见解。\n\n**但是存在这些问题**:\n这个prompt在尝试完成作文批改任务时存在几个潜在的问题,导致模型可能无法完全按照期望的方式输出结果:\n\n1. **详细的评分标准缺失**:虽然prompt中要求了评价和评分,但并未提供具体的评分标准。在高考作文批改中,通常会有一套详细的评分标准,包括内容、结构、语言、创新等多个方面。没有明确这些标准,模型可能难以对作文进行全面、准确的评价。\n2. **输入格式的复杂性**:输入的JSON格式包含了多个字段,如“question”和“article”。这种复杂的输入格式可能需要模型具备更高的理解和处理能力,尤其是在处理长文本(如作文内容)时。\n3. **期望输出的详细性**:期望的输出非常详细,包括了内容项、表达项、发展等级、扣分项和残篇评定等多个方面的解析。这需要模型不仅能够对作文进行整体评价,还要能够深入到各个细节方面进行分析。这对于当前的NLP模型来说可能是一个挑战。\n4. **领域知识的需求**:作文批改涉及到对作文主题、立意、论证等方面的深入理解,这需要模型具备一定的领域知识。在这个prompt中,作文主题是关于技术发展与时间掌控的,这需要模型对这个话题有一定的了解和思考。\n5. **主观性的处理**:作文批改本身是一个主观性很强的任务。不同的人可能对同一篇作文有不同的评价和看法。模型在处理这种主观性时可能会遇到困难,因为它需要学习并模拟人类的这种主观判断。\n\n综上所述,这个prompt在作文批改任务上可能无法完全按照期望的方式输出结果,主要是因为缺乏详细的评分标准、输入格式的复杂性、期望输出的详细性、领域知识的需求以及主观性的处理等问题。\n\n===\n\n基于以上问题和期望的输出,为我编写一个新的 prompt,涉及的变量用 {question} {article} 表示,整个prompt由<START>和<END>包裹:\n'
[INFO] [04-15 19:20:17] openapi_requestor.py:359 [t:140525388687168]: requesting llm api endpoint: /chat/completions_pro
[INFO] [04-15 19:20:42] prompt.py:678 [t:140525388687168]: Update output: '<START>\n请按照以下评分标准和要求对这篇高考作文进行批改,并给出最终评分(0-60分)。评分标准包括内容、表达和发展等级三个方面。\n\n作文题目:{question}\n\n作文内容:{article}\n\n评分标准:\n1. 内容(20分):立意是否明确,中心是否突出,内容是否充实,思想是否健康,感情是否真挚。\n2. 表达(20分):结构是否严谨,语言是否流畅,字迹是否工整,是否符合文体要求。\n3. 发展等级(20分):是否在立意、内容、表达等方面有突出表现,是否具有创意和启发性。\n\n请在批改中明确指出作文的优点、缺点以及需要改进的地方,并针对每个评分标准给出相应的得分。最终将三个方面的得分相加,给出作文的总分。\n<END>\n\n这个新的prompt提供了详细的评分标准,并要求模型针对每个标准进行批改和评分。这样做可以使模型更加准确地评价作文,并给出有针对性的改进建议。同时,将评分标准分为内容、表达和发展等级三个方面,也符合高考作文批改的通常做法。'
[INFO] [04-15 19:20:42] prompt.py:687 [t:140525388687168]: New prompt: '\n请按照以下评分标准和要求对这篇高考作文进行批改,并给出最终评分(0-60分)。评分标准包括内容、表达和发展等级三个方面。\n\n作文题目:{question}\n\n作文内容:{article}\n\n评分标准:\n1. 内容(20分):立意是否明确,中心是否突出,内容是否充实,思想是否健康,感情是否真挚。\n2. 表达(20分):结构是否严谨,语言是否流畅,字迹是否工整,是否符合文体要求。\n3. 发展等级(20分):是否在立意、内容、表达等方面有突出表现,是否具有创意和启发性。\n\n请在批改中明确指出作文的优点、缺点以及需要改进的地方,并针对每个评分标准给出相应的得分。最终将三个方面的得分相加,给出作文的总分。\n'
[INFO] [04-15 19:20:42] dataset_utils.py:433 [t:140525388687168]: prompt template detected, start to check template variables
[INFO] [04-15 19:20:42] openapi_requestor.py:359 [t:140524358305536]: requesting llm api endpoint: /chat/ernie_speed
[INFO] [04-15 19:20:54] base.py:92 [t:140524358305536]: All tasks finished, exeutor will be shutdown
[INFO] [04-15 19:20:54] prompt.py:640 [t:140525388687168]: Feedback input: '我正在编写prompt\n\n**我现在的prompt是**:\n\n请按照以下评分标准和要求对这篇高考作文进行批改,并给出最终评分(0-60分)。评分标准包括内容、表达和发展等级三个方面。\n\n作文题目:{question}\n\n作文内容:{article}\n\n评分标准:\n1. 内容(20分):立意是否明确,中心是否突出,内容是否充实,思想是否健康,感情是否真挚。\n2. 表达(20分):结构是否严谨,语言是否流畅,字迹是否工整,是否符合文体要求。\n3. 发展等级(20分):是否在立意、内容、表达等方面有突出表现,是否具有创意和启发性。\n\n请在批改中明确指出作文的优点、缺点以及需要改进的地方,并针对每个评分标准给出相应的得分。最终将三个方面的得分相加,给出作文的总分。\n\n\n**我尝试的输入**:\n{\n    "question": "人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。这句话引发了你怎样的联想与思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。",\n    "article": "\\n我的世界大于这世界\\n我们消磨时间,也悔恨虚度了时间。在新时代的技术潮流中,当我们学会了用充满科技感的软件感受大千世界,便开始用无限的信息充斥着所有时间——浏览新鲜事儿,刷刷直播视频,关注好友动态……直到耗尽睡前的全部精力。当我们想要获得更多,便开始想尽办法“抢先”“争先”,不断被向前驱赶。\\n可是,我们的世界不止有这些,我们还可以去欣赏“江间波浪兼天涌,塞上风云接地阴”的壮阔,还可以去感受“揉碎在浮躁间,沉淀着彩虹似的梦”的温柔,更可以来一场“携手藕花湖上路,一霎黄梅细雨”的闲庭信步。只有当我们做了时间的主人才更能体会——我的世界,大于这世界。\\n时不重至,华不再阳。只有做时间的朋友,才能拥有有意义的人生,创造更有价值的事业。55岁的翟志刚,一直都和所有航天员一样,进行着日复一日的训练。13年间,他先后成为神舟十号和神舟十二号任务的备份航天员。“把结果交给时间,不虚度时间”,让他把梦想放飞在了太空。在北京冬奥会上,谷爱凌流畅的滑线感动了世界,这名18岁的姑娘在接受多家媒体采访时,都曾讲述过在车上写作业,甚至在训练和学业同样繁忙时仍能保持很长睡眠时间的故事。“珍惜时间,合理规划时间”,让她用热爱把冰雪融化。\\n现如今,技术的进步,正在提高人们利用时间的效率,互联网拉进了人们彼此之间的距离。通过聊天软件,我们可以随时获取信息和交流。过去,一封信是车马慢慢,递送到亲人的手里;现在,邮件秒达在同事的邮箱;功能丰富的购物平台,让买卖的时间大大缩短,人们不再需要通过“逛街”耗费时间和精力;于我们学生来说,在线教育,使得我们可以在自己的时间和节奏下,学习新的技能和知识……通过技术省力省时的现象,在我们身边不胜枚举。\\n然而,技术是把双刃剑,它让我们对时间的控制越来越精准、自信,同时,也让我们逐渐模糊了时间的概念,我们开始漫无目的地趴在“网”上,消耗时光。再如“节点”“抢先”,也让我们对时间的把控失了味儿。可如果只为达到“节点”,就不会拥有太空漫步的本领,最后只能与梦想擦肩;假如只为一时“抢先”,就不会有一手提着雪板,一手拿着食物走入赛场的从容。我们可以拥抱技术,用时间工具更好地为我们服务,让技术为生活增香添色。但是,我们不要让“科技”、让“时限”,无孔不入包围我们的生活,失去张弛有度的人生。\\n总之,在通过技术精确利用时间的同时,我们不要愈发深入地陷在时间的束缚和催促下。只有汲取科技的力量,善用时间,才能感受生活的美好,延展自我的世界。正如杜牧所言:“浮生若梦冰如水,日夜东流人不知。”韶华易逝,我们能做的就是在有限的生命长度里拓宽自己无限的宽度和深度。这样,我的世界便大于这世界。\\n    "\n}\n\n**我期望得到的输出**:\n{"详细解析": {"内容项": {"解析": "文章围绕技术发展对人们时间观念的影响进行了深入的思考和讨论,立意明确,中心突出,内容充实,思想健康,感情真挚。作者通过列举翟志刚和谷爱凌的事例,以及现代科技带来的便利和负面影响,阐述了做时间主人的重要性,并提出了在利用科技的同时,也要善用时间,拓宽生命宽度的观点。整篇文章逻辑清晰,论述有力,符合题意。", "等级": "一等", "得分": "20分"}, "表达项": {"解析": "文章采用议论文的文体,结构严谨,语言流畅,字迹工整,符合文体要求。作者在论述过程中运用了多种论证方法,如举例论证、对比论证等,使文章更具说服力。同时,作者还引用了一些诗句和名言,增加了文章的文采和深度。", "等级": "一等", "得分": "20分"}, "发展等级": {"解析": "文章在立意、内容和表达等方面都表现出较高的水平,尤其是在思想深度和文采方面,作者通过深入的思考和精心的表达,使文章具有了一定的创意和启发性。因此,本文在发展等级方面也可以给予较高的评价。", "等级": "一等", "得分": "20分"}, "扣分项和残篇评定": {"解析": "文章在字数、标题、错别字、标点符号等方面都没有明显的问题,因此不需要扣分。同时,文章也不是残篇,结构完整,论述充分。", "扣分": "0分"}}, "缺点和改进意见": {"缺点": "虽然文章整体表现优秀,但在一些细节方面还可以进一步完善。例如,部分论据的阐述可以更加具体和生动,以增加读者的阅读兴趣和理解深度;另外,个别句子的表达可以更加精炼和准确,以提高文章的整体质量。", "改进意见": "作者可以在今后的写作中注重论据的具体性和生动性,通过描绘更多的细节和场景来增强文章的说服力和感染力;同时,也可以加强对句子表达的锤炼和打磨,力求用更精炼、更准确的语言来表达自己的思想和观点。"}, "最终得分": "60分"}\n\n**模型的输出是**:\n根据您的要求,我将按照评分标准对这篇高考作文进行批改并给出最终评分。\n\n一、内容(20分)\n\n优点:\n1. 文章立意明确,主题聚焦于技术与时间的关系,探讨如何成为时间的主人,而不是时间的仆人。\n2. 文章中心突出,紧紧围绕题目展开联想和思考,内容丰富充实。\n3. 引用古诗词和历史人物的事例增加文章的文化底蕴和说服力。\n\n缺点:\n部分内容表述略显笼统,如技术带来的时间管理便利与困扰