图为高考机器人参加模拟考试。
杨林
新闻背景
2017年全国高考拉开帷幕。不过,今年的高考中会出现一位特殊“考生”——研发于成都的人工智能系统“准星数学高考机器人”,它将挑战2017年高考数学科目。
这是国内首次由机器人应试高考题,它能考多少分呢?会比学霸厉害吗?
挑战2017高考数学卷
人工智能参考全国卷和北京卷
与多数人对机器人的印象不同,“准星数学高考机器人”的“身体”并非模仿人类的样子,而是10余台服务器,其“大脑”就是服务器上承载的人工智能系统。“考场”设在成都天府新谷10号楼的一个会议室里,届时入场答题的实际上就是这些服务器。像考生会被切断与外界的联系一样,这些服务器也会被切断网络连接。由公证机构和媒体出任“监考老师”。这场特殊的“高考”只设置数学科目,将在7日下午5时之后,也就是高考数学结束之后进行,不会影响正常高考的进行。
“准星数学高考机器人”将挑战哪套试卷?成都准星云学科技有限公司CEO、清华大学苏州研究院大数据中心主任林辉表示,高考数学结束后,公司将立即从相关部门、网络等多渠道争取试卷,“目前拟争取全国卷、北京卷等几套,但是最终能拿到哪几套,具体几点钟拿到还不确定。如果拿到多套试卷,高考机器人将在2小时内同时作答多套试卷。”挑战当天,高考机器人将在2小时内同时作答多份高考试题,之后由教师批改答卷。
据了解,这套人工智能系统是国家科技部863计划(又称“超脑计划”)牵头研制的机器人,依托清华大学大数据、人工智能、自然语言识别等前沿技术,已研究4年多。林辉介绍,本次挑战是对研发成效的一次阶段性检验,挑战结果将运用到该公司对人工智能系统的进一步优化。
运算量可达2的800次方
曾败给某中学文科生
去年5月,研发团队宣布机器人将参加2017年高考,并预计在2017年数学科目的高考中达到重点本科的录取水平。当时,高考机器人在模拟考中取得过115分的成绩。
而今年的一次模拟考试,高考机器人的表现却差强人意。2月23日,成都石室天府中学曾上演一场“人机大战”,高考机器人首次对战真人——43名高三文科班学生,最终以93分败给了学生们106分的平均分,相对于150分的满分,93分刚过及格线。好在这一成绩超过2016年四川高考文科数学的平均分,通过了中期评测。
3个月来,高考机器人水平有所上升吗?科研人员介绍,去年的评测,机器人也曾达到过110分以上,但并不稳定,且要看试卷的匹配度。高考机器人没有题库,它是通过综合逻辑推理平台来解题,而非学习储存题库。一年多来,机器人在复杂逻辑推理、直觉观察推理、计算机算法、深度学习上都进行了深入攻关。目前,高考机器人已经练习了1.2万道题。为训练答题速度,团队加大了题量,目前高考机器人已有500套试题的积累。不得不承认,人工智能在运算、推理、存贮等方面都具备超强的能力,高考机器人可以学习小学到高中的7000多个考点,运算量可达2的800次方。但目前仍有一些缺陷需要不断改进,比如,欠缺对常识的理解能力,读不懂题目就只能猜。
此外,为提高高考机器人的分数,科研人员还对系统的答题程序设置进行了一些修改,让它在不能给出完整答案的情况下,也给出部分答案,争取“步骤分”。高考机器人在考试中遇到会答的考题,它将会以大概20分钟一套的速度作答,如果有它不会的考题,它将先跳过这些题目,把会答的都答完,再返回来争取突破剩下的难题,直到解出答案或者考试时间结束。
解题容易理解难
机器人当学霸挺难的
其实,高考机器人并不“罕见”,几年前日本人工智能Torobo-kun,扬言要参加东京大学入学考试,完胜人类考生,结果从一开始就表现得不尽如人意,因为它没办法理解人类语言的复杂关系,这也成为了机器人参加考试必须克服的一大难题。
这同样是中国科研人员遇到的问题之一。毕竟,机器人在进行逻辑推理前,首先要进行读题,也就是自然语言理解,而自然语言理解是没有边界的。
今年2月的模拟考,高考机器人“失败”的原因主要在于应用题的解答:它不能理解题目中“投资”“理财”等社会常识。真正应用的时候,系统有时卡在一个点,或一个名词上。如把句号弄成一个“O”,它就晕了。机器人最难点在于理解,如果题目涉及数据,技术可以抓取,而文字描述是最难的。
科研人员表示,研发围棋机器人,用计算机语言描述围棋规则相对容易,难在要让系统在极短时间内算出每次落子后的几十步甚至几百步的不同局面。而研发高考机器人最大的难点在于,首先要让系统准确理解人类语言,后面做题的步骤反而不多。人类的语言千变万化,而且还在不断创新,几乎是学不完的。遇到没学过的生词,人类会联系上下文去推测词义,猜对是比较容易的事;而机器人却会卡壳。
到底机器人考试的成绩如何?和人类比还有多大差距?什么时候考生将能和机器人同台竞技?一切还是未知数。
相关链接
日本机器人放弃高考
日本研究人员2016年秋季宣布,放弃让人工智能系统Torobo-kun参加东京大学入学考试的计划。研究者解释道:“人工智能系统无法理解必要的信息,阅读和理解句子含义的能力存在局限。我们发现,现在还没有办法使这一系统获得足够的分数,使它通过东京大学的入学考试。”
近年来人工智能发展迅速,接连战胜了多位围棋世界冠军,展现出惊人的能力,但在人类语言的阅读理解能力上,人工智能的表现一直很不尽如人意。Torobo-kun在每个科目的阅读理解测试中就表现得十分糟糕。例如,当它尝试回答一个世界历史问题:“谁是曹丕的父亲?谁成为了中国三国时代魏国的第一位皇帝?”时, Torobo-kun无法给出正确的答案。尽管Torobo-kun已经知道曹丕是曹操的儿子,但它无法想到曹操就是曹丕的父亲,因为它不理解父子关系。
有一个研究团队接受了开发Torobo-kun英语语言能力的任务,他们第一次引入了所谓的“深度学习”方法,尝试让人工智能在涉及5到10个句子的阅读能力测试中给出更多的正确答案。深度学习是一种创新技术,通过将大量的图片和文本数据反复读取到人工智能系统中,深化其学习能力。然而,Torobo-kun还是无法取得更高的分数,可能是因为数据不足。研究者因此放弃了深度学习方法。对一个想要通过深度学习提高答题成功率的人工智能系统来说,首先必须读取大量的数据。参与该项目的首席科学家说:“通过东京大学的入学考试,最低要求是学习100万套问题陈述和正确答案。准备这些数据就将耗费巨大,根本是不现实的。”
许多研究者依然对人工智能的开发保持乐观。日本一家科研团队一直在开发一个能够写小说的人工智能系统,并希望借此赢得一个文学奖项。该项目还有另一个目标:通过学习已逝科幻小说家小松左京的文风和用词,完成后者未写完的小说。