不做“AI浮萍”,要做数据根基:大学生用代码回答,什么才是智能时代的地基
发稿时间:2026-01-21 11:04:00 来源: 中国青年网
中国青年网北京1月21日电 (记者 牟昊琨 实习生 刘屹馨)当整个行业的目光都聚焦在千亿参数大模型如何“吞”下更多算力时,一群年轻人却在另一个战场上默默挖着“地基”。他们没有追逐训练更大模型的热潮,而是选择扎进数百万行工业级数据库内核代码,在内存管理、查询优化、并发控制这些“沉默”的环节里寻找突破。
在刚刚落幕的全国大学生计算机系统能力大赛暨第五届 OceanBase数据库大赛上,一群年轻人用成绩证明:AI时代的竞争,不仅在算力、在模型,更在数据根基。当王若凝带领的“编程高手”队捧起特等奖(冠军)奖杯时,这位北京邮电大学研三学生的感慨道出了许多人的心声:“数据库的优化,正是AI时代最重要的底层技术设施,掌握了它才能让应用层遍地开花。”
全国大学生计算机系统能力大赛暨第五届OceanBase数据库大赛,是由全国高等学校计算机教育研究会主办、OceanBase承办的国家级学科竞赛,于2023年正式纳入教育部认可的全国大学生A类竞赛(即最高级别学科赛事),被业内称为中国高校数据库领域的“国赛”。自2021年创办以来,大赛已连续举办五届,累计吸引上万名高校学子参与,形成了一条从“会用数据库”到“能造数据库”的完整人才链路。赛事以真实工业级数据库工程问题为牵引,推动高校教学与产业前沿深度融合。
破除迷思:数据库是AI的第一道防线
“大家都在关注大模型怎么跑得更快、更聪明,但真正决定上限的,是底层数据库能不能高效支撑这些应用。”王若凝回忆,团队数次想放弃时,正是这个认知让他们坚持了下来。“编程高手”队由3名北邮计算机系研究生组成,工程能力扎实。但面对OceanBase决赛阶段数百万行的企业级代码,即便这些“代码老手”也一度崩溃。
“感觉代码像葫芦娃一样,一层套一层,根本不知道从哪里下手。”王若凝坦言,团队曾萌生退意,想着“初赛第一也够了”。转折点来自一次“莽撞”的尝试——在一个边缘模块做了微小改动,结果不仅成功编译运行,性能指标还略有提升。“那一刻我们意识到:代码没崩,排名就上来了。”这句话后来成为团队口号。
这种底气在东北大学研二学生蔡钦成看来,恰恰是破解“玄学”的关键。明明理论上推导出代码更优,实际运行却更慢——这种现象被许多开发者戏称为“数据库优化玄学”。但蔡钦成团队用硬核方法回应:先分析,再动手。
“我们通过火焰图定位热点函数,用统计工具识别真实瓶颈,分析完之后再去做优化。”蔡钦成负责的“我被困在了DB乡”队位列大赛第四名,团队三人知识结构高度互补:蔡钦成本科打ICPC国际大学生程序设计竞赛出身,专攻内核优化;队友李浩然深耕机器学习系统,负责AI赛题;魏思源专注数据库方向,提供底层支持。这种“把沙子炼成水泥”的底层能力,让他们在不确定性中找到了确定性。
“大模型训练与推理高度依赖高效数据存取,没有高性能数据库,AI就是无源之水。”北京交通大学研一学生田京雷说。这支“Database战地风云”队成员们的平均研龄不足半年,却在决赛后半程位列全国第三。“我们最初的优化思路偏离了查询执行核心路径,后来才‘顿悟’——必须真正理解底层运行逻辑才能动手。”田京雷说。
这些青年开发者的共同洞察是:AI不是孤立的技术革命,而是一场系统性重构。当大模型需要处理海量非结构化数据的快速检索、需要支持高并发下的实时响应时,数据库不再是后台沉默的“仓库”,而是跃升为AI推理链路的第一道闸门、第一重防线。
能力重构:从“会用工具”到“能做系统”
在AI应用开发门槛被不断降低的今天,只需调用几个应用程序编程接口就能实现看似炫酷的功能。但专家认为,比赛揭示了一个“残酷的真相”:行业里AI应用层人才较为丰富,但真正理解系统底层、能参与基础软件构建的开发者依然稀缺。
华东师范大学非全日制研究生杨丁力的故事,恰是这种能力价值的体现。“我本科一般,考研调剂成‘非全’,简历很难进大厂。”这位“抽空就干”队的队长白天工作、周末上课,只能晚上备赛。他靠在网上开源社区发“招募帖”攒起一支“散装战队”:队友周屿涵来自电子科技大学成都学院,专升本背景却懂AI编译器;西安电子科技大学的吴晋华基础知识扎实,成为主力开发成员。
“我不看学历,只看有没有工程经验,愿不愿意投入时间。”这是杨丁力的筛选标准。在这支队伍里,每人提交代码必须经过其他成员审阅、讨论、理解后再合并,确保“认知同步”。杨丁力坦言,参赛最看重的是“实习绿通”资格——“我甚至专门问了官方,‘非全’能行吗?得到肯定答复才报名。”如今的一等奖(亚军)名词,也证明他用努力抓住了机会。
相比之下,西安电子科技大学研二学生邹细清的参赛经历更显孤勇。原定两人组队的队友因项目冲突“放鸽子”,他被迫单枪匹马应战。幸运的是,本科时对数据库和操作系统的浓厚兴趣,让他自学了相关理论并做了数月准备。初赛面对4万行代码的“小数据库”,他10天拿到满分。但决赛冲击千万行代码时,“就像走到了一个迷宫”。
“大概经过了一个多星期、将近10天的阅读和钻研,我们终于将整个框架理清楚。”邹细清最终拿下第9名,但后期被其他团队超越的经历让他整晚睡不着。这让他深刻认识到:基础软件不能仅靠个人天赋,必须依靠团队协作。“不管上层应用如何发展,最终还是要通过数据库来查询数据。在AI时代海量非结构化数据场景下,国产数据库有机会反超。”他说。
回望这段征程,杨丁力也有了自己的感悟:工程能力无法速成,只有沉入代码深处。对未来的参赛者,杨丁力也有自己独到的心得:“进入决赛,靠的是2到3个月的持续努力;但要在决赛拿名次,除了适应超大规模代码的能力,还得有点运气——因为没人会手把手带你读几百万行工业级系统代码。但只要你肯下笨功夫,奇迹也可能属于‘散装’的普通人。”
向下扎根:在热点喧嚣中做“时间的朋友”
“比赛周期很长,一定要分配好精力打持久战。”田京雷的感悟道出了基础软件领域的共性:寂寞是通往繁华的必经之路。
“编程高手”队的夺冠之路并非一帆风顺。复赛阶段他们意识到“想比写重要”,开始每周六日集中开会,明确分工、统一思路。“那段时间讨论清楚再动手,效率显著提升。”王若凝说。团队甚至尝试过针对赛题设计的非常规优化手段,虽因过于取巧被主办方劝阻,但这种探索精神,正是青年开发者宝贵的特质。
这种勇气背后,是蔡钦成团队无数个通宵达旦的付出。百万行工业级代码,性能瓶颈往往藏在不起眼的角落。“有时候你优化的部分只占整体运行时间的1%,再快也无济于事。”这种挫败感没有让他们转向“更热闹”的AI论文赛道,反而坚定了“把沙子炼成水泥”的决心——“AI研究者像用积木搭城堡,数据库底层工作则是把沙子炼成水泥。底座必须牢靠。”蔡钦成说。
杨丁力的“散装队伍”更是将“笨功夫”发挥到极致。两个月训练营期间,团队形成作业习惯——从一道题入手,逐步拆解庞大内核代码。“这不像写业务逻辑,而是要理解一个‘大公司’全部的运转机制。从最底层疏通到最高层,才能优化流程。”这种“沉入代码深处”的修炼,让他的职业突围之路有了坚实支撑。
这些大学生的故事,恰恰显示了比赛通过“MiniOB→seekdb”的进阶训练,将真实产业级难题转化为可训练、可验证的工程任务,让青年开发者完成从“会用数据库”到“重写数据库”的跨越。“我们正在经历从应用创新向底层系统创新的转移。大模型热让更多人意识到,没有自主可控的数据底座,AI大厦建在沙滩上。这些愿意啃硬骨头的年轻人,一定程度上体现了中国软件工业的底气。”北京科技大学计算机与通信工程学院院长殷绪成说。
OceanBase CTO杨传辉也在决赛现场强调:“人工智能像‘海啸’一样铺天盖地,但海啸过后,如果没有很好的数据管理、数据治理,那就是一片狼藉,需要更多做底层系统的人去支持它。数据库是AI时代的‘慢变量',却是决定性的变量。我们设计赛题时故意保留工业级复杂性,就是要筛选出能适应真实约束的工程人才。”
通过大赛,许多选手明确了职业方向。王若凝决定毕业后投身数据库领域,杨丁力靠大赛实现简历逆袭,田京雷在研一就找准职业方向……这些青年的选择共同指向一个答案:在不确定的技术浪潮中,最确定的是向下夯实底座的能力。
这群年轻人或许不会站在聚光灯下,但正是他们一行行严谨的代码,为智能世界筑牢根基,让大家有仰望更远星空的想象力。“我想做难而正确的事,在时间复利中等待基础软件的春天。”王若凝说。