第634章给学术圈一点小小的北邮震撼_带着手机重生，目标科技教父

关灯

护眼

字:

大

中

小

看着眼熟啊，这不就是咱们前段时间折腾的那个五百万张图片、五千个类别的超大数据集的子集吗？”

    钟柏手指在键盘上无意识地敲了两下，忽然嘿嘿一笑。

    “手痒了。”

    “既然是子集，要不咱们直接用前两天刚跑完的那个五千分类的通用预训练模型，来预测一下这数据集？”

    “看看现成的模型，在这五万张验证集上效果咋样。”

    楚一航一听，直接竖起了大拇指。

    “你小子真是个机灵鬼，其实我刚才也正有此意。”

    “现成的大模型不用白不用，说干就干！”

    郭长征也点头同意了这个提议。

    “跑一次看看，正好摸摸这个比赛数据集的特征分布底细。”

    这里需要给非专业人士解释一下。

    为什么用训练了五千个类别的通用模型，可以直接去预测只有一千个类别的子数据集？

    因为在深度学习中，用海量数据喂出来的模型“见多识广”。

    它在底层网络中已经学会了提取通用的图像特征，比如轮廓、纹理、色彩组合。

    这种通用的特征提取能力，完全可以直接套用到子集数据的分类任务上。

    但直接这么做，预测精度必然会存在误差，成绩会差一些。

    原因很简单，模型最终输出的是五千个选项的概率。

    在面对这五万张只有一千种标准答案的验证图片时，通用模型依然会按照五千个类别的范围去预测。

    一旦它把图片分类成了比赛规定的一千个类别之外的选项，按照赛制就会被判定为错误。

    它还需要时间去针对这一千个特定的类别重新训练，才能做到精准得分。

    楚一航没管那么多，直接在终端里输入调用TenSOrFlOW框架的命令。

    回车键敲下。

    隔壁机房的散热风扇转速瞬间飙升，噪音穿透了玻璃门。

    屏幕上开始滚动运行日志。

    钟柏盯着显存占用率的监控面板。

    “集群的显存占用直接拉满了。”

    “九章平台对AMD显卡的调度策略真够暴力的。”

    叶言看着进度条。

    “处理五万张图片，传统算法少说得跑个两三天。”

    “我看这进度，估计一顿饭的功夫就能出结果。”

    （本章未完，请点击下一页继续阅读）

回目录

存书签

第634章 给学术圈一点小小的北邮震撼

第634章给学术圈一点小小的北邮震撼