第7章这究竟会训练出个什么玩意儿？_科技无垠(2 / 2)

“也不是什么机密，稍微消息灵通点儿的人一打听都知道。”

潘正无奈道：“不是硬件的问题，寒武纪的问题影响暂时确实没有那么大，是‘言心’基础模型的问题。”

程旭更加不解了，基础模型能有什么问题？

都训练那么长时间了，数十上百亿的资金都投入进去了，基础模型有问题都没发现吗？

“这算是早期的一个小失误，”潘正解释道：“原本不是什么大问题，但现在确实不好解决了。”

程旭没有吭声，等着潘正的下文，他是越听越糊涂了。

“早期训练的时候，训练人员也没想那么多，那个时候也没有什么严苛的标准，就使用了自己的产品做语料……”

“自家的产品？”程旭眼睛猛地一跳，瞬间就想起来发生了什么事儿了——千寻自家的产品，除了搜索引擎，也就文库和贴吧了！

而对话，贴吧，这……

程旭瞬间醍醐灌顶——脑海中冒出了一大堆的名词：大帝吧，航空吧，人口吧，孙吧，中西部发展吧……

这……

用这些语料做得模型早期训练？

这T-M-D究竟会训练出来个什么玩意儿？

“卧槽！”实在是没忍住，程旭爆了个粗口：“不会训练出‘阴阳人’加‘乐子人’的‘言心’模型吧？拿他岂不是只会阴阳怪气儿，指桑骂槐？”

程旭摇了摇头，只是这样还是好的，真要培养出来一个类似“50w人格”的价值观出来，那千寻真的是哭都没地儿哭去！

“不不不不，没那么严重！”

潘正教授急忙摆手，制止程旭的思维再发散下去，再发散下去要完蛋了。

“真要那么严重的话，早就被发现了，也不会拖到现在。事实上，那只是在极早期的时候发生的事情。

“后续有了标准的训练流程，语料的选择和清洗也有了明确的选择和标准，模型的成长也非常顺利。

“事实上，言心模型也非常强大，毕竟，这也是数十上百亿资金堆起来的。但是，就是偶尔，对于某些问题，‘言心’偶尔就会冒出一些极为离谱的回答。

“就是因为问题是偶发的，技术人员以为是培养的问题，负责人中途也更换过，所以也就没有往早期训练语料方面去考虑。只是选择了选择纠正训练。纠正的效果其实还是不错的，所以就延续下来了。

“但是，事实证明，根儿坏了，是怎么也无法完全纠正回来的，无论迭代多少次，总是有概率出现哪些极为离谱的回答。”

程旭简直无语，早期的模型就是根基啊，咋能出这样愚蠢的失误呢？

其实也不能完全说是技术人员的问题——早期大家都没有经验，都是在摸着石头过河，出现这样那样的问题都是无法完全避免的。

语料清洗，今天已经是一个标准概念了，专业教材都有讲，还没有毕业的大学生都能明白他的重要意义。

但放在十年前，十年前人工智能刚起步，那个时候，谁能知道语料清洗的重要性？

这都是无数人交了巨额的学费，付出了几乎难以承受的代价，才慢慢得出的宝贵经验。

本站域名已经更换为m.adouyinxs.com 。请牢记。