MJJ出征
9.31K subscribers
6.67K photos
3.9K videos
37 files
7.9K links
Download Telegram
🤯11🙏4🍾3👀3😱1
还没到初八🤷‍♀
😁14💅9👻3🤮1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
真 分遗产了
🙏4😈2😐1🤪1
在训练强化学习(RL)时,R1 并没有显式地对思维链的每一步进行奖励和惩罚,而是创造了一种名为 GRPO (Group Relative Policy Optimization) 的强化学习算法,给逻辑连贯、思维链格式的正确结果给予奖励,从而隐式鼓励模型 self-play 形成思维链。

监督学习(SFT) - 强化学习(RL) - 监督学习(SFT) - 强化学习(RL)

后续进行复盘,机器再学习标记正确并在汇总思考

其实还有一项很重要是如何绕开CUDA再从底层进行更为高效的深度开发

https://mazzzystar.com/2025/01/30/chatgpt-to-deepseek-r1-zh/
👍9🤔2🤡2🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
多喝热水🤓
💅19😁3😈2🤮1😇1
Forwarded from 厘米碎碎念
🍾30👏4🎉3👀3💊3
奇奇怪怪的频道
原先那个被杜叔叔Ban了
https://t.me/TGMOV2
👎23💯4🔥1🌚1😈1