Replies: 3 comments 1 reply
-
更进一步思考,是不是可以改进现在的整体训练方案。具体说就是:
|
Beta Was this translation helpful? Give feedback.
-
目前state更像工作记忆 你可以看看目前的 rwkv state tuning |
Beta Was this translation helpful? Give feedback.
-
非常感谢 这篇论文也提供了两个思路:1. 使用RAG来辅助增强记忆 2. 使用一层transform attention来增加记忆。 |
Beta Was this translation helpful? Give feedback.
-
本周看到RWKV模型,十分惊艳。非常认同RWKV的设计思路。同时有了一个想法不知道是否可行?“有没有可能将RWKV发展为“智能”和“知识”分离(相对与现在模式数据既用作推理也存储信息而言)的模型?” 具体说就是把目前的RWKV的“模型”看做是AI的“智能",主要表示学习到的方法。把state看成是AI的”知识“主要表示学习到的信息。在使用的过程中”智能“部分是不会修改的,但是知识可以留存。这样我们就可以得到一个“存算一体”的模型。
如果可以做到这一点,那么所谓的“微调”就可以是简单的使用而已。而且也可以做到每个人都可以拥有独一无二的RWKV模型。因为用户的使用就是模型学习到的知识的一部分。
Beta Was this translation helpful? Give feedback.
All reactions