We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
您的论文中最重要的模块之一就是Similarity-Based Modality Alignment,实际上就是融合两个模态特征和learnable token,我想问一下在这里learnable token究竟是起到怎样一个作用呢?我最初是觉得可能就是模仿CoOp流程,思想上使用一个learnable token达到一个特征增强的效果,但是后来我发现您的这个learnable token跟CoOp中的也不太一样。除了是多模态的以外,CoOp中学习learnable token的时候,模型的其它部分(所有的encoder)都是冻住的,但是您这里的方法却是一同学习它们。而且CoOp中实际上是把learnable token当作了文本,放进text encoder进行特征提取,但您这里似乎认为learnable token自成一个模态,并且也不再使用encoder提取特征,而是直接把其当作一个特征层面的东西进行学习。您能大致解释一下您这样做的思路吗?或者说这么作是出于什么目的?
The text was updated successfully, but these errors were encountered:
No branches or pull requests
您的论文中最重要的模块之一就是Similarity-Based Modality Alignment,实际上就是融合两个模态特征和learnable token,我想问一下在这里learnable token究竟是起到怎样一个作用呢?我最初是觉得可能就是模仿CoOp流程,思想上使用一个learnable token达到一个特征增强的效果,但是后来我发现您的这个learnable token跟CoOp中的也不太一样。除了是多模态的以外,CoOp中学习learnable token的时候,模型的其它部分(所有的encoder)都是冻住的,但是您这里的方法却是一同学习它们。而且CoOp中实际上是把learnable token当作了文本,放进text encoder进行特征提取,但您这里似乎认为learnable token自成一个模态,并且也不再使用encoder提取特征,而是直接把其当作一个特征层面的东西进行学习。您能大致解释一下您这样做的思路吗?或者说这么作是出于什么目的?
The text was updated successfully, but these errors were encountered: