中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
机构
采集方式
_filter
_filter
_filter
筛选

浏览/检索结果: 共3条,第1-3条 帮助

条数/页: 排序方式:
RoVRM: A Robust Visual Reward Model Optimized via Auxiliary Textual Preference Data 期刊论文  OAI收割
arXiv, 2024, 页码: 14
作者:  
Chenglong Wang;  Yang Gan;  Yifu Huo;  Yongyu Mu;  Murun Yang
  |  收藏  |  浏览/下载:12/0  |  提交时间:2024/09/23
LRHP: Learning Representations for Human Preferences via Preference Pairs 期刊论文  OAI收割
arXiv, 2024
作者:  
Chenglong Wang;  Yang Gan;  Yifu Huo;  Yongyu Mu;  Qiaozhi He
  |  收藏  |  浏览/下载:10/0  |  提交时间:2024/12/03
ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation 期刊论文  OAI收割
arXiv, 2023, 期号: 4
作者:  
Chenglong Wang;  Hang Zhou;  Yimin Hu;  Yifu Huo;  Bei Li
  |  收藏  |  浏览/下载:25/0  |  提交时间:2023/09/13