Stability AI 发布 RLHF 训练的开源聊天机器人 StableVicuna

Stability AI 发布 RLHF 训练的开源聊天机器人 StableVicuna
2023-4-29 12:45:1 Author: www.solidot.org(查看原文) 阅读量:21 收藏

ChatGPT 等 AI 聊天机器人的成功受益于两种训练范式：指令微调和基于人类反馈的增强学习(RLHF)。目前缺乏同时应用这两种范式的开源模型，大部分模型因 RLHF 的复杂性而只应用了指令微调。AI 创业公司 Stability AI 宣布发布第一种应用 RLHF 训练的大型开源聊天机器人 StableVicuna，基于 Vicuna v0 13b，而 Vicuna v0 13b 则是基于 Meta 的大语言模型 LLaMA 13b（130 亿参数）。LLaMA 模型目前不支持商业使用。

https://huggingface.co/spaces/CarperAI/StableVicuna
https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

文章来源: https://www.solidot.org/story?sid=74828
如有侵权请联系:admin#unsafe.sh