声明:本文来自于微信公众号头号AI玩家(ID:AIGCplayer),整理| 卷毛编辑| 张洁,授权站长之家转载发布。2024年,品牌们势必会在直播内容上做更多尝试。
划重点:HandRefiner的工作原理包括手部识别与重建以及条件修补两个过程。首先,它识别出生成图像中形状不正常的手部,并使用手部网格重建模型重建出一个正确的手部形状和手势。即使在畸形的手部图像中,HandRefiner也能够生成合理的重建结果,这得益于模型基于正常手部的训练数据。
LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。