长上下文多模态大模型.pdf-三个皮匠报告

1、T To ow wa ar rd ds s L Lo on ng g-c co on nt te ex xt t MMu ul lt ti i-mmo od da al l L LL LMMs s2 20 02 24 4年年6 6月月1 16 6日日B Be en ny yo ou u WWa an ng g1YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Preliminary work on multi-modal LLMs2YSSNLP2024YSSNLP2

2、024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20243ALLaVA-4V 百万级别高质量数据Guiming Hardy Chen,Shunian Chen,Ruifei Zhang,Junying Chen,Xiangbo Wu,Zhiyi Zhang,Zhihong Chen,Jianquan Li,Xiang Wan,Benyou Wang.ALLaVA:Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model.https

3、:/arxiv.org/abs/2402.11684YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20244It largely improve performance by replacing original data with ours.YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20245YSSNLP2024YSSNLP2024YSSN

4、LP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20246VLFeedback,Preference Data for Vision-Language ModelsLei Li,Zhihui Xie,Mukai Li,Shunian Chen,Peiyi Wang,Liang Chen,Yazheng Yang,Benyou Wang,Lingpeng Kong,Qi Liu.Silkie:Preference distillation for large visual language models.https:/a

5、rxiv.org/abs/2312.10665YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20247Experiments on Qwen-VL(with DPO using VLFeedback)YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Multimodal Medial LLMs8YSSNLP2024YSSNLP2024YSSN

6、LP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Multi-modal MLLM:Injecting Multimodal Medical knowledge9YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP202410YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP

长上下文多模态大模型.pdf

相关报告