基于图像-文本大模型CLIP微调的零样本参考图像分割

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：近年来，以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力，然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难，其根本原因在于CLIP关注图像-文本整体上的对齐情况，却丢弃了图像中像素点的空间位置信息。鉴于此，以CLIP为基础模型，提出了一种单阶段、细粒度、多层次的零样本参考图像分割模型PixelCLIP。（剩余17370字）

试读结束

购买全文6.00元下一篇联合边缘特征的物流驾驶员危险行为识别

计算机应用研究

2025年04期

¥12.00/本

关于龙源 关于我们联系我们龙源大事记诚聘英才用户守则 购刊指南 电子刊购买流程会员介绍常见问题 客服中心 联系客服开具发票 商务合作 商务合作 网络信息举报
违法和不良信息举报电话：400-106-1235

举报邮箱：longyuandom@163.com
网上有害信息举报专区 支付方式 支付宝在线支付公司转账邮局汇款 特色服务 刊社入口友情链接

关注微信公众号
获取更多资讯
北京龙源网通电子商务有限公司
（署）网出证（京）字第188号丨京公网安备 11011302003690号丨京ICP备18053758号-2