未来研究中,深入探索文本与视觉token之间的关联,可能为提升多模态大模型的理解和分割能力带来新的启发。 总体而言,LIRA实现了理解与分割任务性能的协同提升,提出了在细粒度多模态大模型中缓解幻觉的新视角,…...