厦门大学多媒体实在感知与高效筹备栽培部要点实验室NeurIPS 2024接纳了14篇论文李月 反差,涵盖多模态大模子、三维视觉、行东谈主重识别、多智能体强化学习、联邦保举、模子报复、提醒学习等多个连络主义。
Thirty-Eighth Annual Conference on Neural Information Processing Systems(NeurIPS 2024)将于2024年12月9日至15日在加拿大温哥华举行。NeurIPS是东谈主工智能与机器学习领域的三大海外会议(NeurIPS、ICML、ICLR)之一,CCF A类会议。本年NeurIPS投稿量再翻新高,共有15671篇有用投稿,接纳率25.8%。代码数据不时开源中。
被请托论文的简要先容如下:
1. Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text
本文提倡了一个鲁棒的通达天下文本到3D生成框架Director3D,旨在生成实在天下的3D场景和自稳健的相机轨迹。Director3D不错像导演相似领导3D场景的生成:(1)使用一个轨迹扩散变换器手脚照相师,把柄文本形容来建模相机轨迹的散播;(2)一个由高斯运转的多视图潜变量扩散模子手脚场景吩咐师,把柄相机轨迹和文正本建模图像序列散播。这个模子是从一个2D扩散模子微调而来,不错径直生成与像素对皆的3D高斯,手脚径直的3D场景发扬姿首,用于三维一致的去噪;(3)这些3D高斯通过一种新颖的会通了2D扩散模子先验学问的SDS++亏本,手脚场景细化师进一步细化得到实在的3D场景。多量的实验标明Director3D在实在天下的3D场景生成中越过之前的首先进有筹备,达到了SOTA的效果。关系代码一经开源。
该论文第一作家是信息学院2023级博士生李新阳,通信作家是曹刘娟训诫,由2023级硕士生赖章宇、徐霖宁博士(香港华文大学)、2023级博士生曲延松、张声传助理训诫、戴勃连络科学家(上海东谈主工智能实验室和纪荣嵘训诫共同相助完成。
2. RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation
3D指向性分割(3D-RES)旨在把柄当然谈话形容在三维空间均分割特定实例。可是,由于对实例空间信息的建模不及,传统才智平常会碰到过分割或诞妄分割等问题。本文基于仅应用主义空间信息的弱监督战略,提倡了轨则开采的空间感知收集(RG-SAN)。这种才智使模子不祥准确地学习文本中所有实体之间的空间关系,从而增强空间推理才智。RG-SAN由文本运转的土产货化模块(TLM)和轨则开采的弱监督(RWS)战略构成。TLM最初定位所有文本说起的实例,并迭代细化其位置信息。RWS战略凭借仅有的主义位置监督信息,使用依存树轨则来精准领导中枢实例的定位。对ScanRefer基准的平凡测试标明,RG-SAN不仅成立了新的性能基准,而况在处理空间笼统性形容时,鲁棒性彰着普及。
该论文的共同第一作家是东谈主工智能连络院2024级博士吴昌鲡与信息学院东谈主工智能系2023级硕士陈琦,通信作家是纪荣嵘训诫,由博士后连络员纪家沂、孙晓帅训诫等共同相助完成。
3. ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models
本文提倡了一种无锤真金不怕火的才智,通过可学习的潜变量优化,将视觉提醒注入多模态大型谈话模子(MLLMs)。本文不雅察到,负责力机制手脚MLLMs的中枢模块,相连了文本提醒绚丽和视觉绚丽,从而最终决定生成终局。本文的连络才智在推理经过中休养来自多层感知机(MLP)输出的视觉绚丽,适度负责力反应,以确保文本提醒绚丽不祥关切到指代区域中的视觉绚丽。本文基于能量函数优化一个可学习的潜变量,增强负责力争中援用区域的强度。这一才智使得在无需多量锤真金不怕火本钱或模子重锤真金不怕火的情况下,不祥终了详备的区域形容和推理。本文的连络才智为将援用才智整合进多模态大型谈话模子提供了一个有远景的主义,并维持使用框、掩膜、涂鸦和点进行指代。终局标明,本文的才智展示了域外数据上的泛化才智和可解释性。
该论文第一作家是东谈主工智能连络院2023级博士生吴明瑞,通信作家是纪家沂博士后连络员,由孙晓帅训诫、纪荣嵘训诫等共同相助完成。
4. DiffusionFake: Enhancing Generalization in Deepfake Detection via Guided Stable Diffusion
本文针对东谈主工智能生成内容(AIGC)时间的快速发展,异常是Deepfake等换脸时间的平凡应用所带来的安全挑战,提倡了一种新颖的东谈主脸点窜检测才智。本文通过分析Deepfake图像的生成经过,发现了一个要津洞见:Deepfake图像试验上会通了源图像和主义图像的信息,而实在图像则保握一致的身份特征。基于这一洞见,论文提倡了DiffusionFake框架,这是一种即插即用的才智,即通过应用预锤真金不怕火的Stable Diffusion模子来领导检测器学习Deepfake中固有的源和主义特征。DiffusionFake通过回转生成经过来增强现存检测器的泛化才智,无需特等的推理参数即可显贵提高检测模子在未见数据集上的性能。实验终局标明,该才智在各样检测器架构上都获取了显贵的跨域泛化性能普及,为搪塞日益复杂的东谈主脸点窜时间提供了一种有用的措置有筹备。
本文第一作家是信息学院2021级博士生孙可,通信作家是刘宏(大阪大学),由陈燊(腾讯优图)、姚太平(腾讯优图)、丁守鸿(腾讯优图)、孙晓帅训诫,纪荣嵘训诫等共同相助完成。
5. I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing李月 反差
本文提倡了一个名为I2EBench的详细基准,用于自动评估基于指示的图像裁剪(IIE)模子生成的裁剪图像的质料。针对现在IIE模子评估中的显贵挑战,I2EBench从多个维度进行全面评估,旨在为其进一步发展提供有价值的意见。具体而言,I2EBench包含了2000多张待裁剪图像,以及4000多条对应的原始和各样化指示。本文的翻新点如下:第一,全面的评估维度:I2EBench包括16个评估维度,隐敝了高级次和低档次的各个方面,提供了对每个IIE模子的全面评估。第二,与东谈主类感知对皆:为了确保基准与东谈主类感知的一致性,本文针对每个评估维度进行了平凡的用户连络。第三,有价值的连络意见:通过分析现存IIE模子在16个维度上的优劣,本文提倡了领导改日连络发展的垂死意见。
本文共同第一作家是信息学院2023级博士生马祎炜和博士后连络员纪家沂,通信作家是孙晓帅训诫,由信息学院2024级硕士生叶柯、林玮煌、2022级本科生郑永涵、纪荣嵘训诫共同相助完成。
6. RLE: A Unified Perspective of Data Augmentation for Cross-Spectral Re-Identification
本文旨在对跨光谱重新识别任务中的模态各异进行建模。基于朗伯体模子,本文解释了非线性跨光谱模态各异主要来自于作用于不同材料名义的各异化线性变换因子。从这个角度来看,本文为所有面向跨光谱重识别的数据增强战略提供了一个妥洽的视角:即通过效法这种局部线性变换,来促进收集对这种变换鲁棒。把柄变换的强弱,本文将其分为祥和变换和激进变换,并针对性两种变换离别提倡了祥和马上线性增强(MRLE)和激进马上线性增强(RRLE),以破碎这两种变换类型的领域。祥和马上线性增强旨在提供称心原始局部线性关系性的祥和局部线性变换,而激进马上线性增强则寻求径直进行局部线性变换而不依赖外部信息。实验终局不仅讲授了所提倡的马上线性变换战略的优厚性和有用性,而况证据了其手脚跨光谱重新识别的通用数据增强的高大后劲。
该论文的第一作家是信息学院东谈主工智能系2020级博士生谭磊,通信作家是戴平阳高级工程师,由张岩工程师、吴永坚(腾讯优图)、纪荣嵘训诫等共同相助完成。
7. Mining and Transferring Feature-Geometry Coherence for Unsupervised Point Cloud Registration
该论文提倡了适用于室外大场景的无监督三维点云配准才智INTEGER。该才智基于在特征空间中内点匹配和外点匹配散播的不雅察,改善了户外环境中现存无监督配准时间濒临的伪标签质料问题,并针对室外场景中点云密度变化的挑战进行瞎想。在自动驾驶数据集KITTI和nuScenes上越过了现存无监督点云配准才智的性能,并展现出了强的泛化性能。
该论文第一作家是信息学院2024级硕士连络生熊恪峥,通信作家是温程璐训诫。由徐青山(南洋理工大学)、王程训诫等共同相助完成。
8. The Dormant Neuron Phenomenon in Multi-Agent Reinforcement Learning Value Factorization
大模子领域的Scaling Law在多智能体强化学习领域并不适用。该论文连络了多智能体强化学习价值明白算法中的就寝神经元风光,并标明这种风光对学习经过产生了负面影响,这一风光是导致Scaling Law不适用的原因之一。论文提倡的ReBorn算法将权重从过载神经元退换到就寝神经元,并提倡了多智能体学问不变性质,从表面上讲授这种才智不错确保在权重退换经过后不会健忘学习到的智能体学问。通过实考讲授,ReBorn不祥提高在各样环境下多种流行的价值明白才智的性能。
该论文第一作家是2023级硕士连络生秦豪远,第二作家是2022级硕士生马陈楠,通信作家是沈想淇副训诫。由刘新旺训诫(国防科技大学)、梅松竹副连络员(国防科技大学)、王程训诫等共同相助完成。
9. Federated Graph Learning for Cross-Domain Recommendation
该论文提倡了联邦图学习跨域保举算法FedGCDR,该模子不祥在多源域、单一主义域的跨域保举场景上保护用户心事,同期缓解了由心事时间、域异质性等导致的负迁徙问题,在亚马逊数据靠拢16个域的跨域保举任务上性能最初。
论文第一作家是2023级硕士连络生杨子棋,通信作家是范晓亮高级工程师。由戚建中(墨尔本大学)、陈超超(浙江大学)、潘微科(深圳大学)、温程璐训诫、王程训诫等共同相助完成。
10. Cross-Modality Perturbation Synergy Attack for Person Re-identification
连年来,针对基于RGB图像的单模态行东谈主重识别(ReID)系统的安全性问题,已有多量连络职责。可是,在试验应用中更为常见的触及红外录像头拍摄图像的跨模态场景的安全性却未得到充分关切。跨模态ReID的主要挑战在于有用处理不同模态之间的视觉各异。举例,红外图像平常为灰度图,而可见光图像则包含激情信息。现存的报复才智主要靠拢于可见光图像模态的特点,漠视了其他模态的特征以及不同模态之间的数据散播各异。这种漠视可能会任性这些才智在多模态图像检索中的有用性。本连络初次推敲了跨模态ReID模子的安全性,并提倡了一种专为跨模态ReID瞎想的通用扰动报复。该报复通过应用来自多模态数据的梯度优化扰动,从而破损判别器并强化模态之间的各异。在两个平凡使用的跨模态数据集RegDB和SYSU上进行的实验终局不仅讲授了本文才智的有用性,还为改日增强跨模态ReID系统的鲁棒性提供了新的意见。
该论文第一作家为2023级博士连络生龚云鹏,通信作家为江敏训诫。由钟准助理训诫(诺丁汉大学)、罗志明副训诫、2023级博士连络生曲延松、纪荣嵘训诫共同相助完成的。
11. Ask, Attend, Attack: An Effective Decision-Based Black-Box Targeted Attack for Image-to-Text Models
尽管图像到文本模子在各样视觉谈话任务中获取了显贵进展,但它们仍然容易受到起义性报复的影响。现存的白盒报复对图像到文本模子需要走访主义模子的架构、梯度和参数,这导致实用性较低。尽管最近提倡的灰盒报复提高了实用性,但它们在锤真金不怕火经过中遭受语义亏本,这截止了它们主义报复的性能。为了激动图像到文本模子的起义性报复,本文关切一个具有挑战性的场景:基于决策的黑盒主义报复,报复者惟有走访最终输出文本并旨在推行主义报复。具体来说,本文将基于决策的黑盒主义报复制定为一个大范畴优化问题。为了有用措置优化问题,提倡了一个三阶段经过——Ask,Attend,Attack,称为AAA,以求解该优化问题。Ask领导报复者创建称心特定语义的主义文本。Attend识别图像的要津区域以进行报复,从而减少了后续Attack的搜索空间。Attack使用进化算法报复要津区域,这些报复在语义上与Ask的主义文本关系,从而在莫得语义亏本的情况下终了主义报复。在基于Transformer和CNN+RNN的图像到文本模子上的实验终局证据了本文提倡的AAA的有用性。
该论文第一作家是2022级硕士连络生曾清源,通信作家是江敏训诫。该连络遵循是与王贞众博士连络生(香港理工大学)、张晓明训诫(香港浸会大学)共同相助完成的。
12. UniDSeg: Unified Cross-Domain 3D Semantic Segmentation via Visual Foundation Models Prior
该论文探索了怎样应用视觉基础模子(VFM)的先验学问来增强跨域3D语义分割。刻下才智大多局限于连络单一的域泛化或域自稳健战略,以措置域偏移问题。可是,这在构建缓解域偏移的通用模子方面留住了空缺。因此,本文深入连络基于VFM编码器的参数高效提醒微调才智,并引入一种可学习的参数启发机制,该机制不仅幸免了对原始视觉空间进行不消要的操作,而况最大限定地保留了VFM对主义域数据感知的先验学问,进一步增强其泛化才智。通过在VFM编码器均分层镶嵌两个轻量级模块:模态过渡性提醒(MTP)和可学习空间性休养(LST),以充分学习不同档次和模态的语义会通。MTP依赖于疏淡深度的过渡性开采,在输入到编码层之前存在于提醒空间中。LST依赖于向量的自界说高下文长度,存在于查询空间中,用于在编码层之后寻找匹配的提醒。终末,将改良的VFM编码器集成到一个跨模态学习框架中,使2D和3D模子不祥学习域不变默示,从而有用缓解多模态域偏移问题。该才智在Day/Night、USA/Singapore、vKITTI/sKITTI和A2D2/sKITTI等多个场景,和DG、DA、SFDA等多个跨域学习任务中均显贵优于刻下首先进的才智。
该论文的第一作家是厦门大学信息学院筹备机科学与时间系2021级博士生吴垚,通信作家是其导师曲延云训诫和博士后张亚超(清华大学深圳连络院),由2022级硕士生邢明炜,2020级博士生罗小同,谢源训诫(华东师范大学)共同相助完成。
13. Learning Commonality, Divergence and Variety for Unsupervised Visible-Infrared Person Re-identification
无监督可见光-红生手东谈主重识别(USVI-ReID)是一项极具挑战的检索任务,其主义是在莫得任何标注的情况下匹配可见光和红外模态下的行东谈主图像。最近,聚类伪标签才智已成为 USVI-ReID 的主要才智,但是不能靠的伪标签严重影响识别精度。为了措置这一问题,本文提倡了一种基于难原型和动态原型的渐进对比学习才智(PCLHD)。具体而言,本文开首提倡难原型对比学习挖掘聚类中的各异性信息,以拿获更具辨识度的特征;然后,瞎想动态原型对比学习,以保握特征各样性,普及模子对数据散播的稳健性;终末,引入渐进式学习战略,逐步将模子关切点从通用特征退换到各异性和各样性特征,以提防聚类退化。在两个基准数据集(SYSU-MM01 和RegDB)上进行的详细实验标明,PCLHD在平均mAP贪图上较现存首先进的USVI-ReID才智普及了3.9%。
该论文共同第一作家是厦门大学东谈主工智能连络院2022级博士生施江鸣和2023级硕士生尹祥博,共同通信作家口角延云训诫和谢源训诫(华东师范大学),由张亚超(清华大学深圳连络院)、张志忠(华东师范大学)等共同相助完成。
14. Relationship Prompt Learning is Enough for Open-Vocabulary Semantic Segmentation
通达词汇语义分割(OVSS)旨在对未见类提供像素级分类。现存的基于视觉谈话模子(VLM)的才智应用VLM蒸馏或适配特等深远的分割收集,从而输出未见类分割终局,但依赖多量参数耗尽。为此,本文尝试使VLM不祥径直生因素割终局,而无需深远的分割收集。提醒学习提供了一种径直且参数高效的才智。在该职责中,本文提倡关系提醒模块(RPM),生成关系提醒,开采VLM径直输出恰当OVSS的像素级语义镶嵌。此外,无需特等深远的分割收集,RPM与VLM集成以构建关系提醒收集(RPN),仅使用大要3M可锤真金不怕火参数(占总参数的2%)便达到了SOTA。
大型游戏在线玩
论文第一作家是信息学院筹备机科学与时间系2023级博士生李佳豪,共同通信作家口角延云训诫和谢源训诫(华东师范大学)。