
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
如果单从图像识别角度而言,两种犬类在外观上极为相似,拥有相近的色块像素,仅凭数据内部信恩息(如图像自身)可能难以对二者进行区分,但如果借助外部数据和知识,情况可能会大幅改观。
论文题目:Image Clustering with External Guidance 论文地址:https://arxiv.org/abs/2310.11989 代码地址:https://github.com/XLearning-SCU/2024-ICML-TAC
如何构建图像的文本表征; 如何协同图像和文本进行聚类。











其中
和
分别对应图像i及其邻居的聚类指派,P和
均为n*K的矩阵,其中K表示目标聚类个数。













其中
为权重参数。需要指出的是,上述损失函数只用来优化额外引入的聚类网络,并不修改CLIP预训练好的文本和图像编码器,因此其整体训练开销较小,实验表明所提出的方法在CIFAR-10的6万张图像上训练仅需使用1分钟。
如何选择合适的外部知识; 如何有效的整合外部知识以辅助聚类。