• 文件
  • 知识库

通过子空间嵌入进行深度重叠社区搜索

原标题:Deep Overlapping Community Search via Subspace Embedding

Qing SimaJianke YuXiaoyang WangWenjie ZhangYing ZhangXuemin Lin

(2025)

|

5

关键词

Overlapping Community Search
Sparse Subspace Filter
Simplified Multi-hop Attention Networks
ML-based models
personalized search
community structures
F1-Score
training efficiency
query node
database domain

摘要

重叠社区搜索(OCS)基于指定的查询识别与多个社区互动的节点。现有的社区搜索方法分为两类:基于算法的模型和基于机器学习(ML)的模型。尽管数据库领域长期以来关注这一主题,但当前的解决方案面临两个主要限制:1)这两种方法都未能解决OCS中的个性化用户需求,对于给定的查询,无论用户差异如何,总是返回相同的节点集。2)现有的基于ML的社区搜索模型在训练效率上存在严重问题。在本文中,我们正式重新定义了OCS问题。通过分析这两类方法的不足,我们提出了一种名为稀疏子空间过滤器(SSF)的通用解决方案,可以扩展任何基于ML的社区搜索模型,以实现重叠结构中的个性化搜索。为了解决当前模型中的效率问题,我们引入了简化多跳注意力网络(SMN),这是一种轻量级但有效的社区搜索模型,具有更大的感受野。据我们所知,这是第一个基于ML的重叠社区搜索研究。大量实验验证了SMN在SSF流程中的卓越性能,与最先进的方法相比,F1-Score提高了13.73%,模型效率加速高达三个数量级。

AI理解论文

这篇论文题为“Deep Overlapping Community Search via Subspace Embedding”,主要研究了重叠社区搜索(OCS)的问题。OCS的目标是基于特定查询识别与多个社区互动的节点。现有的社区搜索方法分为基于算法的模型基于机器学习(ML)的模型。然而,这些方法存在两个主要局限:一是无法满足用户个性化需求,二是ML模型的训练效率低下。

研究背景与动机:社区搜索在数据库领域是一个长期关注的主题,应用广泛,包括欺诈检测和推荐系统。现有的社区搜索模型可以分为基于算法和基于ML的方法。基于算法的模型将社区定义为节点的紧密群体,而基于ML的方法则通过标签或节点类型定义社区。然而,这些模型无法扩展到重叠社区搜索。重叠社区结构允许每个节点与多个社区互动,这带来了如何在查询节点同时属于多个社区时优先排序或排名社区的挑战。用户兴趣的多样性使得提供个性化搜索变得至关重要。

研究问题:论文重新定义了OCS问题,提出了一种名为稀疏子空间过滤器(SSF)的通用解决方案,可以扩展任何基于ML的CS模型以实现重叠结构中的个性化搜索。为了克服当前模型的效率问题,论文引入了简化多跳注意力网络(SMN),这是一种轻量级但有效的社区搜索模型,具有更大的感受野。

方法论:SSF通过学习一个稀疏矩阵来表示每个社区的稀疏嵌入,使节点嵌入能够同时落入多个子空间,从而有效识别重叠社区结构下的目标集。SMN框架通过简化的多跳注意力机制提高了模型训练速度,同时保持了高阶感知能力。

实验与结果:论文在13个真实数据集上进行了广泛的实验,验证了SMN在SSF管道中的优越性能,与最先进的方法相比,F1-Score提高了13.73%,模型效率加速了多达三个数量级。实验结果表明,模型在识别大规模社区时仍能保持高F1-Score,证明了其在处理不同社区规模时的有效性。

贡献与未来工作:这项研究首次在ML基础上研究了重叠社区搜索,提出了一个通用的OCS解决方案,并开发了一个有效的模型框架。未来的工作可能集中在优化空间复杂度和提高大图的可扩展性,以及通过实时更新来处理动态社区,使模型能够随着网络的演变而适应,捕捉实时模式。

术语解释

  • 重叠社区搜索(OCS):识别与多个社区互动的节点的过程。
  • 稀疏子空间过滤器(SSF):一种通过学习稀疏矩阵来表示社区嵌入的技术。
  • 简化多跳注意力网络(SMN):一种提高模型训练速度的轻量级社区搜索模型。

这篇论文通过提出新的方法和模型框架,解决了现有方法在重叠社区搜索中的局限性,为个性化社区搜索提供了新的视角和工具。

Chat Paper

当前问答基于全文

转入私有库对话