近日,我院黄书强教授课题组在数据挖掘国际顶级期刊IEEE Transactions on Knowledge and Data Engineering(TKDE)上在线发表题为“Online Feature Selection with Varying Feature Spaces”的学术论文。网络空间安全学院博士生卓胜达为第一作者,黄书强教授为通讯作者。
该论文充分考虑现实数据流所存在的衍变性、关联性和异构性等问题,着重研究数据采样、传递及学习过程,旨在挖掘异构数据分布空间的关联与衍变,最终为动态不平稳、数据不完备、模型实时更新等情形下的人工智能模型学习提供稳态、高效方案。本研究三个核心思想:1)利用高斯Copula构建衍变特征之间的关联模型,突破数据类型差异所存在的弱关联问题;2)采用浅层特征树(L2-Ball范式)的自适应集成策略,以挖掘实时抉择中最具信息量的关键特征;3)建立持续实例的底层几何结构,构建未标记样本与已标记样本的高维分布空间内在关联。该文还探讨了不同衍变机制下的特征适应表现,包括在不同衍变模式以及概念漂移下的适应权衡。本论文的研究结果充分揭示流式数据场景下异构数据间关联策略方式和关键核心特征选择的方案。特别地,该论文的相关工作可在网络流量的实时传输分析等复杂多变场景下实现了关键特征的筛选,以保证下游任务模型的高效率和高精度。
TKDE是IEEE旗下计算机领域数据挖掘方向的顶级期刊,在数据挖掘和知识发现领域享有极高的学术声誉,也是中国计算机学会推荐的A类期刊。
该研究工作得到了国家自然科学基金项目(项目编号:62272198,62276277)、广东省自然科学基金项目(项目编号:2024A1515010121)、广东省数据安全与隐私保护重点实验室项目(项目编号:2023B1212060036)、粤港数据安全与隐私保护联合实验室项目(项目编号:2023B1212120007)以及暨南大学博士研究生拔尖创新人才培养项目(项目编号:2023CXB022)的支持。
论文链接:
https://ieeexplore.ieee.org/abstract/document/10473703
撰稿:卓胜达
校对:何宇艳
初审:郭信江
终审:夏志华