面向复杂舆情的数据挖掘与新知识发现技术
一、成果简介
(一)成果概述
该技术针对实时获取舆情热点、发现舆情新知识、及时全面地分析舆情热点事件,自主研发了实现舆情大数据快速获取、高效数据分析、话题关联关系发现、增量式数据挖掘等算法技术。包括:基于PARMTRD算法的关联关系发现,用于挖掘舆情事件内部多个话题之间、多个舆情事件之间潜在的关联关系,挖掘舆情产生的根本原因;基于相似网络社区划分的热点获取,在O(1)时间复杂度内实时获取舆情信息,减少对大量冗余数据的处理开销;基于IW-FUFP算法新知识发现,在错综复杂的网络舆情大数据中及时发现舆情新知识,增量式知识发现算法能够保留原有信息,并获得新出现知识,尽早发现舆情新热点;基于主题模型的相似文本计算,应用“TF-IDF+LDA+相似拟合”算法筛选相似文本;构建领域知识图谱,设计EA-LAD算法丰富和完善知识图谱,用于文本推荐。
本成果专注于网络舆情分析和挖掘、感知网络舆情态势,尽早发现舆情新事件,对突发重大舆情进行实时获取,挖掘舆情事件产生的根源,在舆情爆发前进行预警,为政府、企业等相关单位舆情引导提供决策支持,提前实施舆情调控措施,避免大规模舆情事件爆发,引导舆情健康发展,促进社会稳定。
该成果的核心技术还可以拓展到企业产品评论数据挖掘、商业数据挖掘、市长热线数据挖掘等各类可以应用文本数据挖掘的领域。
(二)技术特点及技术指标
当前大多数舆情分析平台多注重舆情监测、统计分析等功能,忽略了对多个事件之间潜在关联关系的分析与挖掘;大多传统数据挖掘分析方法难以快速有效地处理海量复杂的数据,不能满足新知识发现实时性的要求;由于突发事件的随机性使得实时热点获取不够完全,存在对部分热点事件后知后觉的问题。因此本技术设计了一个既能针对某个主题进行舆情分析与知识挖掘,也能对全网舆情进行综合分析的舆情大数据分析平台。
本系统中采用了数据爬取、词向量训练、语义聚类等多种方法实现对数据的分析处理,并研发应用了五个创新点:采用基于相似网络社区划分的热点获取方法减少对大量冗余数据的处理开销,在O(1)时间复杂度内全面实时地获取舆情热点;采用PARMTRD算法挖掘一个事件内部和多个事件之间潜在的关联关系,寻找事件发生的根本原因;采用IW-FUFP算法发现淹没在大量数据中的新知识,减少了对旧数据的重复计算和分析,提高了计算效率;基于主题模型的相似文本计算快速准确发现新舆情事件的历史相似事件;基于EA-LAD算法的知识图谱构建、丰富和完善。通过及时发现和处理分析舆情数据,把握社会热点信息,发现舆情信息之间的关联关系,有助于国家、政府对舆论进行分析和疏导,积极引导民众舆情的健康发展,对社会发展起到积极作用;同时能够及时应对网络平台中出现的舆论事件,提高对舆论事件的响应速度,对维护社会稳定、保障公共安全至关重要。
本成果经山东省科学研究院情报研究所查新指出,国内外未见有研究采用与本项目相同算法的面向复杂舆情的数据挖掘与知识发现系统的文献报道。
目前,本成果已取得的成绩有,在科研成果方面,本成果已发表相关论文8篇;申请国家发明专利6项,已授权3项,包括一项美国专利;已登记软件著作权2项。
二、技术成熟程度
研制开发阶段,形成样机、样品或软件
三、推广合作方式
作价入股
四、团队简介
团队面向公共安全与社会稳定,围绕舆情分析、数据挖掘、知识发现方面的研究。依托山东省能源工业大数据发展创新实验室平台,已发展成为国内舆情分析领域具有重要影响的研究团队。团队先后主持/参与国家及省部级科研项目9项,主持国家基金、山东省基金、山东省重点研发计划等科研项目3项;在人工智能、知识发现、舆情分析等领域权威期刊发表SCI论文28篇(其中:1区Top刊1篇,2区1篇,3区1篇);主编/参编著作2部;授权国家发明专利3项;获省部级及以上科研奖励3项。
五、专利授权及申请情况
1、国家发明专利:一种基于蒙特卡洛树搜索和神经网络的故障预测方法(授权)
2、美国发明专利:SEMI-SUPERVISED AUTOMATIC MARKING METHOD AND DEVICE FOR GROUND-OBJECT IN HYPERSPECTRAL IMAGE(授权)
3、国家发明专利:一种在物联网中基于多点防御的SSDP反射攻击的防御方法与防御装置(授权)
4、国家发明专利:一种多层次文本聚类方法和装置(实审)
5、国家发明专利:一种基于主题模型的诉求智能转办方法和装置(实审)
6、国家发明专利:一种基于大数据深度学习方法的低阻层精准预测方法与装置(实审)
7、软件著作权:复杂网络舆情数据挖掘与分析系统V1.0(登记)
8、软件著作权:基于热线诉求的用户画像系统(登记)
六、受资助及获奖情况
1、国家自然科学基金青年项目,61309024,基于社会计算的网络恶意代码防护机制研究,2014.1至2016.12;
2、山东省重点研发计划,2017GGX10140,复杂社交网络舆情热点实时发现与追踪,2017.06至2019.05;
3、山东省基金面上项目,ZR2020MF04,基于区块链的重大舆情事件分析与推演,2021.01至2023.12;
4、山东省科学技术进步奖,二等奖,自适应联邦智能关键技术及产业化,2020。
联系方式:0532-86983018。