频繁模式挖掘方法-电动数控滚圆机滚弧机张家港钢管滚圆机滚弧机
作者:lujianjun | 来源:欧科机械 | 发布时间:2019-06-15 13:07 | 浏览次数:

:相对于传统的频繁模式挖掘,加权频繁模式挖掘能发现更有价值的模式信息。针对数据流中的数据只能一次扫描,本文提出了一种基于滑动窗口模型的数据流加权频繁模式挖掘方法 WFP-SW(Sliding Window based Weighted Frequent Pattern minig),算法采用WEe)存储模式和事务信息,利用虚权支持度维持模式的向下闭合特性,同时获取临界频繁模式。对临界频繁模式进一步计算其加权支持度获取加权频繁模式,使得计算更新模式更加便捷。实验结果显示算法具有较高的挖掘效率并且所需的内存更少。 虚线矩形中的数值是项集的虚权支持度,以维持向下闭合特性,防止项集被过早舍弃引起数据丢失。HashTable用来存储加权频繁项集。表1Tid列表Tab.图2SW1存储结果Fig.2SW1storageresults假设最小加权支持度为1。则树的第一层中,只有A(Ws为1.8)和B(Ws为1)是加权频繁项集。而节点D加权支持度为0.8,但是其虚权为1.2,因此不能舍弃,本文由公司网站滚圆机网站采集转载中国知网资源整理!www.gunyuanji.name否则模式AD将会丢失。并且在窗口滑动过程中,第一层的单项节点的数据信息需要用来求得下层的频繁项集,无论频繁与否,不剪枝。当窗口初始化时,便能得到每一个项的Tid列表,由此构建WE-tree。接着通过递归的方式将第K-1层的Tid列表相交得到K层节点。假若节点的虚权大于最小加权支持度,便插入成为一个新的节点,否则将其忽略。如图2所示,通过将节点A、D相交得到节点AD的虚权为1.2,模式AD插入为一个新的节点频繁模式挖掘方法-电动数控滚圆机滚弧机张家港钢管滚圆机滚弧机折弯机,求得加权支持度为1,插入Hash表。当成器产生数据,模拟数据流包括T其中,T15I10D1000K表示事务的平均长度为15,平均模式长度为10,数据流事务个数为100万条。图5设计提供了在不同的滑动窗口大小下,算法在不同的模拟数据流上的最大内存消耗和执行时间。从图5(a)中可以看出,滑动窗口大小和内存消耗成正比关系。原因是当窗口增大时,WE-tree需要维持的Tid也成倍增加;而在同样的模式长度和窗口下,事务长度的变化对内存影响并不明显;当平均模式长度变大时,WE-tree的深度随之增加,即树节点增多,内存消耗也表现出上升态势。图5(b)显示的是算法在不同窗口大小下不同数据流的执行时间。由于算法采用交集的方式(时间复杂度O(n))求得更高层模式信息,窗口对执行时间的影响基本呈线性增长。而由于事务长度的增加会导致交集运算次数也随即增多,对时间的影响较大,平均模式长度影响较小,因而算法更获得窗口中所有的加权频繁项集后,随着窗口滑动,第一层节点将被更新。WE-tree创建过程的伪代码可详见如下:Cr频繁模式挖掘方法-电动数控滚圆机滚弧机张家港钢管滚圆机滚弧机折弯机本文由公司网站滚圆机网站采集转载中国知网资源整理!www.gunyuanji.name