选择特殊符号
选择搜索类型
请输入搜索
本项目以过程挖掘算法评估框架的研制为核心,围绕过程数据管理系统BeehiveZ,经过了三年的研发工作,圆满完成预期任务。共发表和录用论文31篇(其中SCI索引6篇、EI索引29篇),待出版过程挖掘译著一部,举办相关国际会议2次、国内会议3次,累计参与470余人,项目组成员累计出国参加相关国际学术会议15次,并做分组报告13次,累计参加国内相关学术会议3次,并做分组报告10次,BeehiveZ从2.0升级到了3.5。项目组具体取得的研究成果如下:(1) 提出了基于结构相似性和行为相似性的过程挖掘算法评估框架,以及基于过程模型特征和主分量分析的重要参考过程模型选择方法,能够基于训练得到的回归模型加速挖掘算法的选取过程,为企业选择适合的过程挖掘算法提供了依据;(2) 综合考虑过程模型的业务语义、拓扑结构和行为语义,提出了过程模型过滤——验证两阶段检索框架,给出了基于路径、结构、次序关系、时序逻辑的过程模型索引方法以及相应的精确匹配和相似检索算法,大大提高了过程模型的检索效率和精度;(3) 为了高性能的实现海量分布式从原始记录格式到标准日志格式的转换,提出了事件日志在云平台上基于MapReduce架构的分布式转化算法;提出了一种基于完全有限前缀的完备日志生成算法;提出了一种从包含噪声的事件日志中检测错误轨迹的方法;提出了一种评估无噪声事件日志完备性的方法;(4) 申请人正从事将经典算法α 与α#相结合的工作,即从缺失部分事件的日志中挖掘出非自由选择结构,已经取得重大的技术突破,该新挖掘算法将成为第一个可被证明正确性的、高效的、同时支持不可见任务和非自由选择结构的挖掘算法;(5) 应用图编辑算法中的贪心算法,设计相似性算法度量模型之间的结构相似性,提出了五种过程模型存储方案,并设计实验对各方案进行了比较。结果显示,结合用户需求应用不同的存储方案,可以在响应时间和存储空间上取得较好的平衡;(6) 提出了基于任务最短跟随距离矩阵的流程模型行为相似性算法,与现有算法的对比表明,该算法更符合流程模型行为相似性算法应该具有的各项性质;提出了基于任务间紧邻关系的TAR算法的改进算法,克服了TAR在过程开始/结束位置、不可见任务、非自由选择结构和循环结构处理上的不足;(7) 提出过程感知工作流网的概念,并给出了带变迁条件的工作流网的合理性验证方法及过程模型中不可行路径的检测算法。 2100433B
过程挖掘旨在从业务过程执行产生的事件日志中挖掘有价值的客观信息,这些信息对部署新的业务系统(过程建模),或者分析、审计、改进已实施的业务系统(变化分析)具有重要的参考价值与现实意义。近年来各种过程挖掘算法发展非常迅速,但缺乏通用的方法来评估由这些算法发现的过程模型的质量,进而很难对算法的优劣进行客观评价。本项目尝试建立一个包含三部分内容的过程挖掘算法评估框架:(1)提供具有各类典型特征的多组事件日志以及对应参考模型作为公共测试集(含过程模型及日志自动生成工具);(2)提供一组常见过程建模语言到Petri网的转换工具;(3)提供一整套针对Petri网的综合度量工具。本项目的研究将有助于形成过程挖掘算法的基准测试平台,从而推动过程挖掘技术的成熟和完善;同时将有助于推广过程挖掘技术在企业中的实际应用,降低业务过程建模、审计和优化的难度,提高业务过程管理的效率和效益,进而提高企业的核心竞争力。
因为你第一跨和第三跨不能的边的柱子截面的宽度比直锚的长度小,所以就要那样算了。这是正确的~~~
Ceil(534/100)+1是指柱上端1/6范围加密,软件默认取整+1应该时7根 Ceil(484/100)+1是指柱下端1/6范围减去起始50,软件默认取整+1,应该时6根 Ceil(700/10...
箍筋个数为:(3200/6*2+700)/100+(3200-3200/6*2)/150+1=33个 如果考虑第一个箍筋离地高度为50mm (3200/6-50+3200/6+700)100+(3...
钢结构框架柱长度系数算法研究
在钢结构设计中,框架柱计算长度系数的求解十分重要。《钢结构设计规范》(GB 50017—2003)附录D中给出了框架柱计算长度系数求解公式和表格,然而其公式无法得到解析解,且难以直接使用牛顿迭代法;查表法适合手算,但对于结构设计软件来说,步骤繁琐且在特殊情况下不是十分精确。本文提出基于零值定理的钢框架柱计算长度系数求解方法,简单方便,易于实现,十分适合结构设计软件使用。数值试验表明,该方法适应性强、精度较高、步骤简单。为了进一步证明该方法的可靠性,已将其集成到北京市建筑设计研究院自主研发的结构设计软件Paco中,并分别采用PKPM和Paco对一个工程实例进行框架柱计算长度系数的求解,结果表明,两个软件求解结果十分接近,证明了本文提出的方法对于实际工程的适用性。
大型公共建筑风险评估框架研究
大型公共建筑是开放复杂系统,其风险由可靠性风险、安全性风险和可持续发展性风险构成。大型公共建筑的风险评估、需要从系统的角度,针对3类风险的不同特性,采用定性与定量结合的方法,进行系统的风险评估。针对可靠性风险侧重系统的可靠程度评估,安全性风险侧重风险源和系统脆弱性评估,可持续发展性风险侧重关联风险事件评估。大型公共建筑风险状况由3类风险的评估结果共同确定。
规则挖掘是数据挖掘的一项重要内容,传统的基于粗糙集理论的规则挖掘方法是先求决策信息系粒计算的核心思想是对待求解的问题进行粒化,在多个粒度空间对问题进行分析和求解,进而合成原始问题的解,符合人类从多角度分析问题、求解问题的认知规律,并受到了研究者的关注.
本文将属性约简和属性值约简过程合二为一,以知识粒为单位挖掘规则.先对决策信息系统分层粒化,在不同粒度的知识空间下计算粒关系矩阵,并从中获取启发式信息根据启发式信息确定信息粒的属性值约简顺序,在此基础上去除冗余属性,并设定终止条件,实现决策规则的快速挖掘.理论分析和UCI数据集的测试结果表明,该算法能获得所有最简规则.
对决策信息系统挖掘规则的传统方法是先求属性约简,再逐行提取规则,中间包含了很多冗余计算,最后的结果也取决于属性约简结果的好坏,并且随着样本集的增大,算法复杂性将大大增加.对属性约简进行了粒度原理分析并指出,对决策信息系统进行属性约简得到的知识划分空间是极大近似划分空间,但该知识空间的知识粒并不一定是整个知识空间中最“粗”的粒.本文考虑在不同粒度层次的知识空间中挖掘规则.为便于算法说明,先给出符号定义.
3.1符号定义
为了不失一般性,假设决策信息系统有个条件属性,1个决策属性.为条件属性′所含条件属性的个数,表征系统的粒度,1;为粒度下的所有条件属性′,这样的条件属性有个;为中某一条件属性对应的条件粒矩阵;为决策属性对应的决策粒矩阵;×为粒关系矩阵.
3.2算法描述
基于粒计算的最简决策规则挖掘算法.输入:决策信息系统;输出:所有最简决策规则.
1)生成决策粒矩阵并取粒度=1.
2)对中每一个条件属性求条件粒矩阵和粒关系矩阵,计算1、2,保存相应数据并做以下处理:
①寻找是否存在2=1.若存在,则由性质3可知,对应信息粒可以完全区分某一决策类,约简过程中优先考虑,这样可以保证在区分能力不变的情况下得到的规则最少,约简相应的信息粒得到决策规则,否则转②;
②若不存在2=1,则对1值的大小进行比较,1值越大,对应信息粒的区分能力越大,同样可以保证在区分能力不变的情况下得到的规则最少.根据1值的大小确定信息粒的约简顺序,通过约简信息粒得到决策规则,转③;
算法主要考虑如何提高现有算法的计算效率,包括如何减少冗余计算,如何提高搜索效率,如何减少存储空间.按照启发式信息1、2对信息粒进行约简,同时去掉冗余属性,减少了传统先约简属性再约简属性值时的冗余计算.在同一粒度空间下进行搜索时使用启发式算子对不同知识空间进行选择和排序,提高了搜索效率.在最坏的情况下需要搜索2次,而在实际情况中,当数据本身的冗余性很大时,搜索空间要远远小于2,因为在该算法中加入启发式信息,同时设置终止条件,算法收敛更快.本文使用的矩阵是布尔稀疏矩阵。 2100433B
C4.5就是一个决策树算法,它是决策树(决策树也就是做决策的节点间像一棵树一样的组织方式,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5比ID3改进的地方时:
ID3选择属性用的是子树的信息增益(这里可以用很多方法来定义信息,ID3使用的是熵(entropy)(熵是一种不纯度度量准则)),也就是熵的变化值,而C4.5用的是信息增益率。也就是多了个率嘛。一般来说率就是用来取平衡用的,就像方差起的作用差不多,比如有两个跑步的人,一个起点是100m/s的人、其1s后为110m/s;另一个人起速是1m/s、其1s后为11m/s。如果仅算加速度(单位时间速度增加量)那么两个就是一样的了;但如果使用速度增加率(速度增加比例)来衡量,2个人差距就很大了。在这里,其克服了用信息增益选择属性时偏向选择取值多的属性的不足。在树构造过程中进行剪枝,我在构造决策树的时候好讨厌那些挂着几个元素的节点。对于这种节点,干脆不考虑最好,不然很容易导致overfitting。对非离散数据都能处理,这个其实就是一个个式,看对于连续型的值在哪里分裂好。也就是把连续性的数据转化为离散的值进行处理。能够对不完整数据进行处理,这个重要也重要,其实也没那么重要,缺失数据采用一些方法补上去就是了。
CART也是一种决策树算法!相对于上着有条件实现一个节点下面有多个子树的多元分类,CART只是分类两个子树,这样实现起来稍稍简便些。所以说CART算法生成的决策树是结构简洁的二叉树。
这个很简单,就是看你周围的K个人(样本)中哪个类别的人占的多,哪个多,那我就是多的那个。实现起来就是对每个训练样本都计算与其相似度,是Top-K个训练样本出来,看这K个样本中哪个类别的多些,谁多跟谁。
(朴素贝叶斯NB)
NB认为各个特征是独立的,谁也不关谁的事。所以一个样本(特征值的集合,比如"数据结构"出现2次,"文件"出现1次),可以通过对其所有出现特征在给定类别的概率相乘。比如"数据结构"出现在类1的概率为0.5,"文件"出现在类1的概率为0.3,则可认为其属于类1的概率为0.5*0.5*0.3。
(支持向量机SVM)
SVM就是想找一个分类得最"好"的分类线/分类面(最近的一些两类样本到这个"线"的距离最远)。这个没具体实现过,上次听课,那位老师自称自己实现了SVM,敬佩其钻研精神。常用的工具包是LibSVM、SVMLight、MySVM。
这个我认为就是假设数据时由几个高斯分布组成的,所以最后就是要求几个高斯分布的参数。通过先假设几个值,然后通过反复迭代,以期望得到最好的拟合。
这个是做关联规则用的。不知道为什么,一提高关联规则我就想到购物篮数据。这个没实现过,不过也还要理解,它就是通过支持度和置信度两个量来工作,不过对于Apriori,它通过频繁项集的一些规律(频繁项集的子集必定是频繁项集等等啦)来减少计算复杂度。
(Mining frequent patterns without candidate generation)
这个也不太清楚。FP-growth算法(Frequent Pattern-growth)使用了一种紧缩的数据结构来存储查找频繁项集所需要的全部信息。采用算法:将提供频繁项集的数据库压缩到一棵FP-tree来保留项集关联信息,然后将压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每个条件数据库关联一个频繁项集。
大名鼎鼎的PageRank大家应该都知道(Google靠此专利发家,其实也不能说发家啦!)。对于这个算法我的理解就是:如果我指向你(网页间的连接)则表示我承认你,则在计算你的重要性的时候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承认多少个人)。通过反复这样来,可以求的一个稳定的衡量各个人(网页)重要性的值。不过这里必须要做些限制(一个人的开始默认重要性都是1),不然那些值会越来越大越来越大。
HITS也是一个连接分析算法,它是由IBM首先提出的。在HITS,每个节点(网页)都有一个重要度和权威度(Hubs and authorities,我也忘了具体的翻译是什么了)。通过反复通过权威度来求重要度,通过重要度来求权威度得到最后的权威度和重要度。
K-Means是一种最经典也是使用最广泛的聚类方法,时至今日扔然有很多基于其的改进模型提出。K-Means的思想很简单,对于一个聚类任务(你需要指明聚成几个类,当然按照自然想法来说不应该需要指明类数,这个问题也是当前聚类任务的一个值得研究的课题),首先随机选择K个簇中心,然后反复计算下面的过程直到所有簇中心不改变(簇集合不改变)为止:步骤1:对于每个对象,计算其与每个簇中心的相似度,把其归入与其最相似的那个簇中。
步骤2:更新簇中心,新的簇中心通过计算所有属于该簇的对象的平均值得到。
k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
BIRCH也是一种聚类算法,其全称是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是只是看了理论没具体实现过。是一个综合的层次聚类特征(Clustering Feature, CF)和聚类特征树(CF Tree)两个概念,用于概括聚类描述。聚类特征树概括了聚类的有用信息,并且占用空间较元数据集合小得多,可以存放在内存中,从而可以提高算法在大型数据集合上的聚类速度及可伸缩性。
BIRCH算法包括以下两个阶段:
1)扫描数据库,建立动态的一棵存放在内存的CF Tree。如果内存不够,则增大阈值,在原树基础上构造一棵较小的树。
2)对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。
由于CF Tree的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇的大小,并且数据的输入顺序也会影响到聚类结果。因此需要对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。
AdaBoost做分类的一般知道,它是一种boosting方法。这个不能说是一种算法,应该是一种方法,因为它可以建立在任何一种分类算法上,可以是决策树,NB,SVM等。
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据,并将关键放在关键的训练数据上面。
GSP,全称为Generalized Sequential Pattern(广义序贯模式),是一种序列挖掘算法。对于序列挖掘没有仔细看过,应该是基于关联规则的吧!网上是这样说的:
GSP类似于Apriori算法,采用冗余候选模式的剪除策略和特殊的数据结构-----哈希树来实现候选模式的快速访存。
GSP算法描述:
1)扫描序列数据库,得到长度为1的序列模式L1,作为初始的种子集。
2)根据长度为i 的种子集Li ,通过连接操作和修剪操作生成长度为i+1的候选序列模式Ci+1;然后扫描序列数据库,计算每个候选序列模式的支持度,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集。
3)重复第二步,直到没有新的序列模式或新的候选序列模式产生为止。
产生候选序列模式主要分两步:
连接阶段:如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同,则可以将s1与s2进行连接,即将s2的最后一个项目添加到s1中。
修切阶段:若某候选序列模式的某个子序列不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除。
候选序列模式的支持度计算:对于给定的候选序列模式集合C,扫描序列数据库,对于其中的每一条序列s,找出集合C中被s所包含的所有候选序列模式,并增加其支持度计数。
又是一个类似Apriori的序列挖掘。
其中经典十大算法为:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB和CART。
算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。
算法根据您的数据创建的挖掘模型可以采用多种形式,这包括:
说明数据集中的事例如何相关的一组分类。
预测结果并描述不同条件是如何影响该结果的决策树。
预测销量的数学模型。
说明在事务中如何将产品分组到一起的一组规则,以及一起购买产品的概率。