产品概述
 

       分类模式是数据挖掘中一项非常重要的任务,利用分类模型可以从数据集中提取描述数据类的一个函数或模型,并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是一种有指导(我们通常称之为有监督)的学习,即每个训练样本的数据对象已经有类的标识,通过学习可以形成表达数据对象与类标识间对应的知识。从这个意义上说,数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类,进而也可以预测未来数据的分类。

       分类模式挖掘所获的分类模型可以采用多种形式加以描述输出,其中主要的表示方法有:分类规则(IF-THEN),决策树(decision tree),数学公式(mathematical formulae)和神经网络。

       决策树是一个类似于流程图的结构,每个节点代表一个属性上的值,每个分枝代表测试的一个输出,树叶代表类或者类分布。决策树容易转换成分类规则。神经网络用于分类的时候,是一组类似于神经元的处理单元,单元之间加权连接。

另外,最近有兴起了一种新的方法—粗糙集(rough set)其知识表示是生产式规则。

       分类通常用来预测对象的类标号。例如,银行信贷部门可以根据一个顾客信用信息数据库,将功课的信用等级记录为一般或良好,然后根据挖掘得出信用良好的顾客信息特征,应用这些特征描述,可以有效发现优质客户。这一分类过程主要含有两个步骤:

(1)建立一个已知数据集类别或概念的模型

(2)对学习所获模型的准确率进行测试


产品功能
 
应用场景
 
帮助与文档