产品概述
 

       数据取样技术是当前世界范围内最通用的一种近似技术,在处理大规模数据工作中应用非常广泛。现阶段数据挖掘研究的核心内容是概要结构的设计,而取样技术本身具备的伸缩性以及灵活性,与其他技术相比是独特的,这就使取样技术成为能够构建数据流概要结构的重要技术之一。

以各个数据项被选择的概率为依据,可将取样方法分成均匀取样,即各个数据项被选择的概率一致;和偏倚取样,即各个数据项被选择的概率不一致。

1.具有代表性的取样方法

(1)A/R Sampling

       A/R Sampling进行的首要步骤是通过某一种计算方式在数据集中随机抽选一个备选的元素,其次是将被选中的备选元素与选择条件进行对比,若备选元素与选择条件相符合,则需将其放置于样本集中,即acceptance;若与选择条件不相符,则需拒绝,即rejection;然后从第一个步骤开始重新来过。

(2)精确取样

       在样本集中出现仅有一次的元素应该使用元素代码进行表示,出现多次的元素应该使用value,counto表示,value代表元素代码,counto代表数量。在样本集中添加元素时,若该元素已存在于样本集中时,应该在目录的相应元素后加1,若该元素尚未被收集到样本集内,则可进行直接收取。样本集中存储的元素已经超过标准值时,需要对各个元素的原有参数与现有参数进行对比,并选择其中一个将其删除,保证新数据有存放的空间。

(3)计数取样

       该种取样方式是通过精确取样演变而来的,变化主要体现在样本集中元素数量已满时,对溢出元素的处理方式。计数取样在处理溢出元素情况时,不仅需要将元素的原有参数与现有参数进行对比,计算原、现参数之间的比率,利用现参数分之一对是否将元素删除进行判断,若其中的一个数据的计数值为0时,无需进行该数据的操作。



产品功能
 
应用场景
 
帮助与文档