移动增值业务逐渐成为移动通信市场上最有活力、最具潜力、最受瞩目的业务。随着产业的复苏,越来越多的增值业务表现出强劲的发展势头,呈现出应用多元化、营销品牌化、管理集中化、合作纵深化的特点。针对这种趋势,在关联规则数据挖掘中广泛应用的Apriori算法被很多公司应用。依托某电信运营商正在建设的增值业务Web数据仓库平台,对来自移动增值业务方面的调查数据进行了相关的挖掘处理,从而获得了关于用户行为特征和需求的间接反映市场动态的有用信息,这些信息在指导运营商的业务运营和辅助业务提供商的决策制定等方面具有十分重要的参考价值。
Apriori 实例理解 实例理解1一个大型超级市场根据最小存货单位(SKU)来追踪每件物品的销售数据。从而也可以得知哪里物品通常被同时购买。通过采用先验算法来从这些销售数据中创建频繁购买商品组合的清单是一个效率适中的方法。假设交易数据库包含以下子集{1,2,3,4},{1,2},{2,3,4},{2,3},{1,2,4},{3,4},{2,4}。每个标号表示一种商品,如“黄油”或“面包”。先验算法首先要分别计算单个商品的购买频率。下表解释了先验算法得出的单个商品购买频率。
商品编号 购买次数1 3
2 6
3 4
4 5
然后我们可以定义一个最少购买次数来定义所谓的“频繁”。在这个例子中,我们定义最少的购买次数为3。因此,所有的购买都为频繁购买。接下来,就要生成频繁购买商品的组合及购买频率。先验算法通过修改树结构中的所有可能子集来进行这一步骤。然后我们仅重新选择频繁购买的商品组合:
商品编号 购买次数{1,2} 3
{2,3} 3
{2,4} 4
{3,4} 3
并且生成一个包含3件商品的频繁组合列表(通过将频繁购买商品组合与频繁购买的单件商品联系起来得出)。在上述例子中,不存在包含3件商品组合的频繁组合。最常见的3件商品组合为{1,2,4}和{2,3,4},但是他们的购买次数为2,低于我们设定的最低购买次数。
实例理解2假设有一个数据库D,其中有4个事务记录,分别表示为:
TID ItemsT1 l1,l3,l4
T2 l2,l3,l5
T3 l1,l2,l3,l5
T4 l2,l5
这里预定最小支持度minSupport=2,下面用图例说明算法运行的过程:
1、扫描D,对每个候选项进行支持度计数得到表C1:
{l1} 2
{l2} 3
{l3} 3
{l4} l
{l5} 3
2、比较候选项支持度计数与最小支持度minSupport(假设为2),产生1维最大项目集L1:
项集 支持度计数{l1} 2
{l2} 3
{l3} 3
{l5} 3
3、由L1产生候选项集C2:
项集{l1,l2}
{l1,l3}
{l1,l5}
{l2,l3}
{l2,l5}
{l3,l5}
4、扫描D,对每个候选项集进行支持度计数:
项集 支持度计数{l1,l2} 1
{l1,l3} 2
{l1,l5} 1
{l2,l3} 2
{l2,l5} 3
{l3,l5} 2