机器学习挖掘类标签:该类标签通过数据挖掘产生,应用在对用户的某些属性或某些行为进行预测判断。例如根据一个用户的行为习惯判断该用户是男性还是女性,根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生。
标签的类型是对标签的一个区分,方便我们了解标签是在数据处理的哪个阶段产生的,也更方便我们管理。
标签分级分类标签需要进行分级分类的管理,一方面使得标签更加的清晰有条件,另一方面也方便我们对标签进行存储查询,也就是管理标签。
用户画像体系和标签分类从两个不同角度来梳理标签,用户画像体系偏战略和应用,标签分类偏管理和技术实现侧。
把标签分成不同的层级和类别,一是方便管理数千个标签,让散乱的标签体系化;二是维度并不孤立,标签之间互有关联;三可以为标签建模提供标签子集。
梳理某类别的子分类时,尽可能的遵循MECE原则(相互独立、完全穷尽),尤其是一些有关用户分类的,要能覆盖所有用户,但又不交叉。比如:用户活跃度的划分为核心用户、活跃用户、新用户、老用户、流失用户,用户消费能力分为超强、强、中、弱,这样按照给定的规则每个用户都有分到不同的组里。
标签命名标签的命名也是为了我们可以对标签进行统一的管理,也更好识别出是什么标签。
这是一种非常好的命名方式,解释如下:
标签主题:用于刻画属于那种类型的标签,如用户属性、用户行为、用户消费、风险控制等多种类型,可用A、B、C、D等
字母表示各标签主题;
标签类型:标签类型可划为分类型和统计型这两种类型,其中分类型用于刻画用户属于哪种类型,如是男是女、是否是会员、
是否已流失等标签,统计型标签用于刻画统计用户的某些行为次数,如历史购买金额、优惠券使用次数、近30日登陆次数等
标签,这类标签都需要对应一个用户相应行为的权重次数;
开发方式:开发方式可分为统计型开发和算法型开发两大开发方式。其中统计型开发可直接从数据仓库中各主题表建模加工
而成,算法型开发需要对数据做机器学习的算法处理得到相应的标签;
是否互斥标签:对应同一级类目下(如一级标签、二级标签),各标签之间的关系是否为互斥,可将标签划分为互斥关系和
非互斥关系。例如对于男、女标签就是互斥关系,同一个用户不是被打上男性标签就是女性标签,对于高活跃、中活跃、低
活跃标签也是互斥关系;
用户维度:用于刻画该标签是打在用户唯一标识(userid)上,还是打在用户使用的设备(cookieid)上。可用U、C等字
母分别标识userid和cookieid维度。
最终形成得标签示例:
对于用户是男是女这个标签,标签主题是用户属性,标签类型属于分类型,开发方式为统计型,为互斥关系,用户
维度为userid。这样给男性用户打上标签“A111U001_001”,女性用户打上标签“A111U001_002”,其中
“A111U”为上面介绍的命名方式,“001”为一级标签的id,后面对于用户属性维度的其他一级标签可用“002”、
“003”等方式追加命名,“_”后面的“001”和“002”为该一级标签下的标签明细,如果是划分高、中、低活跃
用户的,对应一级标签下的明细可划分为“001”、“002”、“003”。
因为数据非常大,所以跑标签出来的结果必须要通过hive和druid数仓引擎来完成。
在数据仓库的建模过程中,主要是事实表和维度表的开发。
事实表依据业务来开发,描述业务的过程,可以理解为我们对原始数据做ETL整理后业务事实。
而维度表就是我们最终形成的用户维度,维度表是实时变化的,逐渐的建立起用户的画像。
比如用户维度标签:
首先我们根据之前讨论的用户指标体系,将用户按照人口,行为,消费等等建立相关中间表,注意表的命名。