定义:在开始阶段,没有大量用户数据的情况下,进行个性化推荐的问题。
分类 | 对策(提供非个性化推荐-热门推荐) |
用户冷启动-对新用户进行推荐 | A1.利用新用户的注册信息进行推荐 2.导入用户社交网站信息A3.要求用户对一些物品进行反馈 |
物品冷启动-将新物品推荐给用户 | B1.利用物品的内容信息进行推荐 |
系统冷启动-在无用户行为的网站上 进行推荐 | 1.利用专家知识建立物品相关表 |
A1 用户注册信息
信息包括:i.人口统计学信息(年龄、性别、职业、学历、住址、名族、国籍)
ii.用户兴趣描述
推荐算法:根据用户信息特征信息,参考同特征用户,获得用户对某物品的喜好程度
(1.N(i)消除热门物品影响 2.α 消除只有一两人喜欢用品的大权重)
例子:比如计算一个(男性,22岁,学生)对物品i的喜爱程度
-[男 22岁 学生且喜欢物品i的人数]/[喜欢物品i的人数+α]
A3 对物品进行反馈
选择反馈物品的原则:
i.物品热门(用户知道)
ii.物品具代表性,区分性(不能选大家都爱的物品)
iii.多样性(迎合用户兴趣多样性)
算法:
--区分度衡量:
三个值分别为:喜爱物品i的用户对其他物品评分的方差
不喜欢物品i的用户对其他物品评分的方差
不知道物品i的用户对其他物品评分的方差
--有了区分度后,通过以下方法选出k个用于反馈的物品
先选出区分度最大的物品,然后根据该物品将用户分为(喜欢、不喜欢、不知道)3类;
根据用户在界面上的反馈进入其中某一分支,然后在这一分支上,选出最有区分度的物品;
以此类推,直到选出k个物品
B1 利用物品内容信息
将物品内容信息表示为向量,$d_i=(w_1,w_2,...,w_n)$,每个分量对应一个特征,以电影为例,各个分量可以是(导演,类型,...)
表示成向量后,两个物品的相似度可以用余弦相似度计算:
对于文本内容,需要经过以下步骤处理: