引入:推荐系统的例子
- 京东推荐系统
- 推荐产品和食物
- 两个客户:
- 客户 X:购买了 CD1 和 CD2
- 客户 Y:搜索了 CD1,那么推荐系统将会根据从客户 X 处收集到的信息推荐给客户 CD2
推荐与推荐系统
用户执行物品搜索,推荐系统根据情况返回推荐结果
什么是推荐系统
推荐系统是提供推荐给用户的系统:
- 过多的信息(信息过载)
- 用户有太多的选择
根据用户的口味,来推荐用户不同的商品:
- 协助用户发现信息
- 减少搜索和导航的时间
从稀缺到丰富
- 货架空间是稀缺的传统商品零售商,同样的还有电视网络、电影院
- Web 使有关产品信息的成本接近零传播:从稀缺到丰富
- 更多选择需要更好的过滤器:推荐引擎
长尾模式 | 实体和线上 |
---|---|
推荐分类
编辑和策划:
- 收藏夹列表
- “基本”项目清单
简单的集合:前 10 名,最受欢迎,最近上传
针对个人用户:亚马逊,Netflix 等…
推荐系统的一般模型
- $X$ 是消费者集合
- $S$ 是物品集合
- 使用函数:$u: X * S \to R$
- $R$是评分集合
- $R$是一套完全有序的集合
- 比如,0-5 星,0-1 分
- Utility Matrix
用户和物品的对比
个性化
个性化:用户匹配系统
交互式基于用户个人数据情况而个性化展开的
- 个性化网页
- 个性化指导
- 个性化推荐
和 BDA 的联系
环境智能 = 普适计算 + 智能接口(比如个性化)
用户信息
从简单到复杂
- 人口统计学信息:年龄、性别、低于
- 兴趣、偏好、专业级别
- 购买记录、观察行为
- 打分
- …
- 计算生活日志
用户信息的来源
- 用户直接的输入(如调查问卷)
- 通过系统非显式收集到:
- 观察/记录用户行为
- 学习/推理用户的兴趣/偏好/级别
- 集合使用所有的方法
- 其他的维度:公有/私有
用户信息的获取
格式:
- 原数据
- 概括(发现模式 & 生成)
- 统计性机器学习方法
- 基于 ML 方法的知识
- 保持以上两种的方式(在时间上去重新学习或者适应),保持原数据的有效时间
其他人介入过程可能会导致信息的误收集,比如虽然你很喜欢,但是别人阻止了你,导致你只是很多次浏览,最终没有形成最后的购买行为。
推荐过程中的关键问题
问题 | 详细描述 |
---|---|
收集矩阵的“已知”评分 | 如何收集 Utility Matrix 中的数据 |
从已知评级中推断未知评级 | 主要对高未知等级感兴趣,我们对了解自己不喜欢的东西并不感兴趣 |
评估外推方法 | 如何衡量推荐方法的成功/绩效 |
冷启动问题 | 对于长时间的系统没有影响,但是对于短时间(刚开始)的系统有着比较重要的预测作用 |
完成模型转换 | 用户往往没有直接的输入,不会直接表达兴趣 |
模糊的信息 | 比明确的资料要糟糕,有很多的用户、网页,并且用户的资料信息比较短 |
隐藏的网页 | 在互联网部分很多的网页是通过数据库查询而获取的,其重要性很难通过日志显示出来,不能无差别的推荐物品 |
用户评分的收集
显式收集
最精确的评分:用户直接打分,通常使用 1 到 5 或者 1 到 7 的李克特反应量表
相关研究:
- 最佳粒度:表示 10 分制在电影中被更好地接受了。
- 在讨论的笑话推荐器中选择了更细粒度的制式
- Gold Berg 等使用了连续刻度(从 -10 到 +10)和图形输入栏
- 离散化不会造成精度损失
- 可以更精细地捕获用户首选项
- 用户实际上“喜欢”图形交互方法
- 多维等级(每部电影的多重等级,例如演员和声音的等级)
主要问题:
- 用户并不总是愿意为许多项目评分:可用评分的数量可能太少
->
评分矩阵稀疏->
推荐质量较差 - 如何刺激用户给更多物品评分?
非显式收集
- 从用户行为中学习到评分:
- 通常是通过嵌入了推荐系统的网上商店或应用程序收集
- 比如客户购买行为,许多推荐系统会解释为高评级(好评)
- 评价指标:点击次数、浏览量、在某些页面上花费的时间、下载量
- 隐式评价可以不断收集,不需要用户方面的额外做什么
- 主要问题:
- 不能确定用户行为是否被正确解释
- 例如,用户可能不喜欢他或她购买的所有书籍;用户也可能已经为别人买了一本书
- 除了显式的评价外,还可以使用隐式评价,但是往往是出于经验结论。
从已知评级中推断未知评级
核心问题:Utility Matrix 是稀疏的
- 大多数用户不会给大多数物品打分,导致了很多的缺项
- 冷启动:新物品没有评分、新用户没有足迹
实现推荐系统的三个方法
- 基于内容的推荐系统(多)
- 基于协同的推荐系统(多)
- 基于潜在因子的推荐系统
网络个性化过程
- 生成用户模型:
- 使用的不是一个用户而是一个集群的用户
- 是一个离线过程
- 步骤:
- 聚类用户交易行为等
- 聚类物品或页面浏览路径
- 关联挖掘规则
- 序列化发现模式
- 提供推荐服务:
- 在线过程
- 结合用户的动态进程,提供动态内容
off-line | on-line |
---|---|
用户建模
- 根据用户的应用和使用来划分用户模型:跨应用程序可重用
- 大多数还是理论的,并不实际
- 最新状态:每一个应用有他自己的用户模型来完成其特定的任务
基于协同的推荐系统
协同过滤:利用其他用户的数据来为用户完成推荐
协同过滤过程
- 我们考虑用户 X
- 查找评级与用户 X 评级“相似”的 N 个其他用户的集合
- 根据 N 个用户的评分来估算 X 的评分,并决定是否推荐给用户 X
协同过滤(Collaborative Filtering, CF)
协同过滤是推荐的最杰出方法:
- 由大型商业电子商务网站使用
- 很好理解,存在各种算法和变体
- 适用于许多领域(书籍,电影,DVD 等)
方法:使用“人群的智慧”推荐物品基本假设和想法
假设:在用户通过隐式或显式的方式完成对目录项进行评分,并且过去口味相似的客户在未来也有大可能口味相似
基于用户的最近邻协同过滤
基本技巧:给定活跃用户 X 和用户 X 尚未看到的商品 i
- 找到一组过去喜欢与 X 相同的商品并且对商品 i 进行了评分的用户 Y(同龄人/最近的邻居)
- 使用推荐系统进行预测,例如预测用户 X 给商品 i 的评分会是多少
- 对用户 X 没看过的所有商品执行此操作,并给用户 X 推荐评分最高的商品
基本假设和想法:如果用户过去具有相似的口味,将来他们也会具有相似的口味。用户偏好会随着时间的推移保持稳定和一致
寻找相似的用户
- 我们让$r_x$作为用户 x 的评分向量
- Jaccard 相似度:
- $J(A,B) = \frac{|A\cap B|}{|A \cup B|}$
- 问题是忽略了评分的价值
- 我们把$r_x$和$r_y$作为集合
- $r_x = {1, 4, 5}$
- $r_y = {1, 3, 4}$
- 余弦相似度:问题是把没有评分的部分作为负面情况
- $sim(x,y) = \cos(r_x, r_y) = \frac{r_x * r_y}{||r_x||*||r_y||}$
- 我们把$r_x$和$r_y$作为点
- $r_x = {1, 0, 0, 1, 3}$
- $r_y = {1, 0, 2, 2, 0}$
- 皮尔逊相关系数,$S_{xy}$指的是物品和用户 x、y 的相似性:$\overline{r_x}$和$\overline{r_y}$是 x 和 y 的均值评分
$$
sim(x,y) = \frac{\sum\limits_{s \in S_{xy}}(r_{xs} - \overline{r_x})(r_{ys} - \overline{r_y})}{\sqrt{\sum\limits_{s \in S_{xy}}(r_{xs} - \overline{r_x})^2 }\sqrt{\sum\limits_{s \in S_{xy}}(r_{ys} - \overline{r_y})^2}}
$$
相似矩阵例子
直观地我们想要说明:$Sim(A, B) > Sim(A, C)$
- Jaccard 相似度:$Sim(A, B) = \frac{1}{5} < Sim(A, C) = \frac{2}{4}$
- 余弦相似度:$Sim(A, B) = 0.380 > Sim(A, C) = 0.322$
- 认为缺失的评分为 0,问题:默认是负面评论
- A = {4, 0, 0, 5, 1, 0, 0}
- B = {5, 5, 4, 0, 0, 0, 0}
- C = {0, 0, 0, 2 ,4 ,5, 0}
- $Sim(A, B) = 0.380 > Sim(A, C) = 0.322$
- 解决默认负面评论:减去(行)平均值,$Sim(A, B) = 0.092 > Sim(A, C) = -0.559$
- 认为缺失的评分为 0,问题:默认是负面评论
评分预测
从相似性指标到推荐:
- 设$r_x$为用户 x 评分的向量
- 设 N 为与 x 最相似的,对项目 i 评分的 k 个用户的集合
- 对用户 x 的项目 s 的预测:($S_{xy}$是$sim(x,y)$的缩写)
以下为几种分数预测策略:
$$
\begin{array}{l}
r_{xi} = \frac{1}{k}\sum\limits_{y\in N} r_{yi} \
\ \
r_{xi} = \frac{\sum\limits_{y\in N}s_{xy} * r_{yi}}{\sum\limits_{y\in N} s_{xy}}
\end{array}
$$
物品-物品协同过滤
- 到目前为止:我们完成了用户-用户的协作过滤
- 但是我们还有另一种角度:物品
- 对于物品 i,找到其他类似的物品
- 根据类似物品的评级估算物品 i 的评级
- 可以使用与用户-用户模型相同的相似性指标和预测功能
$$
r_{xi} = \frac{\sum\limits_{j \in N(i; x)} s_{ij} * r_{xj}}{\sum\limits_{y \in N(i; x)}S_{ij}}
$$
- $s_{ij}$是物品 i 和 j 之间的相似度
- $r_{xj}$是用户 x 对物品 j 的评分
- $N(i;x)$是设置由用户 x 评分与 i 相似的项目
物品-物品协同过滤的例子
更加普遍的协同过滤
- 我们定义项$i$和$j$的相似度为$s_{ij}$
- 选择 k 个最近的邻居$N(i; x)$:与用户$x$最相似的项目,由用户$x$评分
- 将等级$r_{xi}$估计为加权平均值:
$$
\begin{array}{l}
Before:r_{xi} = \frac{\sum\limits_{y\in N}s_{xy} * r_{yi}}{\sum\limits_{y\in N} s_{xy}} \
\ \
After: r_{xi} = b_{xi} + \frac{\sum\limits_{j \in N(i; x)} s_{ij} * (r_{xj} - b_{xj})}{\sum\limits_{j \in N(i; x)}s_{ij}} \
\ \
b_{xi} = \mu + b_x + b_i
\end{array}
$$
- $\mu$:电影整体平均收视率
- $b_x$:用户 x 的评分偏差 =(用户 x 的平均评分)- $\mu$
- $b_i$:电影 i 的评分偏差
对于物品-物品的协同过滤和用户-用户的协同过滤
在实际生活中,我们可以观察到物品-物品通常比用户-用户更好地工作。因为物品更简单,而用户有很多的口味。
数据稀疏性问题
- 冷启动问题:如何推荐新商品?向新用户推荐什么?
- 直接的方法:
- 要求/强迫用户对一组项目进行评分
- 在初始阶段使用另一种方法(例如,基于内容的,人口统计学的或只是非个性化的)
- 默认投票:为只有两个要比较的用户之一进行评分的项目分配默认值(Breese 等,1998)
- 备择方案:
- 使用更好的算法(超越最近的邻域方法)
- 例:
- 在最近邻居方法中,足够相似的邻居的集合可能太小而无法做出好的预测
- 假设邻居的“传递性”
协同过滤的优点
适用于任何种类的物品:无需选择功能
- 隐式收集:不需要明确的用户打分和用户交互
- 大量数据:使用不同的数据来保护用户隐私
- 如果我们大规模地使用户数据,那么协同过滤更加有效。
- 基于内容、知识的推荐方法是很难使用在网络数据上
协同过滤的缺点
- 冷启动:系统中需要足够的用户才能找到匹配项
- 稀疏度:
- 用户/评分矩阵稀疏
- 很难找到评分相同的用户
- 最初评分:
- 无法推荐以前未评级的项目
- 新项目,神秘项目
- 人气偏见:
- 无法向有独特品味的人推荐产品
- 倾向于推荐热门商品
基于内容的推荐系统
核心思想:向用户推荐他自己之前高度评价相似的商品
例子:
- 电影推荐:推荐由相同演员、导演和主演的电影
- 网络、博客和新闻:推荐由相似内容的其它网站
基于内容的推荐系统概述
协同过滤方法不需要有关项目的任何信息:
- 利用此类信息可能是合理的
- 向过去喜欢幻想小说的人推荐幻想小说
我们需要什么:
- 有关可用项目的一些信息,例如类型(“内容”)
- 描述用户喜欢的某种用户配置文件(首选项)
任务:
- 了解用户偏好
- 查找/推荐与用户首选项“相似”的项目
推荐过程
对于文本信息提取的时候会使用到 TF-IDF 算法
物品资料
为每个物品创建一个物品资料
物品资料是一组特征(向量):
- 电影:作者,标题,演员,导演,…
- 文本:文档中的一组“重要”词
如何选择重要功能?以文本挖掘为例,我们通常使用启发式方法为 TF-IDF 算法
- 词:功能
- 文档:项目
用户资料
用户资料的可能形式:
- 特定物品资料的加权平均值
- 差异:权重与平均评分的差异
预测启发式:给定用户资料 x 和项目资料 i,估算余弦相似度为$u(x,i) = cos(x,i) = \frac{x*i}{||x|| * ||i||}$
基于内容方法的优点
- 无需其他用户的数据:无冷启动或稀疏问题
- 可以向口味独特的用户推荐
- 可以推荐不受欢迎的新商品
- 能够提供解释:可以通过列出导致推荐项目的内容功能来提供推荐项目的说明
- 需要设置衰减机制来模拟喜好的变更
基于内容方法的缺点
- 很难找到合适的功能:例如图像,电影,音乐
- 对新用户的建议:如何建立用户档案?
- 过度专业化:
- 绝不推荐用户资料之外的项目
- 人们可能有多种兴趣
- 无法利用其他用户的质量判断
讨论和总结
- 与基于协同过滤的推荐方法相反,基于内容的推荐方法不需要用户数据即可工作
- 提出的方法旨在基于显式或隐式反馈来学习用户兴趣偏好的模型:从用户行为中获取隐式反馈可能会出现问题
- 评估表明,借助机器学习技术可以实现良好的推荐准确性:这些技术不需要用户社区
- 存在推荐列表包含太多相似物品的危险
- 所有学习技术都需要一定数量的训练数据
- 一些学习方法倾向于过度拟合训练数据
- 在商业环境中很少发现基于纯内容的系统
基于知识的推荐系统
往往是基于情景或者限制条件
基本的 I/O 关系
基于知识的推荐系统:会告诉用户为什么会推荐给你这个
为什么我们需要基于知识的推荐系统
- 可用评分较低的产品:也就是可能其他用户都不喜欢,但是你可能会喜欢。
- 时间跨度起着重要作用:时间变化会影响用户的口味
- 五年的计算机评级
- 用户生活方式或家庭情况的变化
- 客户想要明确定义他们的需求:“汽车的颜色应该是黑色的”
基于知识的推荐系统的分类
基于约束:
- 基于明确定义的推荐规则
- 履行推荐规则
基于案例:
- 基于不同类型的相似性度量
- 检索与指定要求相似的物品
两种方法的推荐过程相似:
- 用户指定要求
- 系统尝试确定解决方案
- 如果找不到解决方案,则需要用户自行更改要求
基于约束的推荐系统
基于知识:
- 通常在用户模型和物品属性之间进行折中
- 变量:用户模型功能(需求),物品功能(目录)
- 约束集
- 逻辑含义(如果用户要求 A,那么建议的物品应具有特征 B)
- 硬约束和软约束/加权约束
- 解决方案偏好
得出一组推荐项:
- 满足一系列适用约束
- 约束的适用性取决于当前的用户模型
- 概要-推理的透明线
基于约束的推荐任务
- 查找一组用户要求,以使一部分物品满足所有约束:询问用户应该放宽/修改哪些要求,以使某些物品不违反任何约束条件
- 查找满足加权约束最大集的物品子集:
- 类似于查找最大后继子查询(XSS)
- 所有推荐的物品都必须满足相同的约束条件
- 根据预定的权重计算缓冲区
- 根据满足的软约束权重对项目进行排名
- 根据满足的比率对项目进行排序
- 不需要额外的排名方案
基于约束的推荐系统问题
从一个分类中选择出符合用户要求的一个产品
用户的要求一般会用自然语言进行描述,例子如下:
- 价格应该比 300 块钱低
- 相机应该能够适用于运动摄影
核心是我们如何将自然语言转化为几个关键词
满足约束的问题
- 具有陈述性知识表示的基于知识的 RS,$CSP(X_1 \cup X_U,D,SRS \cup KB \cup I)$
- 定义:
- $X_j, X_U$:描述具有域 D 的产品和用户模型的变量
- KB:具有域限制的知识库
- SRS:用户的特定要求
- l:产品目录
- 解决方案:满足您的要求$\theta\ \forall x \in X_1 (x = v) \in \theta \cap \in dom(x)\ s.t.\ SRS \cup KB \cup I \cup \theta$(令人满意)
连接查询
- 与约束求解器不同:它不是为 CSP 找到有效的实例
- 连接查询在物品目录中执行。
- 联合数据库查询
- 一组连接在一起的选择标准
- $O[criteria] P$
- P:产品分类
- 例如:$\deltampix210,pic30-0= {p4,p7}$
和基于约束的推荐者进行交互
用户明确了他或她最初的偏好:
- 一次全部指出
- 以向导的方式完成
- 对话交互
一组符合的物品被展示给用户:一般会有为什么会推荐这个物品给用户的解释
用户可能会修改他或她的需求:
- 查看可替代的解决方案
- 缩小满足条件的物品的数量
默认值
支持用户选择有合理的替代方案:
- 支持客户选择合理的替代方案。 不确定选择哪个选项
- 根本不知道技术细节
默认类型:
- 静态默认值
- 依赖默认值
- 派生的默认值
选择下一个问题:
- 大多数用户对指定所有属性的值不感兴趣
- 识别用户可能感兴趣的属性
找不到满足要求的结果
- 找不到解决方案
- 放松约束条件:
- 目的是确定对原始约束的放宽
- 放宽推荐问题的约束,直到找到相应的解决方案
- 用户也可能对替换建议感兴趣:推荐者可以通过适应提意见的要求来计算解决方案
处理不满足的要求
- 计算并诊断不满足的要求
- 诊断从冲突集合中派生出来:${CS, CS, CS}$是{d:{r, r}, d:{r, r}, d:{r, r}}
基于案例的推荐系统
- 使用相似性度量检索项。
- 距离相似性
$$
similarity(P, REQ) = \frac{\sum\limits_{r \in REQ} w_i * sim(p, r)}{\sum\limits_{r \in REQ w_r}}
$$
- 定义:
sim(p,REQ)
表示每个商品属性值$\phi(p)$与客户需求的距离$r \in REQ$- w 是要求 r 的重要性权重
- 在现实世界中,客户希望:
- 最大限度地利用某些属性。例如,越多越好(MIB)
- 最小化某些属性。例如相机的价格,少即好(Lib)
与基于案例的推荐者进行交互
- 客户可能不知道他们在寻找什么
- 标记(收藏)是支持此类导航的有效方法
- 客户指定其当前物品(输入物品)无法满足的更改请求(价格或 mpix)
多标记(收藏)
- 操作多个属性可以提高推荐对话框的效率
动态标记
- 关联规则挖掘
- 动态标记的基本步骤:
- $q$:最初的一组要求
- $CI$:所有可用项目
- $K$:复合评论的最大数量
- $\sigma_{min}$:计算的关联规则的最小支持值。
示例:销售对话金融服务
- 在金融服务领域:
- 销售代表不知道应该推荐哪些服务
- 提高销售代表的整体生产力
- 类似于呼叫中心脚本:
- 最佳实践销售对话
- 状态,谓词的过渡
- 研究成果:支持 KA 和验证,节点属性(可达,可扩展,确定性)
示例:标记
- 项目空间中基于相似度的导航
- 复合标记:
- 比单元批判更有效的导航
- 频繁模式的挖掘
- 动态标记:仅提出适用的复合标记
- 渐进标记:考虑历史
- 适应性建议:建议可以最优化用户偏好模型的项目
总结
基于知识的推荐系统可以分为以下两部分:
- 基于约束的推荐系统
- 基于案例的推荐系统
约束:
- 知识获取的代价
- 从领域专家获取
- 从用户获取
- 从网络资源获取
- 推荐模型的准确性
- 非常精细的偏好模型需要交互多次
- 协同过滤模型隐式偏好
独立性假设可能会受到挑战:偏好并不总是彼此独立的
混合推荐系统
混合推荐系统引入
- 实施两个或更多不同的推荐人并结合预测:也许使用线性模型
- 将基于内容的方法添加到协作过滤中:
- 新物品问题的物品资料
- 应对新用户问题的人口统计数据
混合推荐系统概述
- 混合推荐系统:混合了多种输入或者结合不同的机制
- 协同过滤:告诉我在我的相似同类中他们喜欢的是什么
- 基于内容:展示给我还会继续喜欢的一类东西
- 基于知识:告诉我什么满足我现在的需求
- 所有三个基本技术均由优秀的销售助理(销售行为的不同阶段)完美地合并在一起,但有其缺点,例如冷启动问题
- 跨越两个(或多个)类型/实现的想法
- hybrida[lat.]:表示通过组合两个不同元素制成的对象
- 避免某些缺点
- 达到亲本个体不存在(或仅不一致)的理想特性
- 不同的混合设计
- 并行使用多个系统
- 整体开发的不同功能
- 管道调用不同的系统:输入作为输出
单一混合设计
- 只有一个简单的推荐组件
- 混合是虚拟的,因为不同范式的特征/知识源已组合在一起
单一混合设计:特征合并
- 多种知识来源的合并:比如评分、人口统计学信息或明确描述的需求,并且需要被应用到相似度计算上去
- 混合内容特征
- 社交特征:被用户喜欢的电影
- 内容特征:被用户喜欢的戏剧,被用户喜欢的喜剧
- 混合特征:用户喜欢很多喜剧电影
- 结合知识工程的努力,其中涉及发明良好的功能以实现成功的学习
单一混合设计:特征扩充
- 内容驱动的协同过滤:
- 例如,爱丽丝喜欢物品 1 和 3(单维度评级)
- 物品 7 与 1 和 3 相似度为 0.75
- 爱丽丝喜欢物品 7 的可能为 0.75
- 物品矩阵变得稀疏
- 重要性加权和调整因子:
- 同等物品的同行更重要
- 如果自己的评分更高,则对基于内容的预测的置信度更高。
- 例如,爱丽丝喜欢物品 1 和 3(单维度评级)
- 对研究论文的推荐,引用被解释为协同推荐
并行混合设计
- 输出是几种已经存在的实现的合并
- 最低侵入性设计
- 有些是权重或者投票的模型
- 权重会被动态学习到
- 动态加权的极端情况正在改变
并行混合设计:加权
- 根据权重计算和:$rec_{weighted}(u, i) = \sum\limits_{k=1}\limits^n\beta_k * rec_k(u, i)$
- 我们如何生成权重
- 经验引导
- 需要历史数据
- 计算不同的权重
- 确定哪一个人是最好的
- 动态调整权重
- 从均匀分布的权重开始
- 对每个用户,调整权重以最大化地减少预测误差
- 经验引导
- 假设爱丽丝实际上购买/点击了项目 1 和 4:确定最小化平均绝对误差(MAE)的权重
- 随着 rec2 的权重增加,MAE 会提高
$$
MAE = \frac{\sum\limits_{r_i \in R }\sum\limits_{k = 1}\limits^n \beta_k * |rec_k(u, i) - r_i|}{|R|}
$$
下图中左侧红色框是权重,右侧红色框是 MAE
- 但是:res1 是不是实际上将物品 1 和 4 的排名提高了?
- 加权时要小心!
- 推荐者需要为所有用户和项目分配可比分数
- 可能需要对分数进行转换
- 稳定的权重需要多个用户评价,而不是一个或者两个
并行混合设计:转换
- 需要一个决定推荐人的决定
$$
\exists_1 k:1…n\ rec_{switching}(u, i) = rec_k(u, i)
$$
- 动态权重的特殊情况(除了一个 Beta 为 0 以外,所有其他值)
- 例如:
- 根据一些质量标准订购推荐产品并进行转换,例如:如果系统中的评分太少,则使用基于知识的评分,否则进行协作
- 基于上下文参数的更复杂条件,应用分类技术
并行混合设计:混合
- 根据用户接口的级别混合不同推荐系统的结果
- 不同技术的结果被一并表示
- 用户 u 和物品 i 的推荐结果是为其 n 个构成推荐者的每个元组
<score, k>
的集合
$$
rec*{mixed} =\bigcup*{k = 1}^n<rec_k(u, i), k>
$$
管道混合设计
- 一个推荐系统预处理一些输入在子过程中完成
- 级联:重定义推荐名单,逐步求精
- 元数据:学习模型
管道混合设计:级联级别
- 成功的推荐会被预处理其限制
$$
rec_{cascade}(u, i) = rec_u(u, i)
$$
- 对于所有的 k > 1
$$
reck(u,i) = \begin{cases}
rec{u, i}: rec_{k - 1} \neq 0\
0: otherwise \
\end{cases}
$$
- 后续推荐者可能不会引入其他项目,从而产生非常精确的结果
- 推荐清单不断减少第一推荐人排除项目:删除绝对不可行的项目(例如基于知识的项目)
- 第二推荐者分配分数:排序和完善(例如协作)
管道混合设计:元数据级别
- 成功的推荐会被预处理其限制
$$
rec*{meta-level}(u, i) = rec*{n}(u, i, \triangle*{rec*{n-1}})
$$
- 例子:Fab:
- 在线新闻领域
- CB 推荐器基于加权术语向量构建用户模型
- 协同过滤根据这些用户模型识别相似的对等方,但根据评分提出建议
- 基于协作约束的元级推荐系统
- 协同过滤学习约束基础
- 基于知识的推荐系统计算建议
混合策略的限制
- 从元视角比较策略的推荐系统寥寥无几
- 大多数数据集不允许比较不同的推荐范例
- 即仅在单个数据集中很少提供的评分、要求、项目功能、领域知识、评论
- 因此,很少有经验结论支持的结论
- 整体式:以一些预处理工作为代价以换取更多知识
- 并行式:需要仔细匹配来自不同预测变量的得分
- 流水线:适用于两种对立的方法
- Netflix 竞赛:“堆叠”推荐系统
- 基于>100 个预测变量的加权设计:推荐功能
- 基于用户模型,上下文和元功能的权重自适应切换
可解释性
推荐系统的解释动机
- 数码相机对您来说是必买的,因为…
- 推荐系统为什么要完全处理解释?
- 答案与提供和接收建议的两方有关
- 卖方可能对促销特定产品感兴趣"买方担心做出正确的购买决定
推荐系统的解释分类
- 功能性:Rising-Sun 品牌的 Jumbo-Family-Vvan 汽车类型非常适合您的家庭,因为您有四个孩子,汽车有七个座位。
- 因果上:灯泡亮是因为您打开了它。
- 固定的:我洗碗是因为我哥哥上次洗碗了、你必须做功课,因为你父亲这么说。
- 科学的解释:表达了在各个科学领域制定的概念之间的关系,并且通常基于可辩驳的理论
什么是推荐系统的解释?
- 解释一些目标后系统输出的其他信息
提供解释的目的
- 前述产生解释的目的可以相互关联
- 说服力+
->
信任- - 有效性+
->
信任+
透明度
- 提供信息,以便用户理解
- 提供关于为何一项优先于另一项的说明
可靠性
- 给用户检查推荐的可靠性
- 不一定与透明度有关。例如,神经网络(NN)决定产品符合要求。 透明地公开 NN 的计算将无济于事,但是通过比较所需功能和提供的产品功能,客户可以判断建议的质量
诚信度
- 建立信任可以被视为减少不确定情况下人类决策复杂性的一种机制
- 减少建议质量的不确定性
说服力
- 对建议的有说服力的解释旨在改变用户的购买行为
- 例如,推荐人可能故意关注产品的正面方面,并对各种负面方面保持沉默
有效期
- 用户获得的高质量决策支持
- 帮助客户发现他或她的喜好
- 帮助用户做出更好的决定
效率
- 减少决策工作量
- 减少决策所需的时间
- 另一个措施也可能是认知努力
满意
通过使用推荐系统提高总体满意度
相关性
- 对话推荐者可能需要其他信息
- 可以提供解释以说明为什么需要用户提供其他信息的理由
可理解性
- 推荐人永远无法确定其用户的知识
- 通过将用户的已知概念与推荐者采用的概念相关联来支持用户
教育性
- 教育用户以帮助他们更好地了解产品领域
- 对领域的深入了解可帮助客户重新考虑自己的偏好,并评估不同解决方案的利弊
- 最终,随着客户的了解越来越多,他们能够做出更明智的购买决定
总体解释
- 如何、为什么?使用专家系统解释
- 归纳整理的形式
- 给定$KB \rightarrow_{RS} i$,表示物品 i 被推荐系统 RS 使用方法推荐了
- 找到$KB’ \subseteq KB s.t. KB’ \models_{RS} i$
- 简洁的原理:对于最小集合$KB’ \subseteq KB s.t. KB’ \not\models_{RS} i$
- 但是添加过滤:与扣除有关的某些部分对于人类可能是显而易见的
用于在推荐系统中生成解释的分类法
当前解释组件的主要设计维度
- 生成的推理模型的类别
- 白盒
- 黑盒
- 推荐系统用于生成解释的范例:决定容易丢失的语义
- 信息类别
KB 的原型
- 对象类别
- 用户
- 项目
- 属性
- 他们之间的 N 元关系
- 协同过滤
- 基于邻域的 CF(a)
- 矩阵分解(b):引入其他因素代理来确定相似性
示例
- 项目之间的相似性
- 用户之间的相似性
- 标签
- 标签相关性(针对项目)
- (用户的)标签首选项
基于协同过滤的推荐系统的解释
- 没有明确的推荐知识
- 基于协同过滤的推荐无法提供关于为何产品适合客户或者为什么产品不符合客户要求的解释
- 协同过滤的基本思想是模仿人类口碑推荐过程
- 因此,请全面了解此口碑传播方法的工作原理:
- 客户评价产品
- 将具有相似等级(即口味)的顾客称为邻居
- 未通过客户评级的产品通过结合客户邻居的评级来评级
评估说明接口
- Herlocker 等检查了 MovieLens 系统域中解释接口的各种实现方式
- 评估了 21 个辩题
- 顾客以 1 到 7 的比例被问及,通过二十一种不同的解释方法之一介绍并解释了这部电影的推荐后,他们去看推荐电影的可能性有多大
- 他们还包括没有提供其他解释数据的基本案例。
- 除基本情况外,还设计了一个解释界面,该界面仅输出推荐系统的过往性能:例如,在过去的 80% 的时间内,MovieLens 为您提供了精确的报价
Herlocker 的研究结果
- 最佳解释界面基于邻居的等级
- 在这些情况下,相似的邻居喜欢推荐的影片,并且这部影片的介绍很深刻。直方图的表现优于表格
- 推荐人使用有关 MovieLens 过去表现的简单陈述获得第二好的表现
- 与内容相关的论点提到与其他高评价电影或喜欢的男演员或女明星的相似性,是表现最佳的演员
- 即使与基本案例相比,不良的解释界面设计也降低了客户遵循建议的意愿
- 信息过多会产生负面影响;通过将直方图中显示的数据与有关邻居的邻近性的信息进行混合来实现较差的性能
- 有趣的是,由电影评论家等领域权威机构提供评级的推荐建议并没有增加接受度
基于案例的推荐系统的解释
- 通过确定最适合客户查询的产品来实现基于案例的建议中解决方案的生成
- 产品数据库的每个物品对应一个案例
- 客户查询限制了物品的属性,例如,客户只对价格低于一定金额的数码相机感兴趣
基于约束的推荐系统的解释
- 回答客户可能提出的两个典型问题(Buchanan 和 Shortliffe 1984)
- 为什么解释?如果推荐过程需要客户的输入,则客户可以问为什么需要此信息
- 解释?当推荐人提出一套解决方案(例如产品)时,客户可能会要求解释为什么提出的解决方案对他或她有利
- 接下来,我们通过利用基于约束的系统的推理方法来研究回答这两种类型问题的方法
汽车领域的例子
- 两种不同的包装可供汽车使用
- 商务套餐
- 娱乐套餐
- 客户基于以下功能表达要求:轻松停车,拖曳和免提移动通信
- 客户可以决定是否要使用其中一个,两个或两个都不包装
- 休闲套餐
- 包括用于拖曳拖车的连接装置和位于汽车后部的摄像机,使驾驶员能够确定到汽车后面障碍物的距离
- 本相机支持以客户为导向的产品功能,易于停车
- 商务套餐
- 包括带有 GSM 电话的收音机(GSM 收音机),支持免提移动通信
- 在后保险杠中包括一个传感器系统,该系统还支持轻松停车
- 但是,由于技术原因,传感器系统与娱乐套件不兼容
- 从客户的角度来看,摄像机和传感器系统提供相同的功能。因此,如果客户订购商务套票和休闲套票,则该汽车包括摄像机,该摄像机实现了便捷的停车功能
- 在这种配置中,不仅禁止使用传感器(因为它们与耦合设备不兼容),而且还可以免除
推荐系统解释性总结
- 解释可以有多种类型,并且可以实现各种目标
- 可以产生哪种类型的解释很大程度上取决于所采用的推荐方法
- 解释可以用来塑造顾客的愿望和愿望,但它是一把双刃剑。
- 一方面,解释可以帮助顾客做出明智的购买决定
- 另一方面,可以滥用解释将客户推向仅对卖方有利的方向
- 因此,对说明的深入理解和他们对客户的关注引起了极大的兴趣。
度量与评估
评估推荐系统
- 评估推荐系统
- 已经提出了无数种技术,但是在给定的应用程序域中哪一个最好?
- 不同技术的成功因素是什么?基于最优准则的比较分析?
- 研究问题是:
- 相对于特定标准(例如准确性,用户满意度,响应时间,偶然性,在线转换,加速工作等),Isa RS 效率很高。
- 顾客喜欢/购买推荐商品吗?
- 客户是否会购买原本不会购买的商品?
- 购买后是否满意推荐?
实证研究
表征尺寸:
- 谁是研究的重点对象?
- 采用了哪些研究方法?
- 研究在哪个背景下进行?
学科 | 在线客户,学生,基于足迹的在线进程、计算机 |
---|---|
研究方法 | 实验,准实验,非实验研究 |
设置 | 实验室,真实场景 |
评估设置
- 实验室研究
- 专为研究目的而创建
- 通过选择研究参与者,可以更轻松地控制外部变量,但是对于金钱或奖品激励的参与者可能存在疑问
- 参与者的行为应与现实环境中的行为一样
- 实地研究
- 在预先存在的真实环境中进行
- 激发用户使用系统的内在动力
研究方法:实验与非实验(观测)研究方法
- 实验(测试,试验):
- 一项实验是对至少一个变量进行操作并将单位随机分配给不同级别或类别的受控变量的研究。
- 单位:用户,历史数据
- 控制变量:推荐系统类型、推荐一组物品、解释策略
- 控制变量类别:基于内容的推荐系统,基于协同过滤的推荐系统
实验设计
信息检索(IR)中的评估
- 克兰菲尔德历史藏品(1950 年代末)
- 1,398 篇期刊摘要
- 225 个查询
- 详尽的相关性判断(超过 30 万)
- 人类领域专家建立的地面真理
指标:准确率和回归率
- 推荐被视为信息检索任务:检索(推荐)所有预计为“良好”的物品。
- 精度:精确度的度量,确定所检索到的相关项目在所有检索到的项目中所占的比例:例如,推荐的电影中实际上很不错的比例
$$
Precision = \frac{tp}{tp + fp} = \frac{|被推荐的好电影|}{|所有被推荐的|}
$$
召回:完整性的度量,确定所有相关项目中相关项目的分数:例如,所有推荐的好电影的推荐
$$
Recall = \frac{tp}{tp + fn} = \frac{|被推荐的好电影|}{|所有好电影|}
$$
- 通常,当调整推荐系统以提高准确性时,召回率因此降低(反之亦然)
$F_1$度量
- $F_1$指标尝试将 Precision 和 Recall 合并为一个值以进行比较:可用于获得更平衡的性能视图
$$
F*1 = 2 * \frac{precision _ recall}{precision + recall}
$$
- $F_1$指标对精度和召回率给予同等的重视:其他$F_\beta$指标的权重召回系数为$\beta$。
指标:排名很重要
排名指标可提高召回率和准确性,以考虑排名列表中正确项目的位置
- 相关项物品在推荐列表中较早出现时会更有用
- 在推荐系统中尤为重要,因为排名较低的物品可能会被用户忽略
推荐系统中的评估
- 带有用户评分项目的数据集:
- MovieLens 数据集 100K 10M 评级
- Netflix 100M 评级
- 历史用户评级构成了基本事实
- 指标衡量错误率
- 平均绝对误差(MAE)计算预测等级与实际等级之间的偏差
- 均方根误差(RMSE)与 MAE 相似,但更着重于较大的偏差
$$
\begin{array}{l}
MAE = \frac{1}{n}\sum\limits*{i=1}\limits^n|p_i - r_i| \
\ \
RASE = \sqrt{\frac{1}{n}\sum\limits*{i=1}\limits^n(p_i - r_i)^2}
\end{array}
$$
建立基本事实的困境
- IR 度量经常被使用
离线实验 | 在线实验 |
---|---|
评级,交易 | 评分,反馈 |
历史数据,并非所有的推荐物品都是被评级的 | 在线数据,所有的推荐物品都是被评级了的 |
未评级的商品的未知,但是会被解释为坏的(默认假设是用户只会购买评分高的商品) | 未推荐的物品的好坏是未知的 |
如果默认假设不成立,真正性可能很小,真负性可能很小 | 假负性和真负性不能被确定 |
准确率偏高,召回率可能有多种情况 | 准确率尚可,召回率存疑 |
结果表明,对在线用户的行为缺乏准确性。
离线实验
- Netflix 竞争
- 基于网络的电影租赁
- 和目前已有的电影
- 历史数据集
- 约 480K 用户
- 约 18K 影片,被在 1-5 之间评分
- 约 100M 的评分
- 最后 9 个评分/未显示用户
- 训练集(概率集)-用于评估的团队
- 测验集-评估团队提交的排行榜
- 测试集-Netflix 用于确定获胜者
方法论
- 设置以确保内部有效性:
- 随机选择一部分已知等级(训练集)作为输入来训练算法和建立模型
- 通过模型,系统可以在运行时计算建议。
- 评估模型质量所需的保留评级(测试集)的剩余份额
- 为了确保测量的可靠性,随机拆分,模型建立和评估步骤重复了几次
- N 折交叉验证是分层随机选择程序
- 确定大小相等($\frac{1}{5}$)的 N 个已知等级的分离分数
- N 次重复的模型构建和评估步骤,其中每个分数仅一次用作测试集,而其他分数则用于训练
- 将 N 设置为 5 或 10 很受欢迎
结果分析
- 观察到的差异在统计上有意义还是由于偶然?
- 测试两个偏离度量标准的统计显着性的标准程序是方差成对分析(ANOVA)
- 零假设 H0:观察到的差异是由于偶然
- 如果测试统计结果拒绝 H0,则可以报告发现的重要性
- 差异的实际重要性?
- 影响的大小及其实际影响
- 所观察到的影响的外部有效性或普遍性
在线实验
- 不同算法推荐手机游戏的效果
- 在商业移动互联网门户网站上吸引了 15 万用户
- 推荐方法比较
- 随机分配用户给具体方法…
实验设计
- 在评估期间,从访问者那里提取了代表性的样本 155,000 个客户
- 这些被分为 6 组,大约有 22,300 个客户
- 注意确保客户档案中包含所有变体的足够信息(评级)以提出建议
- 选择组来代表相似的客户群
- 提供了 1,000 种游戏的目录
- 使用范围从-2 到+2 的五点评分量表对项目进行评分:由于明确等级的数量少,因此将游戏的“详细信息”链接单击为隐式" 0"等级,将购买解释为" 1"等级
- 个性化推荐与非个性化推荐技术的假设及其在
- 提高转化率(即成为购买者的用户份额)
- 刺激额外购买(即增加平均购物篮大小)
无实验研究
- 准实验:缺乏随机分配给不同的单位
- 非实验/观察研究
- 调查/问卷
- 纵向研究
- 长时间观察
- 例如客户终生价值,回头客
- 实例探究
- 专注于回答有关如何以及为什么的研究问题
- 例如回答类似的问题:如何推荐技术为 Amazon.com 做出了贡献,成为了全球最大的图书零售商?
- 焦点小组
- 面试
- 考虑 aloud 协议
准实验
- Ski- Europe.com 推出的 SkiMatcher Resort Finder,可根据用户的喜好向用户提供建议
- 会话型 RS
- 问答对话框
- 用户偏好与知识库的匹配
- 2001 年,德尔加多和戴维森(Delgado and Davidson)在 4 个月的时间内评估了推荐人的有效性:被归类为准实验,因为用户自行决定是否要使用推荐器
解释结果
- 此研究设计的性质意味着无法回答因果关系问题(缺少随机分配),例如
- 推荐系统的用户更有可能转化吗?
- 推荐系统本身是否会引起用户转换? 一些隐藏的外生变量可能会影响使用 RS 的选择以及转换。
- 但是,在使用推荐系统和提出建议之间存在重大关联
- 影响范围已在其他领域复制
- 旅游
- 电子消费产品
什么是受欢迎的
- 对历史数据集测量准确性的评估
- 最受欢迎的数据集
- 电影(MovieLens,EveryMovie,Netflix)
- Web 2.0 平台(标签,音乐,论文等)
- 最受欢迎的准确性度量
- 精度/召回率:项目分为好或坏
- MAE(平均绝对误差),RMSE(均方根误差):物品按给定的等级进行评分
- 数据的可用性严重影响了所做的工作
- 在 RecSys 会议上进行男高音,以促进现场实验
- 支持 A / B 测试的公共基础架构
- 文献中的定量调查
- 有关 IS 和 IR 的高级期刊
- 信息系统 ACM 交易
- 评估设计 ACM TOIS 2004-2010
- 总共有 15 条关于 RS 的文章
- 近 50% 的电影领域
- 80% 的离线实验
- 在实验室条件下的 2 个用户实验
- 1 个定性研究
讨论和总结
- 介绍了经验研究的一般原理以及评价推荐技术的实践现状
- 专注于如何对历史数据集进行经验评估
- 讨论用于衡量建议准确性或覆盖范围的不同方法和度量标准。
- 在实践中通常会使用哪些研究设计的概述。
- 从技术角度来看,测量预测的准确性是公认的评估目标:但是其他可能会严重影响推荐系统总体效果的其他方面在很大程度上尚不完善
重要并且实际的建议
评估
- 将预测与已知评级进行比较
- 均方根误差(RMSE):$\sqrt{\sum\limits_{xi}(r_{xi} - r_{xi}^*)^2}$,其中$r_{xi}$为预测值,$r_{xi}^* $是 x 在 i 上的真实评级
- 预测前 10 位
- 排序相关性:Spearman 相关性在系统和用户完整排名之间
- 另一种方法:0/1 模型
- 承保范围:系统可以预测的项目/用户数
- 精度:预测的准确性
- 接收器工作特性(ROC):误报与误报之间的折衷曲线
错误矩阵
- 仅仅关注准确率有时候会丢失重点
- 预测多样性
- 预测上下文
- 预测顺序
- RMSE 可能会惩罚一种对高评级有效而对其他不利的方法
复杂度和速度
- 昂贵的步骤是找到 k 个最相似的客户:$O(|X|)$
- 在运行时执行成本太高:可以预先计算
- 朴素的预计算需要时间$O(k * |X|)$:X:客户群
- 我们已经知道该怎么做!
- 高维(LSH)的近邻搜索
- 聚类
- 降维
添加数据
- 利用所有数据
- 请勿尝试减少数据大小以使精美算法发挥作用
- 处理大数据的简单方法最有效
- 添加更多数据例如,在流派上添加 IMDB 数据
Netflix 比赛(没讲)
- 训练集:
- 1 亿评分,480,000 用户,17,770 电影
- 使用了六年的数据:2000-2005
- 测试集
- 最后 2,800,000 用户的评分信息
- 评估效果:RMSE(Root Mean Square Error):$=\frac{1}{|R|}\sqrt{\sum\limits_{(i, x)\in R}(\hat{r_{xi}} - r_{xi})^2}$
- Netflix 系统 RMSE:0.9514
- 比赛:
- 2,700+团队
- 1,000,000 奖励给为 Netfix 达到 10% 提升的团队
BellKor 推荐系统
- Netfix 挑战的获胜者
- 数据的多尺度建模:将数据的顶级“区域”建模与精致的本地视图结合起来:
- 全球:用户/电影的总体偏差
- 因式分解:解决“区域性”影响
- 协同过滤:提取局部模式
局部建模和全局提升
- 全局上
- 平均影片评分为 3.7 星
- 电影第六感比平均分要高 0.5 星
- Joe 打分比平均分低 0.2 星
- 可以推断出来:Joe 给电影第六感打分 4 星
- 局部邻居(CF/NN):Joe 不喜欢相关的电影 Signs,最终推断出来 Joe 会给电影第六感打分 3.8 分
CF:协同过滤
- 最早和最受欢迎的协作过滤方法
- 从“相似”电影(项目-项目变体)中获得未知的评级
- 定义项目 i 和 j 的相似性度量$s_{ij}$
- 选择 k 个最近的邻居,计算等级:$N(i; x)$:与 x 评级最相似的项
$$
\hat{r*{xi}} = \frac{\sum\limits*{j \in N(i; x)}s*{ij} * r*{xj}}{\sum\limits*{j \in N(i; x)} s*{ij}}
$$
- $s_{ij}$:项目 i 和 j 的相似性
- $r_{xj}$:用户 x 对项目 j 的评级
- $N(i; x)$:与 x 评分的与项目 i 相似的项目集
- 实际上,如果我们能得到更好的估计
模型偏差:
$$
\begin{array}{l}
\hat{r*{xi}} = b*{xi} + \frac{\sum\limits*{j \in N(i; x)} s*{ij} * (r*{xj} - b*{xj})}{\sum\limits*{j \in N(i; x)}s*{ij}} \
b_{xi} = \mu + b_x + b_i \
\end{array}
$$
- 问题/问题:
- 相似性度量是“任意的”
- 成对相似性忽略了用户之间的相互依赖性
- 取加权平均值可能是限制
- 解决方案:代替$s_{ij}$,使用我们直接根据数据估算的$w_{ij}$
想法:使用权重$w_{ij}$来修正
- 使用权重和而不是权重均值
$$
\hat{r*{xi}} = b*{xi} + \sum\limits*{j \in N(i;x)} w*{ij}(r_{xj} - b{xj})
$$
- 注意点
- $N(i; x)$:用户 x 评分与电影 i 类似的电影的集合
- $w_{ij}$是插值权重(一些实数),我们允许$\sum\limits_{j \in N(i;x)} w_{ij} \neq 1$
- $w_{ij}$模拟电影对之间的对应(不取决于用户 x)
- 如何设置$w_{ij}$
- 误差矩阵:
- $\frac{1}{|R|}\sqrt{\sum\limits_{(i, x)\in R}(\hat{r_{xi}} - r_{xi})^2}$
- 或者等效 SSE:$\sum\limits_{(i, x)\in R}(\hat{r_{xi}} - r_{xi})^2$
- 找到$w_{ij}$在训练集上最小化 SSE
- $w_{ij}$可以根据 x 和其他所有对 i 进行评级的用户来学习/估算
优化推荐问题
- 目标:完成好的推荐
- 使用 RMSE 量化优势:
- 降低 RMSE => 更好的建议
- 希望对用户尚未看到的项目提出好的建议。实际做不到!
- 假设建立一个可以在已知(用户,物品)评分上正常运行的系统,并希望该系统也能很好地预测未知评分
- 想法:让我们设置值 w,使其在已知(用户,商品)评分上正常运行
- 如何找到这样的值 w?
- 想法:定义目标函数并解决优化问题
- 找到可将训练数据上的 SSE 降至最低的$w_{ij}$!
$J(W) = \sum\limits_{x, i}([b_{xi} + \sum\limits_{j \in N(i; x)} w_{ij}(r_{xj} - b_{xj})]-r_{xi})^2$
差值权重
- 我们有一个优化问题,如何解决呢?梯度下降法
- 迭代直到收敛:$w\leftarrow w - \eta \triangledown_w j$
- 收敛是指:$|w_{new} = w_{old}| \leq \epsilon$
- $\triangledown_w j$是梯度
$$
\begin{array}{l}
\triangledownw j = [\frac{\delta J(w)}{\delta w{ij}}] = 2\sum\limits*{x, i}([b*{xi} + \sum\limits*{j \in N(i; x)} w*{ij}(r*{xj} - b*{xj})]-r*{xi})(r*{xi} - b*{xj}) \
for\ j \in {N(i;x),\forall i, \forall x} \
else\ \frac{\delta J(w)}{\delta w*{ij}} = 0 \
\end{array}
$$
-
我们为每一个电影 i,计算到$r_{xi}$,对于每一个电影$j \in N(i;x)$,我们计算梯度
-
到目前为止,$\widehat{r_{xi}} = b_{xi} + \sum\limits_{j \in N(i;x)} w_{ij}(r_{xj} - b_{xj})$\
- 权重$w_{ij}$是来自其作用的,不使用任意相似性度量($w_{ij} \neq s_{ij}$)
- 明确说明相邻电影之间的相互关系
-
之后:明确考虑潜在因子模型之间的相互关系,提取邻近电影的“区域”相关性
不同方法的表现
潜在因素模型(比如 SVD)
- “SVD” on Netflix data: $R \approxeq Q*P^T$
- 现在,假设我们可以将评分矩阵 R 近似为“薄” $Q*P^T$的乘积:R 缺少条目,但现在暂时忽略吧!基本上,我们希望重建误差在已知等级上要小一些,而我们不在乎缺失值上的值
找到潜在因素
潜在因素模型
- 我们的布标是找到 P 和 Q 满足:$\min\limits_{P, Q}\sum_{(i, x) \in R}(r_{xi} - q_i * p_x)^2$
回到最初的问题
- 目标:我们想要在位置的测试集上最小化 SSE
- 想法:最小化培训数据上的 SSE
- 想要大 k(因子数)来捕获所有信号
- 但是,当 k> 2 时,测试数据的 SSE 开始上升
- 这是过度拟合的经典示例:
- 自由度太大(自由参数太多),模型开始拟合噪声:这太适合培训数据,因此不能很好地推广到看不见的测试数据
处理缺失值
- 为了解决过度拟合问题,我们引入了正则化:
- 在有足够数据的情况下允许丰富模型
- 在缺乏数据的地方大幅度缩水
$$
\min\limits*{P, Q} \sum\limits*{training}(r*{xi} - q_ip_x)^2 + [\lambda_1\sum*{x}||px||^2 +\lambda_2\sum\limits{i}||q_i||^2]
$$
- $\lambda_1,\lambda_2$是用户设置的正则化参数
- 我们不在乎目标函数的“原始”值,但我们关注的是达到目标最小值的 P,Q
正则化的作用
随机梯度下降
- 我们想要找到这样子的矩阵 P 和 Q 满足:
$$
\min\limits*{P,Q}\sum\limits*{traing}(r*{xi} - q*{i}p*{x})^2 + [\lambda*{1}\sum\limits*{x}||p_x||^2 + \lambda_2\sum\limits*{i}||q_i||^2]
$$
- 梯度下降算法
- 初始化矩阵 P 和 Q(使用 SVD,假设缺失的评分是 0)
- 进行梯度下降
- $P \leftarrow P - \eta \triangledown P$
- $Q \leftarrow Q - \eta \triangledown Q$
- $\triangledown Q$是矩阵 Q 的梯度/倒数
- $\triangledown D = [\triangledown q_{if}]$ 并且 $q_{if}=\sum_{x, i} - 2(r_{xi} - q_ip_x)p_{xf} + 2\lambda_2q_{if}$
- $q_{if}$是矩阵 Q 的 qi 行的条目 f
- 我们可以发现计算梯度是慢的
- 梯度下降与随机梯度下降
- 观察到:$\triangledown Q = [\triangledown q_{if}] where \triangledown q_{if} = \sum\limits_{x, i} - 2(r_{xi} - q_{if}p_{xf}p_{xf} + 2\lambda q_{if} = \sum\limits_{x,i}\triangledown Q(r_{xi})$,$q_{if}$是矩阵 Q 的 qi 行的条目 f
- $Q = Q - \eta \triangledown Q = Q - \eta[\sum\limits_{x,i} \triangledown Q(x_{xi})]$
- 而不是评估所有等级的梯度,而是针对每个单独的等级对其进行评估,并迈出一步
- GD:$Q = Q - \eta[\sum\limits_{x,i} \triangledown Q(x_{xi})]$
- SGD:$Q = Q - \mu\triangledown Q(r_{xi})$,收敛更快!需要更多步骤,但每个步骤的计算速度都更快
- GD 在每一步都提高了目标函数的值。 SGD 以“嘈杂”的方式提高了价值。GD 收敛所需的步骤更少,但计算所需的时间更长。 实际上,SGD 快得多!
- 随机梯度下降法步骤:
- 使用 SVD,假设缺失值为空,初始化 P 和 Q
- 然后遍历等级(如有必要,多次)并更新系数:
- 对于每一个$r_{xi}$
- 计算代价:$\epsilon_{xi} = 2(r_{xi} - q_i * p_x)$
- 更新:$q_i \leftarrow q_i + \mu_1(\epsilon_{xi} p_x - \lambda_2 q_i$
- 更新:$p_x \leftarrow p_x + \mu_2(\epsilon_{xi} q_i - \lambda_1 p_x$
- $\mu$为学习率
- 对于每一个$r_{xi}$执行,直到收敛
扩展潜在因子模型以包括偏差
建模偏差和相互作用
- $\mu$:整体平均打分
- $b_x$:用户 x 的偏差
- $b_i$:电影 i 的偏差
基线预测器
- 基线预测我们期望用户 x 对电影 i 的评分,即使没有估计 x 对 ior 等电影的态度
将所有的数据放在一起
$r_{xi} = \mu(Overall\ mean\ rating) + b_x(Bias\ for\ user\ x$ + $b_i(Bias\ for\ movie\ i) + q_i * p_x(User-Movie\ Interaction)$
- 例:
- 平均评级:μ= 3.7
- 您是一位重要的评论者:您的评分比平均值低 1 星:bx = -1
- 《星球大战》的平均评级比普通电影高 0.5:bi = + 0.5
- 对《星球大战》的预测评分:= 3.7-1 + 0.5 = 3.2
适配新模型
- 解决问题:
$$
\min*{Q,P}\sum*{(x, i)\in R}(r*{xi} - (\mu + b_x + b_i + q_i * p_x))^2 + (\lambda_1\sum\limits*{i}||qi||^2 + \lambda_2\sum\limits{x}||p_x||^2 + \lambda_3\sum\limits_x||b_x||^2 + \lambda_4\sum\limits_i||b_i||^2)
$$
- 随机梯度下降以查找参数
- 注意:两个偏差$b_x$,$b_i$以及相互作用$q_i$,$p_x$均被视为参数(我们对其进行估算)
不同方法的性能比较
The Netflix Chanllenge:2006-09
用户的时间偏向
- 电影平均收视率突然上升(2004 年初)
- Netflix 的改进
- GUI 改进
- 评级的含义已更改
- 电影时代
- 用户无缘无故喜欢新电影
- 老电影天生就比新电影好
用户时间偏向和影响
- 最初的模型:$r_{xi} = \mu + b_x + b_i + q_i*p_x$
- 为模型添加时间依赖:$r_{xi} = \mu + b_x(t) + b_i(t) + q_i*p_x$
- 使得参数$b_x, b_i$依赖于时间
- 通过线性趋势参数化时间依赖性
- 每个 Bin 对应连续 10 周(bi(t) = b_i + b{i, Bin(t)})
- 添加时间以来到因素上去:$p_x(t)$用户根据时间 t 相关的喜欢变量
最新 30 天
- Ensemble 团队成立
- 排行榜上的其他团队组成一个新团队
- 依靠结合他们的模型
- 快速获得合格分数超过 10%
- 贝尔(BellKor)
- 继续在分数上取得小进步
- 意识到他们与 Ensemble 有直接竞争关系
- 策略
- 两支球队都认真监控排行榜
- 唯一确定改进的方法是提交一组预测
- 这会提醒另一支球队您的最新分数
DDL 前 24 个小时
- 每天最多提交 1 次:在过去 24 小时内只能提交 1 份最终作品
- 在截止日期前 24 小时:奥地利 BellKor 小组成员注意到(偶然),Ensemble 的得分略高于 BellKor 的得分
- 两支球队最后 24 小时疯狂
- 最终优化需要大量的计算机时间
- 经过仔细校准,在截止日期前约一个小时结束
- 最终提交
- BellKor 故意提前 40 分钟提交
- The Ensemble 在 20 分钟后提交最终作品,每个人都在等待
$$
- The Ensemble 在 20 分钟后提交最终作品,每个人都在等待