对话推荐系统的进展与五个关键挑战作者|谢明辉推荐系统旨在从用

文章图片

文章图片

作者 | 谢明辉
推荐系统旨在从用户的交互历史识别出用户的偏好，目前已经在工业界得到广泛应用。但是传统静态推荐模型难以解决两个重要的问题。1 ，用户到底喜欢什么？2 ，为什么用户喜欢一个物品？因为静态的推荐模型缺乏用户的实时反馈和显式指导。
近年来，对话推荐系统正在逐渐解决这两个问题。在对话推荐系统中，系统能够通过自然语言和用户进行动态交互，能识别出用户的精确偏好。虽然对话推荐系统(conversational recommender systems)已经得到一些发展，但是远没成熟。（下文CRS指对话推荐系统）
该篇文章将首先介绍对话推荐系统，然后总结CRS中5个关键挑战：
1 ，基于问题的用户偏好识别。
2 ，多轮对话的策略。
3 ，对话理解和生成。
4 ， Exploration-exploitation trade-offs 。
5 ，评估和用户模拟。文章还对未来有前景的方向进行了展望。
论文链接（已收录于AI open）：https://www.aminer.cn/pub/600fe40f91e011256c955f6a
1
介绍
对话推荐系统的定义
A recommendation system that can elicit the dynamic preferences of users and take actions based on their current needs through real-time multi-turn interactions.
一个有关对话推荐系统的简单举例如下：

文章图片

文章图片

根据用户之前的偏好（喜欢周杰伦的歌），系统进行了推荐。当用户实时反馈后，系统能够轻松的提供新的推荐结果，来满足用户。
通常， CRS由用户交互接口、对话策略模块、推荐引擎三部分组成。用户接口作为用户和机器的交互接口，从用户的对话中提取信息，转化为机器可理解的表示；对话策略模块是CRS的大脑，负责决定识别用户偏好、维持多轮对话和带领话题；推荐引擎负责建模实体间的关系，学习用户偏好，从物品和它的属性中提取信息。CRS的5个关键挑战对应了通用框架中的模块。

文章图片

文章图片

2
CRS的挑战
5个关键挑战和对应的经典方法，如下图。

文章图片

文章图片

基于问题的用户偏好识别
基于问题的偏好识别是通过向用户询问物品或者物品的属性识别出用户的偏好。
询问物品
传统的推荐系统直接向用户询问物品本身，在此基础上，添加与用户的自然语言交互接口，成为对话推荐系统。
基于选择的方法
让用户从待选列表中选择自己喜欢的物品。用户选择偏爱的物品之后，系统根据用户的选择更新推荐。尽可能让候选物品不同。
基于交互推荐的方法
交互推荐主要基于RL；一些研究者将多臂机（MAB）算法应用到CRS；一是因为MAB算法高效，且天然适合对话场景；二是MAB算法能够探索出用户可能喜欢但是从来没有尝试的物品；但基于MAB的算法通常假设用户的偏好在交互过程中保持不变。为了建模动态的偏好和长期效用utility ，一些研究者提出了将DQN(Deep Q-network)和DDPG(deep deterministic
通过直接向用户询问物品来对用户喜好进行建模的方式效率低，因为候选集合往往很大。而且在真实的CRS中，用户在对话轮数多了之后，就会无法忍受。所以更为实际的方法是询问用户喜欢什么属性。现在的研究热点集中在基于询问属性的方法。