Spotify科学家：用"语义身份证"融合搜索与推荐

马上注册，结交更多好友

您需要登录才可以下载或查看，没有账号？立即注册

x

这项令人瞩目的研究由来自Spotify遍布全球的科学家团队共同完成，包括荷兰代尔夫特的Gustavo Penha、西班牙马德里的Edoardo D'Amico、丹麦哥本哈根的Marco De Nadai等十一位研究者。该研究发表于2025年9月22-26日在捷克布拉格举行的第十九届ACM推荐系统会议（RecSys '25），论文详细信息可通过DOI：10.1145/3705328.3759300获取，感兴趣的读者也可以在arXiv:2508.10478v1上找到预印本版本。
在我们每天使用音乐应用搜索歌曲或接收个性化推荐时，背后其实隐藏着一个复杂的技术难题。传统上，搜索功能和推荐功能就像两个各司其职的厨师，一个专门处理你主动提出的需求（比如"我想听周杰伦的歌"），另一个则根据你的口味历史为你准备惊喜菜品。但问题在于，这两个厨师使用完全不同的菜谱和工具，不仅增加了厨房的复杂性，还可能错过很多美妙的搭配机会。
现在，基于大型语言模型的生成式AI技术为统一这两个功能提供了可能，就像找到了一位既能按需制作又能创意搭配的全能厨师。然而，要让这位全能厨师正常工作，首先需要解决一个关键问题：如何为每首歌曲、每个商品创建一个既适合搜索又适合推荐的"身份证"。
传统的做法是给每个物品分配一个简单的数字编号，就像给每道菜一个菜谱编号。但这种方法有个致命缺陷：当有新菜品加入时，整个系统都需要重新学习，成本极高。更糟糕的是，这些编号本身没有任何含义，无法帮助系统理解不同物品之间的关系。
为了解决这个问题，研究者们提出了"语义身份证"的概念。与传统的数字编号不同，语义身份证是由多个有意义的代码组成的，这些代码来源于物品的内容特征。打个比方，传统方法给一首抒情民谣的编号可能是"10086"，而语义身份证可能是"温柔-吉他-治愈-夜晚"这样的组合。这样，即使是新加入的歌曲，只要具有相似的特征，就能共享部分代码，让系统快速理解其特性。
不过，这种语义身份证的构建面临一个根本性的矛盾：针对搜索任务优化的身份证在推荐任务中表现糟糕，反之亦然。这就像一把专门切蔬菜的刀可能不适合切肉一样。Spotify的研究团队通过系统性的实验发现了这个问题的严重性：当使用专门为搜索优化的身份证时，搜索效果提升了五倍，但推荐效果却下降了60%；而使用推荐优化的身份证时，情况正好相反。
一、多样化的身份证构建策略
面对这个两难困境，研究团队设计了多种不同的策略来构建语义身份证，这些策略可以分为两大类：任务专用方法和跨任务融合方法。
任务专用方法相对简单直接。搜索专用方法会训练一个专门的模型，让它学习如何理解用户的查询意图和歌曲内容之间的匹配关系。这个过程类似于训练一个音乐专家，让他能够准确理解用户说"我想听轻松的音乐"时应该推荐什么。训练时，研究者会给模型提供大量的查询-歌曲配对样本，让模型学会将相似的查询和歌曲在语义空间中放置得更近。
推荐专用方法则采用了完全不同的训练思路。它使用协同过滤技术，专注于学习用户的行为模式。如果两个用户经常听相似的歌曲，那么模型就会认为他们的口味相近，从而为其中一个用户推荐另一个用户喜欢的歌曲。这种方法更像是观察人群的消费习惯，通过发现"买了A商品的人通常也会买B商品"这样的规律来工作。
然而，这两种任务专用方法都有明显的局限性：它们只针对单一任务进行了优化，在需要同时处理搜索和推荐的统一系统中表现不佳。这促使研究团队探索能够平衡两种任务需求的跨任务方法。
跨任务方法的思路更加复杂和有趣。其中一种被称为"分离式"的方法，为每个物品同时创建两套不同的身份证：一套专门用于搜索，一套专门用于推荐。在实际使用时，搜索任务只使用搜索专用的身份证，推荐任务只使用推荐专用的身份证。这种方法的优点是保持了各自的优化效果，但缺点也很明显：身份证的数量翻倍，大大增加了系统的复杂性和存储成本。
另一种名为"前缀共享"的方法试图在保持任务特异性的同时减少重复。这种方法将身份证分为三个部分：一个所有任务共享的基础部分，加上两个任务专用的扩展部分。就像给每首歌设计一个基础标签（比如"流行音乐"），然后根据不同用途添加特定的后缀（搜索时加上"节奏明快"，推荐时加上"适合运动"）。
最具创新性的是几种"融合式"方法。第一种直接将搜索和推荐两种embedding连接起来，形成一个更长的综合表示。这就像将两个专家的意见合并成一份更全面的报告。第二种方法认识到不同embedding的维度差异可能造成偏向，因此先用数学方法将它们调整到相同的维度，再进行元素级的加法融合。
最引人注目的是"多任务"方法，它从根本上改变了训练思路。不再分别训练搜索和推荐专用的模型，而是训练一个能够同时处理两种任务的统一模型。在训练过程中，模型需要同时学习查询-歌曲匹配（搜索任务）和用户行为预测（推荐任务），通过平衡这两个目标来形成更加通用的物品表示。
二、实验设计的精妙之处
为了全面评估这些不同的身份证构建策略，研究团队精心设计了一套实验框架。他们选择了MovieLens25M数据集作为研究基础，这是一个包含62,138部电影、124万次用户交互的大型数据集。值得注意的是，研究团队没有使用现成的查询数据，而是使用Google的Gemini-2.0-flash模型为每部电影生成了20个自然语言查询（训练集10个，测试集10个）。
这种数据准备方式有其深层考虑。在实际应用中，搜索查询的热门程度分布往往与推荐中的物品流行度分布存在差异。为了消除这种差异对实验结果的干扰，研究团队为每部电影生成了相同数量的查询，创造了一个"公平竞争"的环境。虽然这与真实世界的分布有所不同，但研究者指出，在实际应用中，如果搜索和推荐的流行度分布存在一定相似性，效果可能会更好。
查询生成的过程也颇具匠心。研究团队设计了详细的提示模板，要求AI生成的查询必须真实反映用户可能的搜索行为，涵盖电影的不同方面（主题、类型、情感色调等），同时避免直接包含电影标题。生成的查询既包括"寻找一部关于时间旅行的科幻电影"这样的宽泛描述，也包括"想看一部让人深思的独立电影"这样的情感导向查询。
在技术实现层面，研究团队使用了Google的flan-t5-base作为核心的生成式语言模型。这个模型需要同时处理搜索和推荐两种完全不同类型的任务：对于搜索任务，模型接收用户查询，输出相关电影的身份证；对于推荐任务，模型根据用户的历史行为，预测用户可能喜欢的电影身份证。
为了确保生成结果的多样性，研究团队采用了一种名为"多样化束搜索"的技术。传统的生成方法往往会产生相似度很高的结果，就像一个人在回答问题时总是给出最"安全"的答案。多样化束搜索通过引入多样性惩罚机制，鼓励模型生成更加丰富和多元的结果，这对于推荐系统来说尤其重要。
身份证的具体构建采用了一种叫做RQ-KMeans的聚类方法。简单来说，这种方法会将相似的物品embedding聚集在一起，然后为每个聚类分配一个代表性的代码。一个物品的身份证就由多个这样的代码组成，通常使用两个大小为256的码书，总共512个可能的代码。这种设计既保证了表达能力，又控制了复杂度。
三、令人意外的实验发现
实验结果揭示了一些既在意料之中又颇为意外的发现。正如研究团队预期的那样，任务专用的身份证在各自的任务中表现最佳，但在另一项任务中的表现却极为糟糕。搜索优化的身份证将搜索效果提升到了0.072（R@30指标），但推荐效果只有0.026；而推荐优化的身份证将推荐效果提升到了0.062，搜索效果却惨不忍睹，只有0.004。
这种巨大的性能差异反映了两个任务的本质不同。搜索任务更依赖于内容相似性：用户查询"浪漫喜剧"时，系统需要找到真正属于这个类别的电影。而推荐任务更关注行为模式：系统需要发现"喜欢A电影的用户通常也会喜欢B电影"这样的隐含关系，即使A和B在内容上看起来毫无关联。
在跨任务方法中，最令人惊讶的发现是多任务方法的优异表现。这种方法在搜索任务中达到了0.046的效果，在推荐任务中达到了0.049的效果，虽然都没有达到各自任务专用方法的最高水平，但提供了最佳的整体平衡。这个结果具有重要的实际意义：在需要统一处理搜索和推荐的系统中，多任务方法提供了一个几乎不需要权衡的解决方案。
分离式方法的表现则验证了研究团队的另一个假设：简单地为每个任务分配独立的身份证虽然能够避免任务间的冲突，但也失去了任务间相互学习的机会。这种方法的搜索效果（0.028）和推荐效果（0.032）都处于中等水平，而且大幅增加了系统的复杂性。
融合方法的结果展现了embedding组合的微妙之处。直接连接两种embedding的方法（Fusedconcat）在搜索方面表现不错（0.048），但推荐效果较差（0.018）。研究团队分析认为，这是因为搜索专用的embedding维度（386维）远大于推荐专用的embedding维度（256维），导致搜索信息在融合后占据主导地位。
为了验证这个假设，研究团队尝试了维度平衡的融合方法（FusedSVD）。通过数学方法将两种embedding调整到相同维度后再融合，推荐效果确实有所提升（0.038），但搜索效果有所下降（0.033）。这个结果表明，简单的数学融合虽然能够平衡不同信息源的贡献，但可能会在融合过程中丢失一些重要信息。
前缀共享方法的表现最为令人失望，搜索和推荐效果都很低（0.007和0.021）。进一步分析发现，这主要是由于底层的量化方法不够理想。研究团队进行的量化方法对比实验证实了这一点：RQ-KMeans方法显著优于其他几种方法，包括广泛使用的RQ-VAE方法。
四、深入的性能分析
为了更深入地理解不同方法的特点，研究团队还按照电影的流行程度进行了分层分析。他们将数据集中最受欢迎的1%电影定义为"头部"内容，其余99%定义为"长尾"内容。这种分析揭示了一些有趣的模式。
在头部内容的推荐中，基于推荐优化的方法表现极为突出，达到了0.170的高分。这并不令人意外，因为热门内容有更多的用户行为数据，协同过滤方法能够更好地捕捉这些模式。然而，对于长尾内容，基于搜索的方法反而表现更好（0.070），这表明当缺乏足够的行为数据时，内容相似性成为更可靠的指导原则。
多任务方法在这种分层分析中展现了其均衡性的另一面。虽然它在头部内容中的表现（0.135）不如推荐专用方法，在长尾内容中的表现（0.024）也不如搜索专用方法，但它在两个层次都保持了相对稳定的性能。这种特性对于实际应用来说非常重要，因为现实中的系统需要同时处理热门和冷门内容。
搜索任务的结果相对简单，因为研究团队刻意创造了没有流行度偏差的查询分布。但这种"公平"的设计反而突出了不同方法在内容理解能力上的差异。搜索专用方法的优异表现（0.072）表明，针对性的训练确实能够显著提升系统对查询意图的理解能力。
五、技术细节的重要启示
研究团队对量化方法的对比分析提供了重要的技术启示。传统观点认为，基于神经网络的自编码器方法（如RQ-VAE）应该比简单的聚类方法表现更好，因为它们能够学习更复杂的数据分布。然而，实验结果显示RQ-KMeans方法显著优于RQ-VAE和其他学习式方法。
这个发现并非孤例。其他研究也报告了RQ-VAE在某些场景下的不稳定性问题。研究团队推测，这可能是因为在身份证构建这个特定任务中，简单而稳定的聚类方法比复杂的生成模型更加可靠。这提醒我们，在选择技术方案时，复杂性并不总是等同于更好的性能。
embedding模型的选择也展现了内容理解和行为建模的不同优势。搜索任务中使用的是基于all-mpnet-base-v2的语义embedding，这种模型擅长理解文本内容的语义相似性。推荐任务中使用的ENMF（高效神经矩阵分解）模型则专注于挖掘用户-物品交互中的潜在模式。
多任务方法的成功很大程度上归功于其训练策略的巧妙设计。通过同时优化两个不同的损失函数（查询-物品匹配损失和协同过滤损失），模型学会了在内容相似性和行为相似性之间找到平衡点。这种平衡使得生成的身份证既能反映物品的内容特征，又能捕捉用户行为中的隐含偏好。
生成式模型的训练也需要特殊考虑。与传统的分类或回归任务不同，生成式推荐需要模型输出离散的代码序列。这要求模型不仅要理解输入（用户查询或历史行为），还要能够准确生成对应的身份证代码。多样化束搜索的使用确保了生成结果的丰富性，避免模型总是输出最"安全"但可能单调的答案。
六、实际应用的深远影响
这项研究的意义远远超出了学术范围，它为整个推荐系统行业提供了重要的发展方向。目前，大多数大型互联网公司都维护着分离的搜索和推荐系统，这不仅增加了技术复杂性，还可能错失两个系统间协同效应的机会。
Spotify作为全球领先的音乐流媒体平台，每天需要处理数亿次的搜索请求和个性化推荐。用户可能在搜索特定歌手的作品后，期望推荐系统能够理解这种偏好并在后续推荐中体现出来。反过来，推荐系统发现的用户潜在兴趣也应该能够改进搜索结果的相关性。这种双向的信息流动正是统一系统的核心价值所在。
从技术架构的角度，统一的生成式系统能够显著简化服务端的复杂性。传统架构中，搜索和推荐通常需要不同的特征工程、模型训练和服务部署流程。统一系统则可以共享大部分基础设施，不仅降低了维护成本，还提升了系统的一致性和可靠性。
对于新物品的处理，统一系统的优势更加明显。传统的基于ID的推荐系统面临严重的冷启动问题：新歌曲、新电影往往需要积累足够的用户交互数据后才能被有效推荐。而基于语义身份证的系统能够立即理解新物品的内容特征，即使没有任何用户行为数据，也能基于内容相似性进行合理的推荐和搜索匹配。
这种能力对于内容创作者来说意义重大。新晋艺术家的作品不再需要等待漫长的"冷启动期"，系统能够基于音乐的风格、情感特征等语义信息，立即将其推荐给可能喜欢的用户群体。这有助于形成更加多元化的内容生态，而不是被头部内容所主导的马太效应。
研究结果还揭示了个性化技术发展的一个重要趋势：从简单的协同过滤向多模态、多任务的综合智能发展。未来的推荐系统不仅要理解用户的历史行为，还要能够理解用户的即时意图、情感状态、使用场景等多维度信息。语义身份证为这种综合理解提供了技术基础。
从用户体验的角度，统一系统能够提供更加连贯和智能的服务。用户不再需要在搜索和发现之间切换不同的交互模式，系统能够在用户的整个使用过程中保持上下文的连续性。比如，用户搜索"适合跑步的音乐"后，系统不仅能够返回相关结果，还能在后续的推荐中持续关注用户的运动音乐偏好。
七、面临的挑战和未来展望
尽管研究结果令人鼓舞，但将这种技术应用于实际生产环境仍面临诸多挑战。首要问题是计算复杂性。生成式模型，特别是基于大型语言模型的系统，通常需要比传统推荐系统更多的计算资源。在需要毫秒级响应的在线服务中，如何平衡模型复杂性和响应速度是一个关键问题。
数据质量和标注成本也是重要考量。多任务训练需要高质量的搜索查询-物品配对数据和用户行为数据。虽然用户行为数据相对容易获取，但高质量的查询数据往往需要人工标注或者像本研究中使用大型语言模型生成。如何在大规模应用中获得足够的高质量训练数据，仍然是一个开放性问题。
模型的可解释性是另一个挑战。传统的推荐系统虽然复杂，但其决策过程相对容易分析和调试。生成式系统的黑盒特性使得理解和改进系统行为变得更加困难。当推荐结果不符合预期时，如何快速定位和修复问题，需要新的工具和方法论。
隐私保护在统一系统中也面临新的考验。搜索查询通常包含用户的即时意图信息，而行为数据反映用户的长期偏好模式。如何在利用这些信息进行联合建模的同时保护用户隐私，需要更加精细的隐私保护策略。
从技术演进的角度，研究团队提出了几个值得进一步探索的方向。首先是更加高效的embedding融合方法。当前的简单连接或加权融合可能无法充分利用不同信息源的互补性。基于注意力机制或者元学习的融合方法可能带来更好的效果。
其次是动态的身份证更新机制。随着用户行为的变化和内容理解的深入，物品的语义表示也应该相应更新。如何设计一个既稳定又能适应变化的身份证系统，是一个有趣的研究方向。
多语言和跨文化的泛化能力也值得关注。当前的研究主要基于英文内容，但实际应用中需要处理多种语言和文化背景的内容。如何构建能够跨语言泛化的语义身份证，对于全球化的服务提供商来说至关重要。
最后，随着大型语言模型技术的快速发展，如何将更强大的预训练模型集成到推荐系统中，也是一个充满机会的方向。GPT、BERT等模型的不断进化可能为语义理解和生成带来新的突破。
说到底，这项研究为我们展示了人工智能技术发展的一个重要趋势：从专用系统向通用系统的演进。就像当年智能手机统一了电话、相机、音乐播放器等多个设备的功能一样，统一的生成式推荐系统可能会成为未来内容服务的标准架构。虽然这条路上还有许多技术挑战需要克服，但Spotify研究团队的工作为我们指明了一个充满希望的方向。对于每一个使用数字内容服务的普通用户来说，这意味着更智能、更连贯、更个性化的体验正在向我们走来。
Q&A
Q1：什么是语义身份证，它和传统的商品编号有什么区别？
A：语义身份证是由多个有意义代码组成的物品标识，这些代码来源于物品的内容特征。传统编号就像给每首歌分配"10086"这样的数字，而语义身份证可能是"温柔-吉他-治愈-夜晚"的组合。最大优势是新物品能立即共享相似特征的代码，无需重新训练整个系统，还能帮助AI理解物品间的关系。
Q2：为什么搜索和推荐不能用同一套身份证系统？
A：搜索和推荐关注的重点完全不同。搜索更看重内容相似性，用户搜"浪漫喜剧"时需要找到真正属于这类的电影。推荐更关注行为模式，发现"喜欢A电影的人通常也喜欢B电影"的隐含关系，即使A和B内容毫不相关。专门优化一个任务会牺牲另一个任务的效果，这就是两难困境。
Q3：Spotify的多任务方法是如何平衡搜索和推荐效果的？
A：多任务方法训练一个能同时处理两种任务的统一模型，在训练时同时优化查询-歌曲匹配和用户行为预测两个目标。通过平衡内容相似性和行为相似性，生成的身份证既能理解歌曲内容特征，又能捕捉用户偏好模式。虽然单项效果不如专用方法，但提供了最佳整体平衡，搜索和推荐效果都达到了0.046和0.049的良好水平。

菲龙网编辑部7

本文来自

科技新闻

菲龙网编辑部7发布过的帖子

Spotify科学家：用"语义身份证"融合搜索与推荐

马上注册，结交更多好友

浏览过的版块

站长推荐 /1

菲龙网编辑部7

本文来自

科技新闻

菲龙网编辑部7发布过的帖子

Spotify科学家：用&quot;语义身份证&quot;融合搜索与推荐

马上注册，结交更多好友

浏览过的版块

站长推荐 /1

Spotify科学家：用"语义身份证"融合搜索与推荐