小红书推荐系统实战:除了双塔模型,这3种召回策略(地理位置/作者/缓存)你了解吗?
小红书推荐系统实战3种工业级召回策略深度解析在推荐系统的战场上召回层就像一位不知疲倦的侦察兵它的任务是从海量内容中快速筛选出可能吸引用户的候选集。提起召回策略大多数人会立刻想到双塔模型、协同过滤这些明星算法但真正决定推荐系统实战效果的往往是那些被低估的战术级策略。今天我们就以小红书为例解剖三种工业界高频使用但鲜少被深入讨论的召回策略——地理位置召回、作者召回和缓存召回。这些策略看似简单却在实战中发挥着四两拨千斤的作用。1. 地理位置召回当附近成为推荐黄金法则在本地生活场景中用户对附近发生什么的关心程度远超想象。小红书通过地理位置召回策略巧妙地将物理距离转化为推荐系统的竞争优势。1.1 GeoHash编码地理位置的数字护照GeoHash算法将二维的经纬度坐标转换为一维字符串这种编码具有以下关键特性层级结构字符串越长表示精度越高如wx4g比wx4更精确前缀匹配相同前缀的GeoHash表示地理位置相近快速检索可用B树等数据结构高效建立索引小红书实际应用中的GeoHash索引结构示例GeoHash前缀覆盖区域笔记数量最新更新时间wx4g3北京朝阳区CBD1,2432023-08-15wx4g8北京海淀区中关村8922023-08-14提示GeoHash召回的关键是平衡精度与召回量通常选择6-8位字符长度对应约100-1000米范围1.2 同城召回的社交增强效应相比精确的GeoHash召回同城召回采用更粗粒度的城市维度其独特价值在于内容新鲜度保障优先展示24小时内发布的同城笔记地域文化契合自动匹配方言、本地习俗等文化特征潜在社交连接增加同城用户间的互动可能性实际业务中这两种策略常配合使用def location_based_recall(user): recalls [] if user.geo_hash: recalls geo_hash_recall(user.geo_hash, limit50) if user.city: recalls city_recall(user.city, limit30) return remove_duplicates(recalls)2. 作者召回构建内容生态的社交图谱在小红书这样的UGC平台作者与用户的关系远不止内容生产者-消费者这么简单。优秀的作者召回策略能同时提升内容分发效率和用户粘性。2.1 关注作者召回社交关系的温度传递关注作者召回的核心在于两个实时更新的倒排索引用户-作者索引记录每个用户关注的所有作者作者-笔记索引按发布时间倒序存储作者内容这种策略的独特优势包括即时性新内容发布后立即进入关注者候选池信任传递用户对作者的信任会自然延伸到其内容创作激励为优质作者提供稳定的流量入口2.2 交互作者召回发现潜在兴趣的雷达当用户与作者产生轻互动点赞/收藏/评论但未关注时交互作者召回就发挥作用了。其技术实现要点包括时间衰减权重最近交互的权重高于历史交互行为类型加权收藏 评论 点赞滑动窗口机制只保留最近30天的交互记录交互作者相似度计算示例def author_similarity(author1, author2): # 基于共同粉丝的Jaccard相似度 followers1 set(get_followers(author1)) followers2 set(get_followers(author2)) intersection followers1 followers2 union followers1 | followers2 return len(intersection) / len(union)2.3 相似作者召回兴趣的涟漪效应相似作者召回扩展了用户的兴趣边界其核心是构建作者相似度图谱。工业界常用三种计算方式基于粉丝重合度如上述Jaccard相似度基于内容embedding用BERT等模型提取文本特征基于协同过滤将作者视为特殊物品计算相似度3. 缓存召回精排结果的二次利用艺术在推荐系统链路中精排阶段计算成本最高缓存召回就是为了最大化精排结果的利用率。3.1 缓存机制设计要点小红书采用的混合缓存策略包含以下关键设计动态准入标准精排Top50未曝光内容自动进入缓存高CTR内容优先保留新发布内容获得加权智能淘汰机制def check_evict(cached_item): if cached_item.exposed: # 已曝光立即淘汰 return True if cached_item.recall_count 10: # 达到召回次数上限 return True if time.now() - cached_item.enter_time 3*24*3600: # 超过3天 return True return False3.2 缓存召回的业务价值这种策略创造了三重价值资源利用率提升精排计算成本降低30-40%长尾内容曝光给优质但低流量内容更多机会用户体验平滑避免每次刷新结果差异过大4. 策略组合与系统协同真正的工业级推荐系统从不是单打独斗而是多种策略的有机组合。这些召回策略如何与双塔模型协同工作4.1 多路召回融合架构小红书的典型召回层实现流程并行召回各策略同时执行去重合并基于笔记ID去重动态加权根据实时反馈调整各路线权重粗排过滤用轻量模型初步筛选4.2 策略权重分配艺术不同场景下的策略权重配置示例场景类型地理位置权重作者权重缓存权重双塔权重新用户冷启40%30%10%20%老用户活跃15%50%20%15%节假日运营25%25%30%20%注意实际权重需要根据AB测试结果动态调整此表仅为示例在项目实践中我们发现当作者召回与缓存召回配合使用时用户停留时长平均提升17%。特别是在美食和旅行类目中地理位置召回带来的转化率比普通内容高出3-5倍。