Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型,基于 Seed1.5 () 进一步训练。模型在权威测评榜单 MTEB 上达到了中英文 SOTA 效果,在推理密集型检索任务的 BRIGHT 榜单上也取得了优异成绩。 模型采用 Siamese 双塔结构,依托 Seed1.5 预训练 LLM,通过两阶段训练强化通用表征能力。第一阶段使用无监督数据进行预微调,通过对比学习改造生成模型为编码模型;第二阶段使用有监督数据和合成数据进行微调,混合多种任务数据进行多任务优化。通过迭代式难负例挖掘、伪负例过滤和合成数据等策略优化数据构成和质量,提升模型在检索任务中的表现。 Seed1.5-Embedding 支持多种向量维度,包括 2048、1024、512 和 256。


全部评论
留言在赶来的路上...
发表评论