AI工具
发布文章-
发布了文章 2个月前
StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型(Video-LLMs)框架,能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减压缩策略支持长上下文交互,引入轻量级激活模型实现主动响应功...
-
发布了文章 2个月前
Stream-baidu09Omni – 中科院联合国科大推出的语言视觉语音模型
Stream-Omni是中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似GPT-4o的大型语言视觉语音模型,能同时支持多种模态组合的交互。模型支持大型语言模型为骨...
-
发布了文章 2个月前
StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型
StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型,能用知识增强的故事角色定制实现高质量的故事可视化。StoryWeaver用新颖的知识图谱Character Gr...
-
发布了文章 2个月前
StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统
StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller由视频分割、...
-
发布了文章 2个月前
StoryMaker – 小红书开源的文本到图像实现角色一致的生成模型
StoryMaker 是小红书开源的一款文本到图像生成工具,专注于帮助创作者在连续图像内容中保持角色的一致性。基于 Stable Diffusion XL 模型和 LoRA 技术,确保生成的图像在面部特征、服装、发型和身体特...
-
发布了文章 2个月前
StoryDiffusion – 生成一致性图像和视频序列的开源AI框架
StoryDiffusion是一个先进的AI图像和视频生成框架,用于从文本描述生成具有一致性的图像和视频序列。基于Consistent Self-Attention机制增强图像间的一致性,生成的内容在身份和服饰等细节上保持连...
-
发布了文章 2个月前
Story-baidu09Adapter – 无需额外训练的长篇故事可视化框架
Story-Adapter 是一种新型的长篇故事可视化框架,能在保持语义一致性的同时,生成高质量且具有细腻交互的故事图像序列。通过迭代方式,基于全局参考交叉注意力模块,优化图像生成过程,提升了长故事场景下的可视化效果。...
-
发布了文章 2个月前
StockMixer – 上海交大推出的股票价格预测架构
StockMixer是上海交通大学推出的用在股票价格预测的多层感知器(MLP)架构,具备简单和强大的预测能力。架构基于指标混合、时间混合和股票混合三个步骤处理和预测股票数据,有效捕捉股票指标、时间和股票间的复杂相关性。...
-
发布了文章 2个月前
StockBot – 基于Llama3的AI金融Agent,提升股票投资效率
StockBot 是一个基于Llama3的AI金融Agent,提供实时股票信息、财务数据、新闻和互动图表。支持多资产市场,包括股票、外汇、债券和加密货币。用户可通过自然语言与之交流,获取定制化的金融分析和数据可视化,提升投资...
-
发布了文章 2个月前
StochSync – AI图像生成技术,为360°全景图和3D网格纹理生成高质量图像
StochSync(Stochastic Diffusion Synchronization)是创新的图像生成技术,专门用于在复杂空间(如360°全景图或3D表面纹理)中生成高质量图像。结合了扩散同步(DS)和分数蒸馏采样(...
-
发布了文章 2个月前
Still-baidu09Moving – DeepMind推出的AI视频生成框架
Still-Moving是DeepMind推出的AI视频生成框架,支持用户定制文本到视频(T2V 模型,无需特定视频数据。通过训练轻量级的空间适配器,Still-Moving能在静止图像上调整T2I模型的特征,以与T2V模型...
-
发布了文章 2个月前
StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架
StereoCrafter是腾讯AI Lab和ARC Lab共同推出的创新框架,能将单目视频(2D视频)转换为立体3D视频,满足日益增长的3D内容需求。StereoCrafter基于深度估计、视频splatting和立体视频...
-
发布了文章 2个月前
Step1X-baidu09Edit – 阶跃星辰开源的通用图像编辑框架
Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o 和 Gemini2 Flash)之间的性能差距。Step1X-Edit结合多模态大语言模型(MLLM)和扩散模...
-
发布了文章 2个月前
Step1X-baidu093D – 阶跃星辰联合LightIllusions开源的3D资产生成框架
Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属...
-
发布了文章 2个月前
Step-baidu09Video-baidu09TI2V – 阶跃星辰开源的图生视频模型
Step-Video-TI2V 是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video)生成模型,拥有 300 亿参数,能根据文本描述和图像输入生成最长 102 帧的视频。模型基于深度压缩的变分自编码器...





























