阿里开源软件
-
发布了文章 2个月前
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了 AI音效已经进化成这样了吗??打开声音🦻,来快速感受一下最新feel:模拟婴儿哭声,那叫一个高低起伏、荡气回肠,整个节奏和婴儿表情姿态神同步了。...
-
发布了文章 2个月前
阿里开源首个视觉推理模型,击败GPT-4o,网页一度404
阿里开源首个视觉推理模型,击败GPT-4o,网页一度404 过年关啦!阿里送上了今年最后一份礼物——“眼睛”模型QVQ,其中V代表视觉。它只需读取图像和指令,就可以开始思考。...
-
发布了文章 2个月前
阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写
阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写 3 月 27 日凌晨,阿里通义千问团队发布 Qwen2.5-Omni。...
-
发布了文章 2个月前
WebAgent – 阿里开源的自主搜索AI Agent
WebAgent是阿里巴巴开源的自主搜索AI Agent,具备端到端的自主信息检索与多步推理能力。WebAgent能像人类一样在网络环境中主动感知、决策和行动,应用在学术研究、商业决策和日常生活。...
-
发布了文章 2个月前
Qwen2 – 阿里云开源的新一代通义千问大模型
Qwen2是由阿里云通义千问团队开源的新一代大语言模型,该系列涵盖了从0.5B到72B不等的五个规模模型,在中文和英文基础上增加了27种语言的高质量数据,大幅提升了模型的自然语言理解、代码编写、数学解题和多语言处理能力。...
-
发布了文章 2个月前
MnnLlmApp – 阿里巴巴开源的离线大模型 Android 手机应用AI助手
MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开源的 Android 手机应用,支持各类大语言模型(LLM)在手机上离线运行。具备多模态功能,能实现文本生成文本、图像生成文本、音频转文本以及文本生成图像等多种任务。...
-
发布了文章 2个月前
MimicBrush – 阿里等开源的AI图像编辑融合框架
MimicBrush是由阿里巴巴、香港大学和蚂蚁集团的研究人员推出的AI图像编辑融合框架,允许用户通过简单的操作,在源图像上指定需要编辑的区域,并提供一个包含期望效果的参考图像进行图片编辑。...
-
发布了文章 2个月前
MNN – 阿里开源的移动端深度学习推理框架
MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主...
-
发布了文章 2个月前
LowCodeEngine – 阿里开源的低代码开发框架
LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系统页面。框架以强大的定制能力、优雅的开发体验、丰富的API和插件支持而著称,能满足各种复杂的业务场景需求...
-
发布了文章 2个月前
FunASR – 阿里开源的多功能语音识别工具包
FunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR等多种功能。FunASR工具包支持工业级语音识别模型的训练和微...
-
发布了文章 2个月前
DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架
DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作和外观的精确控制,使得用户可以通过简单的文本描述或图像提示来生成个性化的视...
-
发布了文章 2个月前
AgentScope – 阿里开源的多智能体开发平台
AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API和本地模型部署选项,覆盖聊天、图像合成、文本嵌入等多种...
没有更多内容





































