当前位置：网站首页 AI安全与隐私保护正文

Goku

AI安全与隐私保护

语言：简体中文
更新时间：2025-02-27 17:48:07

访问官网

简介

Goku是由香港大学与字节跳动联合研发的多模态视频生成模型，基于校正流Transformer架构（Rectified Flow Transformer），专为图像与视频的联合生成优化。该模型于2025年2月正式发布技术报告，其核心目标是通过低成本、高效率的生成能力，革新数字内容创作流程，尤其在广告营销、电商展示等领域展现出颠覆性潜力。

Goku功能特征：

多模态生成能力

文本到视频（Text-to-Video）：通过自然语言描述直接生成动态视频，支持复杂场景与人物交互，例如根据“夏日海滩饮品广告”生成包含人物动作、产品特写的完整短片。

图像到视频（Image-to-Video）：以单张商品图或场景图为输入，生成动态展示视频，例如将静态服装图转化为模特试穿效果的连贯镜头。

文本到图像（Text-to-Image）：生成高分辨率图像，支持细节控制，如光照、材质等参数调整。

技术架构创新

校正流框架：Goku采用了校正流（Rectified Flow）Transformer，结合图像-视频联合VAE（变分自编码器），以及全注意力Transformer，这使得模型能够统一处理图像和视频生成任务，通过优化生成路径的连续性，减少传统扩散模型的迭代步骤，提升生成效率。

多阶段训练策略：通过图文语义对齐预训练、图像-视频联合训练以及针对不同模态的微调，分阶段提升模型能力，初期聚焦基础特征学习，后期强化时序连贯性与细节精度。

大规模数据集支撑：研究人员构建了约3600万视频和1.6亿图像的大规模数据集，并采用了多种数据过滤和增强技术来提高数据质量。

成本与性能优势

Goku+商业版本：作为视频广告专用基础模型，其生成成本仅为传统拍摄制作的1/100，且支持个性化定制（如品牌Logo植入、多语言配音等）。

SOTA性能：在MSR-VTT和UCF-101等基准测试中，文本到视频生成任务刷新行业记录，视频连贯性与语义对齐度领先同类模型20%以上。

Goku使用方法：

模型选择与部署

提供三种规模模型：轻量版（移动端适配）、标准版（通用场景）、企业版（支持4K分辨率与长视频生成）。

支持云端API调用与本地化部署，企业用户可通过字节跳动火山引擎平台接入。

输入与参数配置

输入格式：文本提示需遵循结构化描述（如“主体-动作-场景-风格”），图像输入支持PNG/JPG及透明背景格式。

控制参数：包括视频时长（默认5秒，可扩展至60秒）、帧率（24/30/60fps）、分辨率（最高4096×2160）及风格化滤镜（如“写实风”“卡通渲染”）。

交互式编辑

支持生成后逐帧微调，例如修改局部动作、替换背景元素，或通过文本指令追加特效（如“添加雨滴效果”）。

Goku产品应用：

电商与广告营销

商品动态展示：仅需一张产品图，即可生成包含虚拟主播讲解、多角度展示的广告视频，适用于淘宝、抖音等平台的商品详情页。

低成本本地化广告：针对不同地区市场，快速生成适配语言与文化背景的广告内容，显著降低跨国营销成本。

社交媒体内容创作

吃播/教程视频生成：输入食材列表与步骤描述，自动生成烹饪过程视频，支持添加互动字幕与背景音乐。

UGC辅助工具：为创作者提供“文案转视频”功能，将图文内容自动转化为短视频，提升内容产出效率。

影视与游戏预制作

分镜预览：通过文本快速生成剧情分镜，辅助导演与编剧可视化叙事节奏。

NPC动作库构建：为游戏开发提供批量角色动作生成，减少手动建模工作量。

Goku的发布标志着ai视频生成从“辅助工具”向“生产级应用”的跨越。其低成本特性已吸引多家国际快消品牌进行试点合作，据估算可减少80%的广告制作周期。未来，结合实时渲染与3D建模技术，Goku有望进一步拓展至虚拟现实、元宇宙等场景。当前技术局限主要体现为长视频的情节逻辑控制，但团队表示将通过引入强化学习机制持续优化。

GitHub：https://github.com/Saiyan-World/goku

项目地址：https://saiyan-world.github.io/goku/

论文：https://arxiv.org/abs/2502.04896

同类推荐

Goku
AI安全与隐私保护
CineMaster
AI安全与隐私保护
Story Flicks
AI安全与隐私保护
SkyReels-V1
AI安全与隐私保护
优雅AI创作平台
AI安全与隐私保护
元镜AI短视频创作平台
AI安全与隐私保护
闪剪-AI数字人
AI安全与隐私保护
Viggle AI
AI安全与隐私保护
讯飞智作
AI安全与隐私保护

相关资讯

我国科学家用人工智能发现超短周期行星近日，由中国科学院上海天文台葛健教授带领的国际团队创新了一种深度学习算法，并成功在开普勒卫星2017年释放的恒星测光数据中，发现了5颗直径小于地球、轨道周期短于1天的超短周期行星，其中4颗是迄今为止发现的
AI教程资讯 02-27
Adobe推出全新AI视频生成器，使用授权内容训练 IT之家 10 月 15 日消息，Adobe 公司今日发布了全新的人工智能驱动的文本转视频工具 Firefly Video Model。该工具能够根据文本提示生成全新的视频，与竞争对手不同，Adobe 声称 Firefly Video Model 完全使用授权
AI教程资讯 02-27
政府带货AI+推出49个应用场景近日，深圳罗湖区政府带货人工智能，一次推出了49个应用场景，未来的罗湖将是一个AI触手可及的城区。随着人工智能的触角深入到各行各业，如何利用AI在未来抢得发展先机，成为各级政府的必解题。在罗湖推出的49
AI教程资讯 02-27

推荐快讯

相关推荐 +

近期热点 +

最新教程 +

02-06

学会年会报告分享 | 刘小丁院长：人工智能的探索与应用今天，为大家分享广东省国土资源测绘院党委书记、院长刘小丁在2024中国测绘地理信息科学技术年会中分论坛主题为：“遥感大模型与智能遥感应用”中所作报告《人工智能的探索与应用》。嘉宾简介广东省国土资源测绘
02-11

字节，悄咪咪做了个 Liblib 三个月前，「LiblibAI 哩布哩布 AI」，一个 AI 模型社区型产品，在一年内完成了三轮共计数亿元的融资。据悉，在短短一年时间里，Liblib 突飞猛进，艳压群芳。在国内做 AI 生图的创作者，几乎没有没听过 Liblib 的
02-20

内容版权与人工智能再起冲突，默多克公司起诉AI搜索新锐Perplexity 10月21日，媒体大亨鲁珀特·默多克（Rupert Murdoch）旗下新闻集团的子公司道琼斯（Dow Jones）和《纽约邮报》（New York Post）对人工智能初创公司Perplexity提起诉讼，称其“大量非法复制”它们的版权作品。快速
02-24

ColorOS 15 AI功能体验：小布升级成为系统级AI交互平台在此之前，虽然AI已经广泛应用于各个领域，但大多数人对AI的认知还停留在机器人、自动化生产线等机械化的层面上。随着ChatGPT的出现，让AI变得更加生动、智能且富有情感色彩。它不仅能够理解并回答复杂的问题，还
12-26

京东大模型交卷：天生离产业更近一步做大模型的公司不少，能明确给出产业落地时间线的还是头一次见。刚刚，在2023京东全球科技探索者大会暨京东云峰会上，京东推出了言犀大模型+言犀大模型开放计算平台，并展示了零售、健康、物流、营销、金融、客
12-30

马斯克成功后，又一家自动驾驶公司决定造芯真正对自动驾驶有追求，得深入硬件，最好还是芯片？这不，最新消息，又一家自动驾驶技术公司抛弃了英伟达，决定自研自动驾驶芯片。通用Cruise，全球自动驾驶头部玩家，披露同时搞四种芯片，2025年之前上车
12-31

PyTorch官方教程大更新：增加标签索引，更加新手友好 PyTorch官方教程，现已大幅更新：提供标签索引，增加主题分类，更加新手友好。不必再面对一整页教学文章茫然无措，可以想学哪里就精准点哪里了。网友们纷纷表示：更新得太及时了。标签索引：哪里不会点哪里如
01-02

ChatGPT修bug横扫全场，准确率达78%！网友：程序员要开心了 ChatGPT到底有多会修bug？这事终于有人正儿八经地搞研究了——来自德国、英国的研究人员，专门搭了个“擂台”来检验ChatGPT的这项本领。除了ChatGPT之外，研究人员还找来了其它三位修bug
01-06

首个“开源ChatGPT”来了：基于谷歌5400亿参数大模型，华人小哥出品，网友吐槽：这谁能跑？就说程序员的手速有多快吧，首个开源ChatGPT项目已经出现了！基于谷歌语言大模型PaLM架构，以及使用从人类反馈中强化学习的方法（RLHF），华人小哥Phillip Wang复刻了一个ChatGPT
01-13

AI助力基层治理效能提升近日，江苏电信金湖分公司借助新一代AI技术，积极探索AI与社区治理的有机融合协同发展，有效助力乡村社会治理，实时监测村居、社区情况，助力基层治理更加智能化，不断增强居民群众的获得感、幸福感、安全感。发