当前位置: 网站首页 AI安全与隐私保护 正文
Goku

Goku

AI安全与隐私保护
  • 语言:简体中文
  • 更新时间:2025-02-27 17:48:07
9
简介

Goku是由香港大学与字节跳动联合研发的多模态视频生成模型,基于校正流Transformer架构(Rectified Flow Transformer) ,专为图像与视频的联合生成优化。该模型于2025年2月正式发布技术报告,其核心目标是通过低成本、高效率的生成能力,革新数字内容创作流程,尤其在广告营销、电商展示等领域展现出颠覆性潜力。

Goku.webp

Goku功能特征:

多模态生成能力

文本到视频(Text-to-Video) :通过自然语言描述直接生成动态视频,支持复杂场景与人物交互,例如根据“夏日海滩饮品广告”生成包含人物动作、产品特写的完整短片。

图像到视频(Image-to-Video) :以单张商品图或场景图为输入,生成动态展示视频,例如将静态服装图转化为模特试穿效果的连贯镜头。

文本到图像(Text-to-Image) :生成高分辨率图像,支持细节控制,如光照、材质等参数调整。

技术架构创新

校正流框架:Goku采用了校正流(Rectified Flow)Transformer,结合图像-视频联合VAE(变分自编码器),以及全注意力Transformer,这使得模型能够统一处理图像和视频生成任务,通过优化生成路径的连续性,减少传统扩散模型的迭代步骤,提升生成效率。

多阶段训练策略:通过图文语义对齐预训练、图像-视频联合训练以及针对不同模态的微调,分阶段提升模型能力,初期聚焦基础特征学习,后期强化时序连贯性与细节精度。

大规模数据集支撑:研究人员构建了约3600万视频和1.6亿图像的大规模数据集,并采用了多种数据过滤和增强技术来提高数据质量。

成本与性能优势

Goku+商业版本:作为视频广告专用基础模型,其生成成本仅为传统拍摄制作的1/100,且支持个性化定制(如品牌Logo植入、多语言配音等)。

SOTA性能:在MSR-VTT和UCF-101等基准测试中,文本到视频生成任务刷新行业记录,视频连贯性与语义对齐度领先同类模型20%以上。

Goku使用方法:

模型选择与部署

提供三种规模模型:轻量版(移动端适配)、标准版(通用场景)、企业版(支持4K分辨率与长视频生成)。

支持云端API调用与本地化部署,企业用户可通过字节跳动火山引擎平台接入。

输入与参数配置

输入格式:文本提示需遵循结构化描述(如“主体-动作-场景-风格”),图像输入支持PNG/JPG及透明背景格式。

控制参数:包括视频时长(默认5秒,可扩展至60秒)、帧率(24/30/60fps)、分辨率(最高4096×2160)及风格化滤镜(如“写实风”“卡通渲染”)。

交互式编辑

支持生成后逐帧微调,例如修改局部动作、替换背景元素,或通过文本指令追加特效(如“添加雨滴效果”)。

Goku产品应用:

电商与广告营销

商品动态展示:仅需一张产品图,即可生成包含虚拟主播讲解、多角度展示的广告视频,适用于淘宝、抖音等平台的商品详情页。

低成本本地化广告:针对不同地区市场,快速生成适配语言与文化背景的广告内容,显著降低跨国营销成本。

社交媒体内容创作

吃播/教程视频生成:输入食材列表与步骤描述,自动生成烹饪过程视频,支持添加互动字幕与背景音乐。

UGC辅助工具:为创作者提供“文案转视频”功能,将图文内容自动转化为短视频,提升内容产出效率。

影视与游戏预制作

分镜预览:通过文本快速生成剧情分镜,辅助导演与编剧可视化叙事节奏。

NPC动作库构建:为游戏开发提供批量角色动作生成,减少手动建模工作量。

Goku的发布标志着ai视频生成从“辅助工具”向“生产级应用”的跨越。其低成本特性已吸引多家国际快消品牌进行试点合作,据估算可减少80%的广告制作周期。未来,结合实时渲染与3D建模技术,Goku有望进一步拓展至虚拟现实、元宇宙等场景。当前技术局限主要体现为长视频的情节逻辑控制,但团队表示将通过引入强化学习机制持续优化。

GitHub:https://github.com/Saiyan-World/goku

项目地址:https://saiyan-world.github.io/goku/

论文:https://arxiv.org/abs/2502.04896

同类推荐
相关资讯
  • 我国科学家用人工智能发现超短周期行星 近日,由中国科学院上海天文台葛健教授带领的国际团队创新了一种深度学习算法,并成功在开普勒卫星2017年释放的恒星测光数据中,发现了5颗直径小于地球、轨道周期短于1天的超短周期行星,其中4颗是迄今为止发现的

    AI教程资讯 02-27

  • Adobe推出全新AI视频生成器,使用授权内容训练 IT之家 10 月 15 日消息,Adobe 公司今日发布了全新的人工智能驱动的文本转视频工具 Firefly Video Model。该工具能够根据文本提示生成全新的视频,与竞争对手不同,Adobe 声称 Firefly Video Model 完全使用授权

    AI教程资讯 02-27

  • 政府带货AI+推出49个应用场景 近日,深圳罗湖区政府带货人工智能,一次推出了49个应用场景,未来的罗湖将是一个AI触手可及的城区。 随着人工智能的触角深入到各行各业,如何利用AI在未来抢得发展先机,成为各级政府的必解题。在罗湖推出的49

    AI教程资讯 02-27