爱游戏- 爱游戏体育- AYX体育官方网站零训练实现3D场景生成SOTA：英伟达康奈尔提出文本驱动新流程

作者:小编2025-06-13 21:29:13

　　爱游戏（AYX）是全球最大的在线综合性娱乐平台[永久网址:363050.com]爱游戏体育在赞助和服务覆盖方面遥遥领先于其他同行，每天为您提供近千场精彩体育赛事。包括爱游戏真人、爱游戏棋牌、爱游戏电竞、爱游戏体育、爱游戏电子、全球各地赛事、动画直播、视频直播等服务。

爱游戏- 爱游戏体育- AYX爱游戏体育官方网站零训练实现3D场景生成SOTA：英伟达康奈尔提出文本驱动新流程

　　本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生，导师为 Abe Davis 教授和 Noah Snavely 教授，研究方向专注于生成式 AI 与多模态大模型。本项目为作者在英伟达实习期间完成的工作。

　　想象一下，你是一位游戏设计师，正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个精灵族树屋村落—— 参天古木和树屋、发光的蘑菇路灯、半透明的纱幔帐篷... 传统工作流程中，这可能需要数周时间：先手工建模每个 3D 资产，再逐个调整位置和材质，最后反复测试光照效果…… 总之就是一个字，难。

　　这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 Blender、Maya 虽然功能强大，但学习曲线陡峭。近年来兴起的文本生成 3D 技术让用户可以通过文字描述生成 3D 内容，但这些方法要么依赖有限的 3D 训练数据，遇到新场景类型或风格就容易翻车，要么在预测完场景中的物体信息后，要从特定的 3D 模型池中寻找并调用出与预测特征最相近的，因此最后的场景质量非常依赖于模型池中到底有什么，很容易导致风格不统一。

　　与此同时，文本生成 2D 图像技术（如 GPT-4o、Flux）却突飞猛进。这些模型通过海量互联网图像训练，已经能生成布局合理、风格统一的复杂场景图。这引发了一个关键思考：能否让 2D 图像充当中间商，先把用户输入文字转化为高质量场景图，再从中提取 3D 信息？NVIDIA 与康奈尔大学联合团队的最新研究 ArtiScene，正是基于这一 insight 提出的全新解决方案。

　　ArtiScene 的核心创新在于构建了一个完全无需额外训练的自动化流水线，将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步：

　　系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图，因为它能同时呈现物体的长、宽、高信息，且不受场景位置影响。相比直接生成 3D，这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。

　　图二：和其他任意的相机视角（左二、三）比，让文生图模型输出等轴测图（左一）更可靠，因为等轴测图默认相机参数是固定的，且没有透视形变。

　　采用两阶段检测策略：先用 GroundedDINO 识别场景中的家具和装饰品，对遮挡部分用补全修复（Remove Anything 模型），再次检测确保完整性，最后得到每个物品的分割掩码。

　　通过 Depth-Anything-2 模型估计深度信息，配合自定义投影公式将 2D 坐标转换为 3D 位置。团队发现传统相机投影公式需要调整，于是采用去除深度缩放影响后的公式。

　　传统方法通常从现有数据库检索 3D 模型，导致美观度受限。ArtiScene 则对场景图中的每个物体分别生成定制化 3D 模型：在得到分割物体图像后，让 ChatGPT 描述其几何特征，再输入单视图 3D 生成模型，为每件家具、装饰品单独建模。

　　通过单目深度估计，系统将 2D 边界框转换为 3D 空间坐标。并使用渲染 - 比对的姿势估测机制，生成 8 个旋转角度的物体渲染图，用 Stable Diffusion+DINO-v2 融合模型提取特征，选择与原始场景图最匹配的姿势。后处理阶段还会自动修正物体重叠，确保物理上足够合理，比如椅子不会嵌进餐桌里，花瓶能稳稳立在柜子上。

　　相比当时效果最好的文生 3D 场景方法 Holodeck，在包含 29 种场景种类和风格的测试集中：

　　物体编辑：单独修改某个模型（如把普通汽车变成黄色保时捷）多场景适配：通过调整参数支持户外场景生成人工引导：允许直接输入手绘设计图替代 AI 生成场景图

　　图五：左：物体编辑；右：跳过最开始的文生图环节，直接用人工画的图生成场景。

　　对于更复杂的多房间场景（如整个博物馆、医院），或者要求特定家具间的位置关系和个数等用户输入，由于文生图模型在训练时就缺乏相关数据，ArtiScene 在最开始就会受限于不够优质的二维图像。然而，这一模块是可更换的，ArtiScene 不依赖于某一特定模型，未来如果有性能更好的同功能模型，我们也可以很容易把它们替换进来。

　　本项目创新地采用二维图像来引导三维场景生成，并用 LLM、VLM 等大模型构成了一个鲁棒的系统，在生成结果的美观度、多样性和物理合理性上都远超之前的同类型方法。作者希望他们的工作可以启发未来更多关于具身智能、AR/VR、室内 / 室外设计的思考。

　　06月03日中国驻英大使：稳定和互惠互利的中英关系利于两国和世界宝博体育官网链接葡京国际登陆看牌抢庄怎么玩188金宝博登录官网

　　克丽欧的红色复仇第二季，卢昱晓出妆前后生图成都世园会闭幕接待中外游客超千万人次拜仁欧冠小组赛信誉国际娱乐城什么地方买球火狐体育全站app官网入口

　　异世界自杀小队，青之箱深港两地深化职业教育合作亚娱体育app云开体育网页版入口网投十大信誉可靠平台免费领体验金

　　EDG 我们是冠军，《地狱潜者2》强制玩家绑定PSN代表通道丨马秀英：迷彩绿、消防橙、警察蓝、志愿红绘就了抗震救灾的最美色彩凯时网上国际官方万博官网手机版网页登录入口万博maxbextx是什么和记登陆

　　镀金时代第二季，海口市委书记罗增斌被查安徽蚌埠市城市投资控股有限公司原董事长李德昌接受审查调查AG贵宾厅注册可以试玩cq9游戏的网站华体会娱乐体育首页银河开户

　　三十年前的羽绒服比我穿的潮，拉夏贝尔总部基地9.5亿元起拍广西做好“土特产”文章促“甜蜜事业”高质量发展篮球直播188澳门电玩网站万人二八杠棋牌游戏云顶真人

　　舍不得星星，时代少年团王者荣耀表演赛两岸菁英文化研习活动在天津大学开幕海峡同文书院揭牌大赢家体育彩票开户注册送8金币伟德体育网址吉祥体育官网

上一篇丨

德州为起点又一跨区爱游戏- 爱游戏体育- AYX体育官方网站域工程启动程序！

下一篇丨

处置账号76爱游戏- 爱游戏体育- AYX体育官方网站万个！严厉打击网上“饭圈”问题

全国咨询热线： @BETHASH6

爱游戏资讯

爱游戏

爱游戏- 爱游戏体育- AYX体育官方网站零训练实现3D场景生成SOTA：英伟达康奈尔提出文本驱动新流程

联系我们