建筑效果图最怕什么?不是“画得不够美”,而是每一张都像开盲盒:体量跑偏、立面节奏失真、透视关系松散。ControlNet的价值,恰恰在于把这种不确定性压下去。它不是替设计师决定建筑,而是把草图、线稿、深度图、法线图这些“设计约束”重新塞回生成链路里,让AI不再只会发散,而开始学会服从。
建筑图像和角色插画不同,容错率低得多。门窗开间、层高比例、檐口走势、体块咬合,只要错一处,专业人士一眼就能看出“假”。ControlNet的控制逻辑很直接:先提取结构信息,再在扩散过程中持续约束构图。论文《Adding Conditional Control to Text-to-Image Diffusion Models》提出的核心方法,就是在不破坏原模型能力的前提下,为生成过程增加条件分支。
放到建筑场景里,这意味着三件事:
很多人把ControlNet当“加一个插件就更稳”,其实不够。建筑出图的精度,首先取决于输入的控制源质量。
| 控制类型 | 适合任务 | 作用重点 |
|---|---|---|
| Canny | 概念草图、体量边界 | 保留轮廓与硬边 |
| Lineart | 立面线稿、手绘草图 | 强化线性结构 |
| Depth | 鸟瞰、街景透视 | 锁定空间层次 |
| Normal | 曲面建筑、复杂折面 | 保留表面朝向 |
| Seg | 城市界面、景观建筑混合场景 | 区分区域语义 |
说白了,建筑师如果已经有一张Rhino导出的线稿,用Lineart往往比单纯写一大串提示词更有效;如果目标是控制街角透视和前后景深,Depth的收益会明显更高。
不少失败案例不是模型差,而是参数失衡。建筑出图里,Control Weight通常不宜一味拉满。权重过高,画面会僵,像被硬压着描图;权重过低,建筑轮廓又会散。经验上,0.7到1.1是比较稳的区间,复杂立面可略高,气氛图可略低。
另一个关键是Start/End控制时段。建筑草图需要前期强约束,后期留一点材质和光影的自由度,所以常见做法是前段介入更强,后段逐步放松。不然会出现一种很别扭的结果:结构是对的,材质却像贴纸。
在方案汇报前夜,很多团队会这么跑:
这一套下来,原本要花两三天反复建模、渲染、后期拼气氛的图,可能一下午就能出到汇报可用的版本。不过,AI再快,也替代不了判断:柱网逻辑不通,ControlNet也救不了。
ControlNet能解决的是“像不像设计意图”,解决不了的是“设计本身是否成立”。它擅长把模糊草案变成可信图像,却不会自动修正消防流线、结构跨度和幕墙模数。也正因如此,真正高水平的AI建筑出图,不是把控制交给模型,而是把模型关进设计师设好的笼子里。笼子越精确,图越听话。
参与讨论
Canny和Lineart的区别讲得挺清楚,之前一直混用