很多人玩 Stable Diffusion,卡住的地方不是显卡,也不是模型,而是那一串关键词。明明脑子里想的是“高级感客厅”,出来却像出租屋样板间;想要“日式庭院”,结果树长得像塑料盆栽。旁边的人看着也挺有意思:工具都装好了,参数也照着教程填了,偏偏输在“怎么把人话翻成机器听得懂的话”上。这时候,ChatGPT 就像一个会整理话术的中间人,能把模糊想法拆成 SD 更容易识别的关键词。

不少新手一上来就问:“帮我写一个室内设计 SD 提示词。”这类问法通常会得到一大段看似专业、实际很虚的英文,比如 luxury、beautiful、high quality 堆满屏。问题是,SD 不太吃“漂亮”这种空话,它更吃具体物件和视觉细节。
更好用的问法是让 ChatGPT 分层输出:
比如“做一个小户型客厅”,可以让 ChatGPT 改成“compact living room, warm wood floor, cream fabric sofa, hidden light strip, large window, soft morning light, realistic interior photography”。这就比“nice living room”靠谱多了。
普通人最尴尬的是英文关键词。其实不用硬装高手。咱们可以先用中文把需求说清楚,再让 ChatGPT 转成英文 SD prompt,并要求它保留关键词结构,不要写成长作文。
可以这样问:
我想生成一张 80 平现代奶油风客厅效果图,有弧形沙发、木地板、无主灯、白纱窗帘、下午阳光。请帮我整理成 Stable Diffusion 英文关键词,分为正向词和负向词。
这样出来的词更像“菜单”,不是散文。SD 读菜单,通常比读作文稳定。
有些人写关键词像点年夜饭:现代、极简、法式、侘寂、工业风,还要豪宅感、温馨感、未来感。模型看了也懵。一个画面最好只抓一条主线。
如果是室内图,建议优先锁三个东西:
有人测试过同一个模型,提示词从 20 个词扩到 80 个词后,画面细节确实更多,但跑偏概率也会上升。尤其是本地 SD,模型、采样器、CFG 都会影响结果,关键词不是越长越神。
负面词常被忽略,但它像拍照前清理桌面。尤其做建筑、室内、产品图,常见翻车点很固定:墙面变形、家具漂浮、灯具乱长、文字乱码、窗框歪斜。
可以让 ChatGPT 按场景生成负面词,比如室内设计常用:
这类词不玄学,但能减少一批低级事故。尤其“wrong perspective”和“distorted furniture”,对室内图还挺管用。
真正实用的技巧,是别只要一版。可以让 ChatGPT 同时给“保守版、细节版、氛围版”。
保守版适合先测试模型稳定性;细节版用来丰富材质和家具;氛围版则适合做封面图、作品集图。这样跑图时有对比,不会一张不满意就瞎改参数。
说白了,ChatGPT 不是替大家按下生成按钮的魔法棒,它更像一个会整理需求的助理。脑子里那团“我想要高级一点、干净一点、别太土”的模糊感觉,经它一拆,才变成 SD 能听懂的指令。图出得好不好,很多时候就差这一步翻译。
参与讨论
分层输出这个思路确实不错,比瞎写强多了