文生图

这个是image2 生成的图片。这个是banana 生成的图片。这个是豆包生成的图片。大家觉得哪个图片更好一些呢？最近，GPT-Image-2 刷屏网络，它是OpenAI公司最新发布的文生图模型。只需要简单打几个字，就能帮你画出连专业摄影师都看不出破绽的照片。真实感真的是拉满了。所以，本IT博主对这个新模型的诞生也是倍感激动，迫不及待想体验一下这个工具。 1、初始界面打开chatgpt官网，可以看到，官网这里已经推送了更新提示。这里，我们只要点击下一步就可以了。另外我们可以看到，这里我用的是免费版，并没有开通plus、pro会员。所以说，免费的账户也可以体验 image2 的使用。 2、文生图步骤接下来，我输入框里给了它一段提示词——“请生成一个曹操在抖音直播间卖布洛芬的图片”。经过一番等待，图片就生成了。点击小箭头这里，会有一个弹窗，点击下载就可以顺利地下载下来。 3、赏析图片首先这个画面的布景和ui设计，做的非常逼真，跟抖音直播间是像素级别的复刻。画面里的字体，个别做的不是很清晰，但大部分是很到位的。直播间的头像和观众，略微有点瑕疵。左上角头像这里，我个人感觉，有点像孔老夫子然后，右上角这个人有点像奥地利落榜美术生。大家觉得呢？这里有一些细节，蛮搞笑的。这里显示发货地是，许昌。这个挺符合历史背景的。左下角这里是曹魏集团文官武将对老板的支持。曹丕说：父王带货，必须支持！张辽说：已拍，家中常备。典韦说：这价格太给力了。最后，这个图片是没有水印的，这也是一个优势吧。 4、对比接下来，我们对比一下谷歌和豆包，生成的图片。这里也是用的同样的提示词，我们先来看一下谷歌banana模型生成的效果如何。 ok，我们来赏析一下。这里直播间的布景和ui细节，稍微弱了一些。不是太像我们平时在抖音看到的直播间。字体部分，我看着大部分都还可以。个别字体，没有展示出来。然后，这里弹幕部分比较单一，只有曹公一个人在讲话。感觉直播间人气不是很旺。这里右下角有点别扭，它有个水印，这个毫无疑问是谷歌添加的水印。接下来，我们看一下豆包生成的图片，我们用的是seedream 5.0 lite 模型，也是用的同样的提示词。豆包比较给力，一次生成了四个图片。我们挑两个来说一下吧。这个图片就是动画风格。其实，跟我们的预期是完全不一样的。我觉得，可能豆包模型是想试探一下我们，想让我们筛选自己想要的风格，然后再进一步沟通优化。字体稍微有点瑕疵，胶囊两个字没有出来，有点像二维码。这个官帽也不太对吧？！感觉像唐朝的官帽。有没有懂哥，评论区或者弹幕来指点一下。然后，这个图片的话，相对来说比较符合预期。这里的字体细节，有点问题。还有弹幕这里的显示，也是存在一些细节问题。从人物形象来看，这个官帽也有问题。汉朝的官帽应该没有这个小翅膀的。 ...

你知道这些真人感十足的图片是如何生成的吗？只需要一个简单的文生图指令，就可以做出一张这样的图片吗？并非如此，好的图片不仅仅依赖模型，提示词也同样重要。换句话说，好的图片 = 厉害的模型 + 厉害的提示词。那么如何写出对应的提示词呢？下面这个开源项目，应该可以帮到你。今天分享一个非常牛的开源项目，star 达到了 2.8k，开源项目链接。大家可以在 git 平台搜索 gpt4o-image-prompts ，然后，就可以找到这个项目了。你可以在项目的 README 上，找到示例图片以及示例提示词。点击之后，会跳转到对应的案例，案例中会显示图片、提示词、模型、原作者信息，如下所示。图片：提示词： { "meta": { “项目”:“Ski_Gondola_Egirl_Flux_V4.2” "target_engine": "Flux.1 [dev] / Nano Banana Pro", 版本：4.2.0（一切尽在掌控 - f/11） "created_at": "2025-12-18T15:35:00Z" }, "engine_configuration": { “模型”： { "base": "flux1-dev.safetensors", “量化”： “fp8 / nf4”， "vae": "ae.safetensors" }, "lora_slots": [ { "name": "Realism_LoRA_v2（可选）", “强度”：0.5， “注意”：“增强瓷白的肤色、尼龙的质感和雪的反射效果。” } ], “采样”：{ "sampler_name": "欧拉， "调度器": "简单", “步骤”：28， "guidance_scale": 2.5, "shift": 1.0 }, “方面”： { 宽度：1024， “高度”：1536， "aspect_ratio": "2:3", "megapixel_class": "1.5MP" } }, "prompt_construction": { "narrative_layer": { "风格": "冬季生活方式/旅行摄影", “拍摄说明”：“在滑雪缆车内拍摄一张清晰、高对比度的照片，使车内主体与车外明亮的雪山景色达到平衡。” “subject_flow”: “一位肤色苍白、留着黑色狼头短发的年轻女子，身穿白色羽绒服，坐在缆车里，抚摸着自己的头发。” }, "texture_layer": { "skin_physics": "苍白的瓷肌，亮泽的嘴唇，夸张的电子女孩眼线，光滑的妆效" "fabric_physics": "白色羽绒服的亮面尼龙质感，黑色滑雪裤的哑光科技面料，滑雪镜的反光镜片", "environment_physics": "背景细节清晰：透明玻璃窗、山上的白色积雪纹理、深绿色的松树、蓝色的天空" }, "camera_physics": { "lens_imperfections": "高对比度，锐利的日光，玻璃上有轻微反射" “对焦”：“景深大（f/11）——无模糊。女子、缆车内部以及远处的雪山都清晰锐利。” 设置：索尼 A7R V，35mm 镜头，1/1000 秒，ISO 100（明亮的雪天） }, "color_grading": { “white_balance”: “冷色调日光（蓝天/白雪为主）” “阴影”：“小屋内深邃而清晰的阴影”， “亮点”：“雪地和外套上的明亮、清晰的高光” } }, "final_prompt_string": "一张使用索尼A7R V 35mm f/11镜头拍摄的真实生活照。景深大，画面清晰。一位年轻女性（19-25岁），拥有白皙的肌肤，留着齐肩黑发，刘海齐肩（狼刘海），坐在滑雪缆车内。她身穿亮白色短款羽绒服、黑色滑雪裤，头戴黑色滑雪镜。她轻轻拨了拨耳后的头发，神情平静地看向镜头。妆容精致，带有猫女风格，眼线上扬，唇彩闪亮。明亮的冬日阳光洒在她的脸上。背景清晰锐利：透过宽大的玻璃窗，可以清晰地看到白雪皑皑的阿尔卑斯山脉、滑雪道、松树和湛蓝的天空，没有丝毫虚化。高对比度。展现了冬季旅行的美感。" "negative_prompt_string": "", "note_on_negative": "Flux 会忽略明确的否定提示。清晰度由诸如“f/11”和“深景深”之类的肯定描述符保证。" "post_processing": { “高档”： { “启用”：true， “方法”：“Magnific_AI_Style（创造力：1）” }, “面部修复”：{ “启用”：false，警告：严重：禁用面部恢复功能。 } } } 你可以把上面的提示词 copy 下来，丢到豆包、gemini banana 等 ai 工具中去使用。 ...

GPT-Image-2 实测：与谷歌、豆包文生图效果对比

AI 文生图提示词宝库：2.8k star 开源项目，让你的图片更真实