谷歌Gemini火力全开！实测：原生图像生成新升级确实强

人脑网 • 2025年5月8日下午3:57 • 智能 • 阅读 11

谷歌Gemini原生图像生成功能又双叒升级了！

与之前的实验版本相比（Gemini 2.0 Flash Experimental），这一次主打图像质量更好、文本渲染更准确，生成速度更快。

只需一句话，就能将两张图片中的元素丝滑融合在一起。

还能实时编辑图像，比如刚说完给图中人物加上眼镜，图片立马就生成好了。

p.s. 这个需要在Google AI Studio的Starter Apps板块体验

也可以指定仅修改图中某一部分，新图的其他部分能同时和原来保持一致。

更有意思的是，搭配Gemini 2.0 Flash食用，还能让模型自己构思自己生图。

现在，这些功能都可以在Google AI Studio免费试玩，模型请认准“
gemini-2.0-flash-preview-image-generation”。

开发者可以通过Google AI Studio和Vertex AI中的Gemini API集成，每张图片的价格为0.039美元（约合人民币0.28元）。

实际上，本次升级距离谷歌首次推出Gemini原生图像生成功能，仅过去一个多月时间。

网友们的感受也都体现在了下面这张梗图中：

实测最新升级

据谷歌AI Studio开发者平台产品负责人透露，本次升级主要体现在以下几个方面：

更好的视觉质量
更准确的文本渲染
显着降低滤波器阻塞率（延迟和卡顿更低）
更高的速率限制（更快生成图像或能同时处理更多图像）

那么其实际表现究竟如何呢？我们也第一时间进行了实测。

首先，在谷歌提供的demo中，我们看到了它能很好地将完全不同的元素自然融合在一起。

于是我们也提供了下面两张原图，要求它帮忙生成量子位周边。

实测用时5.4s，几乎一瞬间就生成了我们想要的图片。

尽管logo的颜色还有细微偏差，但整体构图已经很成熟了，处理抠图以及融合都比较干净。

而且上面这个例子还顺道考查了其文字渲染能力，除了中文，我们再尝试一下其他文字。

最常见的英文渲染正确，并且还自带艺术字设计。

继续换成希腊文（中译为“我爱你”）也有同款优秀表现，仔细对比未发现渲染错误。

OK，短暂告别这一趴，接下来我们测试其换图or扩图能力。

开启“找茬”模式后，我们不得不承认它确实只更换了吊床颜色，其他素材均和原图一致。

同时可以看到，在秒速生图过程中，它还会在接收用户指令后给出自己的理解。

此外，如果只给人物上半身，要求它生成完整人物形象呢？

第一次扩图，它只前进了一小步，完成了更多的人物上半身复原工作。

新生成的部分看起来也非常合理，从一根蓝色肩带扩展到了背带裤穿搭。

不过这不是我们一开始想要的“全身肖像”，所以继续……

最终结果如下，人物的比例和姿态都很完美，生成效果着实惊艳。

最后我们也体验了一波实时绘图功能，结论是其原生图像生成的速度确实快。

我们先随意画了一个太阳的草图，要求它为太阳加上笑脸，结果立马就搞定了。

而且还支持上色，效果也非常不错。

小结一下，从我们的实测来看，升级后的Gemini原生图像生成功能确实表现惊艳，尤其在遵循用户指令、文本渲染等方面。

当然，除了我们的测试，更多网友也第一时间分享了各自的玩法。

比较经典的就是用来搞装修设计，可以一键测试自己想要的装修风格。

不过也有浅浅翻车的，用它来扩图时最后生成的人物比例有点子怪异。

与此同时，也有人将它和近期非常火爆的GPT-4o生图进行了对比，初步结论是整体仍不如GPT-4o（doge）。

One More Thing

值得一提的是，谷歌最新生图功能还能搭配Gemini 2.5 Pro（近期以强悍的代码能力而出圈）食用。

只需在提示栏中选择 “Canvas”，上传一张图片后输入下列提示词：

最终就能得到一段视频演示。

除了预览效果，还能一键切换查看代码。

最后，也欢迎大家进行更多测试，顺便评论区带图分享一波~

在线体验：
https://aistudio.google.com/

主题测试文章，只做测试使用。发布者：人脑网，转转请注明出处：https://www.rennao.com.cn/11867.html

赞 (0)

0 0

1/8成本比肩Claude 3.7，Mistral Medium 3来了

上一篇 2025年5月8日下午3:56

英伟达50系甜品卡发售日期定了！国内定价2499元

下一篇 2025年5月8日下午3:57

智能

微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑

微软以小搏大，发布首个开源2B参数规模“原生1bit”LLM—— BitNet b1.58 2B4T，单CPU就能跑，性能与同规模全精度开源模型相当。它采用三进制{-1, 0, 1}存储权重，相较于传统的16位浮点数可大幅降低显存需求。只需0.4GB内存即可运行。基于4T token语料训练，BitNet b1.58 2B4T在保持性能的同时，计算效率…

人脑网
2025年4月21日
24000
智能

DeepSeek精度效率双提升，华为信工所提出思维链“提前退出”机制

长思维链让大模型具备了推理能力，但如果过度思考，就有可能成为负担。华为联合中科院信工所提出了一种新的模式，让大模型提前终止思考来避免这一问题。利用这种方法，无需额外训练，就可以让大模型的精度和效率同时提升这种方式名为DEER，也就是动态提前退出推理（Dynamic Early Exit in Reasoning）的简称。其核心在于找到推理信息质量下降…

人脑网
2025年5月12日
9000
智能

一个「always」站在大模型技术C位的传奇男子

这是最近网友不断对着Transformer八子之一的Noam Shazeer（为方便阅读，我们称他为沙哥）发出的灵魂疑问。尤其是最近Meta FAIR研究员朱泽园分享了他们《Physics of Language Models》项目的系列新进展后，有网友发现，其中提到的3-token因果卷积相关内容，沙哥等又早在三年前就有相关研究。是的，“”。因为你只…

人脑网
2025年5月10日
4000
智能

8招教你快速打造作品的『全栈设计感』

你，也可以成为“UI+交互+用户体验+跨界设计”综合能力的设计师。

人脑网
2017年4月17日
372453
智能

Claude 4被诱导窃取个人隐私！GitHub官方MCP服务器安全漏洞曝光

被选为GitHub Copilot官方模型后，Claude 4直接被诱导出bug了！一家瑞士网络安全公司发现，GitHub官方MCP服务器正在面临新型攻击—— 通过在公共仓库的正常内容中隐藏恶意指令，可以诱导AI Agent自动将私有仓库的敏感数据泄露至公共仓库。就是说，当用户使用集成了GitHub MCP的Claude 4 ，用户的私人敏感数据可能遭到…

人脑网
2025年5月27日
3000

发表回复

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信