发布日期:2025-04-25 08:47 点击次数:189 |
新智元报谈fss 露出
裁剪:桃子 好困
【新智元导读】GPT-4o之后,OpenAI原生多模态图像生成模子API看重推出了,一张图低至0.02好意思元。新模子莽撞集中宇宙学问,生成愈加得当高下文图像,质地更高,还撑持多种功能自界说。
昨夜,OpenAI发布全新图像生成模子gpt-image-1,API向通盘迷惑者绽放。
这一次,他们径直把每张图的资本打到几好意思分。
关于低、中、高质地的方形图像,生成粗拙破耗0.02好意思元、0.07好意思元、0.19好意思元。
gpt-image-1集成了三大中枢功能:图像生成、图像裁剪、图像变体(仅限DALL·E 2)。
与GPT-4o图像生成不同,gpt-image-1最大的特色,在于撑持各式高等功能的定制。
比如,自界说输出图像的质地、尺寸、智力、压缩经由,甚而可选拔是否需要透明配景,莽撞本旨各种化创意需求。
它具备了强大的通用能力,不仅莽撞创作多种立场图片,还能精确谨守自界说需求。通过集中宇宙学问,生成更得当高下文的图像。
目下,你就不错在playground中使用gpt-image-1来快速迭代指示词和图像:
GPT-4o上线掀翻全网吉卜力风潮,并在发布首周众人1.3亿用户,创作了超7亿图片。
gpt-image-1算作OpenAI全新一个原生多模态图像模子,跟着API绽放,将会在异日极地面开释东谈主们创意。
着力一览
在官方API文档「探索」区,OpenAI放出了好多gpt-image-1生成图片的demo,着力格外惊艳。
接下来,就一睹为快吧。
一句话,让gpt-image-1展示出创建鳄梨酱所需的通盘食材。
底下这张黑甜乡之境,然而用了一个「小作文」指示词才完成的。
男同再来看它创作的外星东谈主Glorptak,有着凝胶状躯壳,半透明发光,格外可儿。
关于模特、电商行业来说,gpt-image-1将重塑创作状貌。上传一张穿着图、一张东谈主的相片,就能看到穿着上身的着力了。
橄榄油宣传图,也只需找一张配景图,gpt-image-1蓦的完成P图。
更神奇的是,上传一张房屋盘算平面图,gpt-image-1就能将其变为3D着力,愈加直不雅。
番茄酱告白,格外有视觉冲击力。
盘算矿泉水的瓶身,亦然多种立场拿握。
生成超写实的3D图标,看着格外有质感。
gpt-image-1还能生成粗线条手绘立场图解,为回针缝制法每一步配上了爽脆的发挥笔墨。
上传一张CD模板图,让gpt-image-1生成金属乐队黑胶唱片。
还有各式纹理的防卫图案,也长短常有创意。
还有动画分镜剧本——马匹越过轮回序列,gpt-image-1可作念到逐帧剖解重心。
上传悲怆流行音乐东谈主的相片,一张演唱会门票径直盘算好了。
自界说图像输出,精确创意
目下,OpenAI GPT Image API提供了丰富的自界说选项,让路发者宽裕掌控输出着力。
尺寸:撑持多种分辨率,比如1024x1024, 1024x1536
质地:可选low,medium,high三种渲染质地
智力:文献输出智力
压缩:针对JPEG和WebP智力,可修复0-100%级别的压缩
配景:透明或不透明
生成图像
通过图像生成端点,仅凭一段文本指示,即可生成令东谈主惊羡的图像。
可修复参数n ,一次可生成多张图像(默许情况下,API复返单张图片)。
\n
from openai import OpenAI\nimport base64\nclient = OpenAI()\nresult = client.images.generate(\n model=\"gpt-image-1\",\n prompt=\"Draw a rocket in front of a blackhole in deep space\"\n)\nimage_base64 = result.data[0].b64_json\nimage_bytes = base64.b64decode(image_base64)\n# Save the image to a file\nwith open(\"blackhole.png\", \"wb\") as f:\n f.write(image_bytes)\n
\n
图像裁剪
而图像裁剪功能,不错让创意更进一步。通过图像裁剪端点,你不错:
径直裁剪现存图片
参考图像生成新图片:上传多张参考图像,然青年景新图
局部裁剪(inpainting):通过上传图像和蒙版,精确替换指定的区域
参考图像生成新图片
比如,上传四张礼品图片,生成一个包含通盘礼品的清雅礼物篮的图像。
\n
from openai import OpenAI\nclient = OpenAI()\nresult = client.images.edit(\n model=\"gpt-image-1\",\n image=[\n open(\"body-lotion.png\", \"rb\"),\n open(\"bath-bomb.png\", \"rb\"),\n open(\"incense-kit.png\", \"rb\"),\n open(\"soap.png\", \"rb\"),\n ],\n prompt=\"Generate a photorealistic image of a gift basket on a white background labeled 'Relax & Unwind' with a ribbon and handwriting-like font, containing all the items in the reference pictures\"\n)\nimage_base64 = result.data[0].b64_json\nimage_bytes = base64.b64decode(image_base64)\n# Save the image to a file\nwith open(\"gift-basket.png\", \"wb\") as f:\n f.write(image_bytes)\n
\n
使用蒙版裁剪图像(局部裁剪)
你不错上传一个蒙版来裁剪图像,蒙版中的透明区域将被替换,而玄色区域保持不变。
OpenAI冷漠,你不错使用指示来描述通盘这个词新图像,而不单是是被擦除的区域。
蒙版条目:
1. 图像和蒙版需要智力一致,尺寸不异,大小不越过25MB。
2. 蒙版需包含Alpha通谈,在图像裁剪用具中保存蒙版时,务必勾选「保存Alpha通谈」。
\n
from openai import OpenAI\nclient = OpenAI()\nresult = client.images.edit(\n model=\"gpt-image-1\",\n image=open(\"sunlit_lounge.png\", \"rb\"),\n mask=open(\"mask.png\", \"rb\"),\n prompt=\"A sunlit indoor lounge area with a pool containing a flamingo\"\n)\nimage_base64 = result.data[0].b64_json\nimage_bytes = base64.b64decode(image_base64)\n# Save the image to a file\nwith open(\"composition.png\", \"wb\") as f:\n f.write(image_bytes)\n
\n
在自界说中,还需要防卫的包括:
方形图片以措施质地生成的速率最快,默许大小是1024x1024。
Image API复返base64编码的图像数据,默许智力是png ,但你也不错央求jpeg或webp。
若是使用jpeg或webp,还不错指定output_compression参数来铁心压缩级别(0-100%)。举例, output_compression=50便是把图像压缩50%。
此外,gpt-image-1撑持透明配景。要启用透明度,需将background参数修复为transparent。
\n
from openai import OpenAI\nimport base64\nclient = OpenAI()\nresult = client.images.generate(\n model=\"gpt-image-1\",\n prompt=\"Draw a 2D pixel art style sprite sheet of a tabby gray cat\",\n size=\"1024x1024\",\n background=\"transparent\",\n quality=\"high\",\n)\nimage_base64 = result.json()[\"data\"][0][\"b64_json\"]\nimage_bytes = base64.b64decode(image_base64)\n# Save the image to a file\nwith open(\"sprite.png\", \"wb\") as f:\n f.write(image_bytes)\n
\n
模子对比
天然gpt-image-1是目下OpenAI最强大的多模态模子,此前推出的DALL·E 2和DALL·E 3则是专为图像生成盘算的模子,各有长处。
字据不同需乞降场景,迷惑者可活泼从中经受这些模子API。
gpt-image-1使用同样是按Token计费,文本和图像的Token各有不同的价钱:
文本输入Token:5好意思元/百万token
图像输入Token:10好意思元/百万token
图像输出Token:40好意思元/百万token
如前所述,在实质应用中,关于低、中庸高质地的方形图片,每生成一张图像的用度粗拙划分为0.02好意思元、0.07好意思元和0.19好意思元。
从创意到贸易无穷可能
OpenAI全新Image API的推出,将为九行八业解锁更多创意魔法。
目下,创意用具、电商、西席、企业软件、游戏等行业的起始企业和初创公司,照旧将图像生成集成到他们的产物和事业中。
Adobe的创意用具,包括Firefly和Express,将通过gpt-image-1为创作家提供选拔和活泼性,便捷他们实验不同的好意思学立场。
Figma正在应用gpt-image-1检朴单的指示词生成和裁剪图像,使盘算师莽撞快速探索创意并径直在Figma中进行视觉迭代。
HeyGen正在使用gpt-image-1来增强头像创建,畸形是在平台内改善头像裁剪。
Photoroom正在使用gpt-image-1匡助在线卖家从单一产物相片中蓦的创建职责室级别的视觉着力、生涯场景和模特展示图。
此外,Canva已将gpt-image-1集成到Canva AI和Magic Studio用具中,进一步扩张盘算生成和裁剪能力。
通俗的草图,gpt-image-1即可将其编削为清雅图形元素。与此同期,它还撑持高保确实视觉裁剪,让2.3亿用户莽撞用全新状貌将创意变为实践。
专为盘算logo而生的GoDaddy,通过集成gpt-image-1,不错拖沓创建裁剪Logo,去除配景并生成专科字体盘算。
借助GoDaddy Airo,创意者通过指示即可生成原创产物和品牌内容,并打造体现自己品牌个性的酬酢媒体和营销素材。
还有HubSpot通过OpenAI图像新模子,有望透顶翻新客户制作高质地酬酢媒体、邮件营销以及落地页图片的状貌,无需专科盘算训诲也能拖沓达成。
Instacart正在测试奈何应用API生成用于菜谱和购物清单的图片,以进步用户体验。
创作个性化视频invideo,在集成gpt-image-1后,将撑持更强大的文本生成、缜密化裁剪铁心和高等立场疏导,进一步丰富了用户的视频创作体验。
参考贵寓:
https://openai.com/index/image-generation-api/