GPT4Turbo上手：多模态的语言模型成了！自己可以训练专属GPT更是惊喜

文心一言很早就支持多模态了，GPT虽然发布了，但是始终都没有将图片生成和聊天正式混合在一起。昨天的openai开发者大会正式推出了GPT4Turbo，支持了非常多很酷的功能，特别是多模态的能力非常不错。现在，你可以对DALL3模型发送图片了。让我们一起来看看吧！

数据能力

GPT4Turbo目前的数据库已经更新到了今年三月份。

数据库更新

数据库更新意味着你终于可以提问一些最近的事情了。比如询问

现在的美国总统是谁？

美国总统

对于我常用的iOS开发可以询问一些关于iOS16的能力了。（为什么不更新到2023年7月，好气啊）

iOS16锁屏小组件

多模态图片能力

GPT4Turbo一个重大功能就是能够对你发送的图片进行分析并绘制。这一个让我首先就想到的是根据我自己绘制的形象设计扩展的动作和场景。

形象变化

生成新年场景

只能说确实设计了，但是也确实不像。询问了一顿最后得到了回复。

我提问：

你需要直接使用我提供的形象进行合成。你不能修改我提供的形象的样貌，只可以变更动作。你提供的图片都篡改了我的形象。

GPT回答：

我明白了，你希望生成的图像中的角色要与你上传的原始设计完全一致，不做任何变更，只是改变其动作以适应场景。遗憾的是，目前的技术限制意味着我不能直接取用你上传的图像中的角色并将其置入新的场景中。我的生成工具无法识别和复制特定的图形设计，只能根据描述来创作新的图像。如果有其他方式我可以帮助到你，或者你有其他的要求，请告诉我。

说明目前的图像生成方式是针对我现有的形象进行语言化的描述，然后再进行绘画。那么目前还是不能够作为已有形象的改变。

不过GPT绘图的能力是真的不赖。感觉这些图直接用都可以。

自然语言修改

那我试试通过自然语言来修改怎么样。这个是之前就有的能力。

换成白天

我们可以看到并不是整个图像直接换成白天，而是经过了一些重新思考绘制的。说明其实GPT4在绘画的过程中还是翻译了一遍。将之前的图片翻译成文字，然后配合我的自然语言描述，再经过二次加工的描述后生成图片。总体来说效果非常不错。

图像处理

所以按照之前描述的道理，直接删除人物也是不可以的。他只是在描述词里面删除了人物，并不是直接处理图像。所以目前直接处理图像的能力我见到最好的也就是photoshop的创成式填充。而GPT只能通过描述词来绘制图像。所有的绘图管线都要通过描述词。即使这个描述词对用户来说不可见。

去除人物

中文处理

之前用midjourney发现对于中文的支持很不友好。基本上无法绘制出中文文字。所以使用GPT试一下。

中文文字

我们可以发现虽然主题和内容都差不多，但是首先我们可以看到并不是根据我们的第二张图进行的设计，其次就是无法输出中文汉字。虽然生成的海报真的非常好看，但是不支持汉字的显示就比较奇怪。首先就是灯笼上“福”字的错误，还有右侧两张图片的文字显示。不过GPT确实提供了一个布局的创意方式，很适合作为灵感提供。目前直接用的能力还非常有限。比如左侧图片的NEW中的W渲染就错误了。不过已经很不错了。