IT采购网4月10日消息,OpenAI今日声明,已向开发者广泛开放了其全新的GPT-4 Turbo withVision模型,这一模型在继承了GPT-4 Turbo系列的特点的同时,首次引入了视觉理解能力。
这一视觉增强的GPT-4Turbo模型,不仅维持了原系列128,000个token的窗口大小和截止到2023年12月的知识库,更融合了图像识别技术,从而赋予了模型新的视觉分析能力。在此之前,开发人员通常需要分别调用不同的模型以处理文本和图像数据,而现在,GPT-4Turbo with Vision的出现打破了这一常规,它将文本和图像处理功能整合到一起,不仅简化了开发流程,而且为各类应用开辟了新的可能性。
据IT采购网了解,不少开发者已经开始利用这一新模型进行创新实践。例如,名为Devin的AI软件工程助手正使用该模型提升其编程辅助能力;而健康健身应用Healthify则通过它来分析用户上传的饮食照片,提供个性化的营养建议;创意平台MakeReal更是巧妙地运用GPT-4 Turbo with Vision,将手绘草图转化为实际可运行的网站代码。
尽管这一强大功能目前还没有被整合到ChatGPT中,也未向公众开放,但OpenAI已暗示这一视觉增强的聊天功能不久后将在ChatGPT上亮相。