IT采购网6月28日消息,近日,来自马克斯・普朗克计算机科学研究所、MITCSAIL和谷歌的研究者们开源了一种名为DragGAN的新方法,用于控制生成对抗网络(GAN)。这一方法让用户能够通过简单的点击和拖拽,快速改变图像的各个属性,如汽车的尺寸和人物的表情。
DragGAN被视为一种直观的图像编辑工具,其使用方法简单明了。用户只需点击图像中的像素点并调整方向,便能够轻松地改变照片中主体的位置、姿态、表情、大小和角度等。相较于基于文本生成图像的人工智能技术,DragGAN的优势在于用户可以在生成图像后对其进行实时编辑,而无需重新生成整个图像,从而更加灵活地获得满意的结果。
据IT采购网了解,研究论文中展示了DragGAN的一些演示案例,其中包括增加山峰的高度、改变模特的姿势和衣服的长度和形状、张开或闭合狮子的嘴巴,以及将一个人的表情从平淡变成微笑等。这些案例展示了DragGAN在图像编辑方面的潜力,并为未来的研究和应用开辟了新的方向。
研究人员表示,DragGAN在基于GAN的操作中表现优异,超过了目前的最佳方法,并且具有广阔的应用前景。他们还计划在未来几个月将基于点的编辑扩展到3D生成模型,进一步提升编辑图像的自由度和效果。
值得注意的是,尽管DragGAN的源代码已经开源,但使用该代码有一些限制。该项目及其衍生作品只能用于非商业用途,仅供研究和评估目的使用。然而,英伟达公司及其附属机构可以在商业上使用该项目和其衍生作品,这为进一步推动技术的发展和应用提供了机会。
DragGAN的开源发布将进一步促进图像编辑技术的发展,为用户提供更多灵活和可定制的编辑选择。随着基于点的编辑技术的不断扩展,我们有理由期待在不久的将来能够更加方便地实现各种图像编辑任务。