苹果发布Pico-Banana-400K数据集,推动文本引导图像编辑研究突破
苹果公司发布 Pico-Banana-400K 数据集,旨在推动文本引导图像编辑领域的研究进展,该数据集将为研究人员提供丰富的图像和文本数据资源,有助于提升计算机在理解自然语言描述并将其转化为图像方面的能力,该数据集的发布将有助于加速人工智能技术在图像编辑领域的应用和发展,为用户带来更加便捷、高效的图像编辑体验。


https://www.php.cn/link/df2782c019d0d66a88af774011e8ab29
苹果公司近日推出了名为Pico-Banana-400K的大规模图像数据集,包含40万张精心筛选的图片。该数据集基于Google Gemini-2.5系列模型构建,相关论文《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》也已同步发布。
该数据集以OpenImages中的真实图像为原始素材,涵盖35种不同类型的编辑任务,归为8个主要类别。编辑图像由Gemini-2.5-Flash-Image(又称Nano-Banana)生成,随后通过Gemini-2.5-Pro对指令遵循能力与视觉质量进行评估和筛选。数据集中包含单步编辑、多轮编辑流程以及成功与失败结果的对比样本。


Pico-Banana-400K采用非商业性研究许可,仅供学术及人工智能研究使用,禁止用于商业用途。尽管苹果承认Nano-Banana在技术上存在一定局限,但仍希望该数据集能成为推动下一代图像编辑模型发展的重要资源,为训练和基准测试提供支持。论文已发布于arXiv,数据集亦可在GitHub上免费获取。
下一篇 >>
网友留言(0 条)