苹果发布Pico-Banana-400K数据集，推动文本引导图像编辑研究突破

2026-01-09/ 9 次浏览/ 资讯

苹果公司发布 Pico-Banana-400K 数据集，旨在推动文本引导图像编辑领域的研究进展，该数据集将为研究人员提供丰富的图像和文本数据资源，有助于提升计算机在理解自然语言描述并将其转化为图像方面的能力，该数据集的发布将有助于加速人工智能技术在图像编辑领域的应用和发展，为用户带来更加便捷、高效的图像编辑体验。

苹果发布 pico-banana-400k 数据集，助力文本引导图像编辑研究

苹果发布Pico-Banana-400K数据集，推动文本引导图像编辑研究突破

https://www.php.cn/link/df2782c019d0d66a88af774011e8ab29

苹果公司近日推出了名为Pico-Banana-400K的大规模图像数据集，包含40万张精心筛选的图片。该数据集基于Google Gemini-2.5系列模型构建，相关论文《Pico-Banana-400K：面向文本引导图像编辑的大规模数据集》也已同步发布。

该数据集以OpenImages中的真实图像为原始素材，涵盖35种不同类型的编辑任务，归为8个主要类别。编辑图像由Gemini-2.5-Flash-Image（又称Nano-Banana）生成，随后通过Gemini-2.5-Pro对指令遵循能力与视觉质量进行评估和筛选。数据集中包含单步编辑、多轮编辑流程以及成功与失败结果的对比样本。

苹果发布 Pico-Banana-400K 数据集，助力文本引导图像编辑研究

Pico-Banana-400K采用非商业性研究许可，仅供学术及人工智能研究使用，禁止用于商业用途。尽管苹果承认Nano-Banana在技术上存在一定局限，但仍希望该数据集能成为推动下一代图像编辑模型发展的重要资源，为训练和基准测试提供支持。论文已发布于arXiv，数据集亦可在GitHub上免费获取。

关键词：git go github 人工智能苹果 google 苹果公司 gemini

<< 上一篇

战地风云™ 禁区冲突开启全新战斗时代，随战地风云 6首个赛季重磅推出

下一篇 >>

混元推出国内首个交互式AI播客平台

苹果发布Pico-Banana-400K数据集，推动文本引导图像编辑研究突破

网友留言（0 条）

发表评论

苹果发布Pico-Banana-400K数据集，推动文本引导图像编辑研究突破

相关文章

网友留言（0 条）

发表评论