繼此前在 2025 I/O 開發者大會上發布新一代文生圖模型 Imagen 4 系列后,日前谷歌方面宣布,該系列模型已上線 Gemini API 付費預覽版,同時用戶可通過 Google AI Studio 進行有限免費測試。
據了解,與 Imagen 3 相比,Imagen 4 系列支持 2K 分辨率的圖像生成,并在細節捕捉上實現顯著提升。此外 Imagen 4 系列在文本渲染方面取得突破,能夠在圖像中生成清晰、準確的文字,這也意味著其適用于需要嵌入自定義排版的設計場景,例如廣告、漫畫或邀請函等。
但需要注意的是,為了維護信任和透明度,Imagen 4 模型生成的所有圖像將繼續包含不可見的數字 SynthID 水印。
值得一提的是,日前谷歌方面還發布了首個可以直接部署在機器人上的視覺 - 語言 - 動作(VLA)模型 Gemini Robotics On-Device。據了解,作為 Gemini Robotics 系列的新成員,Gemini Robotics On-Device 可以幫助機器人更快、更高效地適應新任務和環境,同時無需持續的互聯網連接。
面向開發者,谷歌方面還將發布 Gemini Robotics SDK,用于評估 Gemini Robotics On-Device 在其任務和環境中的表現。同時,開發者還可使用該 SDK 在谷歌 DeepMind 的 MuJoCo 物理模擬器中測試該模型,并快速將其適應到新領域。
【本文圖片來自網絡】