1月14日,记者获悉,智谱聚首华为开源新一代图像生成模子GLM-Image,模子基于昇腾Atlas 800T A2开拓和昇念念MindSpore AI框架完成从数据到考验的全进程,是首个在国产芯片上完周至程考验的SOTA多模态模子。

本日港股开盘,智谱大涨超16%。
手脚谷歌Gemini生态下的最新图像生成模子,Nano Banana Pro此前凭借其“责任室级”的生成画质,在大家范围内爆火。
在业内看来,以Nano Banana Pro为代表的闭源图像生成模子,正在股东图像生成与大说念话模子的深度会通。技艺范式正从单一的图像生成,进化为兼具宇宙常识与推理技艺的“明白型生成”。
智谱表示,GLM-Image恰是其面向“明白型生成”技艺范式的一次关键探索,这亦然首个开源的工业阐扬级龙套自总结图像生成模子。
技艺旅途上,GLM-Image继承立异架构让,以模子“读懂写对”。濒临传统模子在“表露复杂提醒”与“精确绘图笔墨”上难以兼顾的问题,GLM-Image引入了“自总结+扩散解码器”羼杂架构,立外乡会通了9B的自总结模子与7B的DiT扩散解码器。
前者诓骗其说念话模子的底座上风,专注于擢升对提醒的语义表露和画面的全局构图;后者融合Glyph Encoder的文本编码器,专注于收复图像的高频细节和笔墨笔画,以此改善模子“提笔忘字”的征象。
同期,通过编削Tokenizer计策,GLM-Image大要自符合惩处多种永诀率,原生补助从1024x1024到2048×2048尺寸的自便比例图像的生成任务,无需再行考验。

基于上述架构立异,GLM-Image在笔墨渲染的泰斗榜单中达到开源SOTA水平。
Demo清晰,在科普插画上,GLM-Image更擅长绘图包含复杂逻辑进程与笔墨阐扬的科普插画及旨趣表示图。
在生成电商图、漫画等多格丹青时,GLM-Image大要保执作风和主体的一致性,并保险多处笔墨生成的准确率。
价钱方面,API调用情势下,使用GLM-Image生成一张图片仅需0.1元。
GLM-Image不仅是技艺立异的体现,亦然对国产预计生态的一次深度探索与考据。其自总结结构基座从早期的数据预惩处到最终的大界限预考验,全进程均在昇腾Atlas 800T A2开拓上完成。
依托昇腾NPU和昇念念MindSpore AI框架,使用动态图多级活水下发、高性能会通算子、多流并行等特质,智谱自研了模子考验套件,全面优化数据预惩处、预考验、SFT和RL的端到端进程。
智谱表示,GLM-Image是首个在国产芯片上完周至进程考验的SOTA多模态模子,考据了在国产全栈算力底座上,考验高性能多模态生成模子的可行性。
