你的位置:AG真人国际中国官网登录入口 > AG新闻 > AG真人国际中国官网登录入口 国产厂商第一, 世界第二! 我用外洋最强生图模子, 试出了这匹黑马的确凿段位
AG真人国际中国官网登录入口 国产厂商第一, 世界第二! 我用外洋最强生图模子, 试出了这匹黑马的确凿段位
发布日期:2026-06-11 12:34    点击次数:87

AG真人国际中国官网登录入口 国产厂商第一, 世界第二! 我用外洋最强生图模子, 试出了这匹黑马的确凿段位

作家 | 陈骏达

智东西6月11日报谈,本周,智象翌日(HiDream.ai)推出了其最新商用幅员像生成模子HiDream-O1-Image-1.5,并在世界盛名AI模子评测平台Artificial Analysis上拿下总榜第三、国内第一的收货。

这一模子的ELO得分卓越了Google Nano Banana 2、NVIDIA Cosmos3-Super-Text2Image和字节逾越的Seedream 4.0等国表里大厂的主流图像生成模子,和GPT-Image 1.5也仅有一分之差。

按厂商排行来看,智象翌日依然是世界第二、国内第一的生图模子玩家了。

HiDream-O1-Image-1.5使用的是一套名为“原生全模态”的新架构,此前已在开源模子HiDream-O1-Image上得回考据。在该架构中,图像像素、文本Token、视频体素等模态信号,从模子底层就被映射进归并个分享空间,用一套转圜的Transformer来领路和生成。

但榜单和期间细节除外,咱们更思知谈的谜底是:这一模子骨子用起来感受究竟若何,把它和外洋顶流拉到归并个擂台上真刀真枪比一场,谁能赢?

现在,HiDream-O1-Image-1.5已在智象翌日的HiHarness平台上线,支捏在线体验与API调用。智东西第一时候对其进行了实测。跑完十几个案例后,咱们也有了初步感受:国产生图模子的可用性,正在马上靠拢外洋顶流。

HiDream-O1-Image-1.5体验贯穿:

https://vivago.ai/

https://hiharness.ai/

开源模子HiDream-O1-Image下载地址:

GitHub:https://github.com/HiDream-ai/HiDream-O1-Image

Huggingface:https://huggingface.co/HiDream-ai/HiDream-O1-Image

一、三大场景概述实测,翰墨渲染、画面细节发扬出色

能否准确渲染翰墨,一直是图像生成领域的痛点,亦然好多在实测中最容易“翻车”的重灾地。咱们的实测也从这类任务初始。

首个测试案例是相对肤浅的海报筹办,内容是一部天际主题电影的竖版宣传海报。HiDream-O1-Image-1.5是精真金不怕火过关,它在海报中选择了三种不同的字体,翰墨渲染准确,字体的采用和筹办也与画面主题契合,莫得违和感。

HiDream-O1-Image-1.5的汉文渲染才气也可以。咱们让它给某个国内音乐节筹办一张海报。这个任务的难点在于,翰墨内容有多个信息层级,包括主标题、副标题、声势列表、时候地点、票价和票务平台。这些内容弗成混在扫数,必须有大小对比、区域别离。

最终,HiDream-O1-Image-1.5准确地生成了咱们条件的内容,竖版翰墨的渲染也莫得出现造作,信息呈现明晰,考吊水墨画的作风与音乐节的主题契合。

临了,咱们还测试了一个高难度的案例:特定作风的高密度翰墨渲染。咱们条件HiDream-O1-Image-1.5生成一册旧诗齐集的某一个页面,内容是英国诗东谈主的华兹沃斯的I Wondered Lonely as a Cloud。

在提供完整诗歌内容后,HiDream-O1-Image-1.5简直完好地渲染了这首诗歌的绝大部老实容,仅有极个别单词出现了小造作。同期,它也领路了领导词中“旧诗集”的作风条件,图中的诗集页面稍许泛黄,边角还有些岁月留住的萍踪。

生图模子的另一大问题等于确凿性。好多模子生成的末端一眼看上去就有AI味,比拟凸起的问题包括浓重感很强、构图和东谈主物等元素不适合事实等。

HiDream-O1-Image-1.5在“忙碌后厨”这一场景的还原上作念得可以。这张图包含厨具、原材料以及多位厨师。这几大主体的质感皆很利落,尽头是中间厨师眼前那团火焰,颇具现场感。

再来看细节,砧板上的三文鱼纹理、金属碗里食材的堆叠头绪皆比拟确凿,这些属于画面“边角料”的细节并莫得被HiDream-O1-Image-1.5忽略,而是保留了明晰的物理模式。

画面中,构图和东谈主物当作也基本合理,傍边两侧的厨师在备菜,中间的厨师在烹调,配景里还有勤劳的帮厨,天天德州app中国网入口扫数场景相配适合骨子的买卖厨房运作逻辑。

在另一个案例中,咱们让HiDream-O1-Image-1.5生成一张日本街头的像片。这张图全体氛围营造比拟到位,雨夜、霓虹灯牌、柏油路面反光皆得到确凿的呈现,远景的明晰与配景的景深虚化科罚得也很好。

不外,好意思中不及的是,图里有一个“穿帮”的小细节:那辆玄色出租车行驶的地方错了,在日本车应该是靠左行驶的。

临了,一款生图模子要在确凿坐褥场景阐发作用,还需具备对多种不同作风、筹办条件的领路力。咱们让HiDream-O1-Image-1.5齐集尝试了意大利老电影作风、1940年代老像片作风、拼贴画这三种迥然相异的作风。

首个案例中,模子到手领路了“意大利老电影作风”的中枢因素,色调符结合风条件,画面内容包含了意大利常见的卵石路、地中海海景等细节,画面中东谈主物的神态有种胶片电影捕捉到的天然感,在作风化与写实度之间找到了较好的均衡。

不才方任务中,HiDream-O1-Image-1.5到手模拟了20世纪三四十年代好意思国农场家庭合影的作风,东谈主物的颜色、衣着带有阿谁年代稀奇的作风,咱们在领导词中条件的模拟像片老化的着力也得到了还原,可以看到像片的边角有些缺构怨泛黄。

龙虎棋牌2026世界杯官方最新版

临了,在这一拼贴作风图像生成的任务中,HiDream-O1-Image-1.5收复了手工撕纸的质感、旧纸张的肌理以及金属部件的光芒感,材质对比富足冲击力。中间的花草与象征元素零散有致,很好地传达了“思象力与算法碰撞”的主题。

这几个案例跑下来,可以感受到HiDream-O1-Image-1.5在翰墨渲染上发扬塌实,多层级汉文排版也能准确呈现;画面确凿感强,细节经得起研讨。天然偶有小Bug,但全体可用性很高,AG真人国际(中国)官方网站很恰当需要高效出图的海报、影相、艺术创作等确凿坐褥场景。

二、分镜、UI、作风化,三款主流生图模子同台PK,谁更好用?

咱们也将HiDream-O1-Image-1.5与几款现时最流行的生图模子进行了对比实测,采用的实测玩法包括最近比拟流行的分镜生成、UI筹办、作风化等等。

先看分镜生成。这类任务条件模子同期科罚多格画面的构图逻辑、序号标注、画面连气儿性以及转圜的作风质感,是对模子概述领路力的齐集考验。咱们以“夜深便利店”的6格分镜稿为转圜测试题,分别输入HiDream-O1-Image-1.5与Google Nano Banana 2、OpenAI GPT-Image 2中。

Nano Banana 2的生成速率是其中最快的,不外它冷漠了咱们领导词中对于实拍质感的作风条件,生成的分镜图是漫画风的。

HiDream-O1-Image-1.5也很快给出了生成末端。HiDream-O1-Image-1.5作念得较为可以的是扮装的一致性。图中东谈主物在分镜2和5中的神态、衣着基本一致。同期,便利店场景的还原也较为适合事实。

不外,在生成“从冰柜里拿一瓶黑咖啡”的分镜3时,HiDream-O1-Image-1.5生成的咖啡罐有些过大,算是一个小的污点,但在后续的分镜中咖啡罐的比例被精确的颐养了过来。

GPT-Image 2是临了一个给出身成末端的模子。在细节还原度方面,GPT-Image 2作念得十分确凿,分镜3中罐装咖啡的排布、咖啡罐上的字样和冷凝水等细节皆按照领导词的条件收复了,全体科罚得很天然,基本莫得AI生成萍踪。

在UI筹办类任务中,咱们让三款模子给一个iPad欺诈筹办一个登陆页面。HiDream-O1-Image-1.5在筹办中选择了干净、当代的作风,视觉侵略比拟少,要点齐集在中枢功能上。

而GPT-Image 2选择了经典的卡片作风,在浅蓝色配景的中央摈弃了一个带大圆角的白色卡片,比拟模范。同期,它还用蓝色高亮了交互文本。

Nano Banana 2的生成末端是这三张图中最不像UI样板筹办的图片,它包含了环境配景,更像是用来作念展示的着力图。不外,在中枢的UI页面方面,它的发扬如故比拟中规中矩的。

咱们的临了一个对比实测任务是作风化。GPT-Image 2较好地还原了买卖影相与复旧胶片两种作风,但在抽象几何风的科罚上仍不够透澈。

Nano Banana 2在买卖影相作风上发扬可以,主动呈现出咖啡冒出的热气,画面更具诱导力。干系词,其胶片作风与买卖影相之间各异不赫然,空泛区分度。在抽象几何风方面虽作念了一定颐养,但全体的几何感仍不够到位。

临了望望HiDream-O1-Image-1.5。它在左侧的买卖影相作风上作念得可以,明晰度和光影皆适合条件。而在中间的复旧胶片质感方面,画面有一种胶片的颗粒感,色调偏移的采用也比拟适合胶片风的特色。而在抽象几何作风中,HiDream-O1-Image-1.5的科罚比拟斗胆,按照领导词条件废弃了物理写实。在三个模子中,它的发扬最适合领导词的条件。

从实测末端来看,三款模子各有长处。Nano Banana 2在生成速率上有上风,GPT-Image 2 在细节确凿度方面发扬凸起。而HiDream-O1-Image-1.5在多项任务中展现了可以的概述才气,无论是扮装一致性、筹办作风的审好意思,如故作风化任务中跨越三种作风的把控才气,均发扬出色。

可以说,HiDream-O1-Image-1.5在不少实测案例中依然展现出了并列乃至优于头部闭源生图模子的发扬。

三、已毕委果“原生全模态”,1个月内连气儿三次迭代

HiDream-O1-Image-1.5究竟是若何已毕上述生收着力的?谜底就藏在底层架构上。

传统文生图模子相同选择“文本编码器+VAE+DiT/扩散模子”的模块化旅途,其模式更像一棵不停分叉助长的树:文本有我方的tokenizer,图像和视频有各自的encoder/decoder,音频、当作、空间关系也时时沿着不同旅途被科罚,模块之间需要屡次颐养信息。

在翰墨密集排版、UI页面、多主体生成、多参考图截至、多分镜叙事等复杂任务中,这种架构更容易带来细节损耗、语义错位和结构不踏实。

HiDream-O1系列走的是“原生全模态”道路。所谓原生全模态,并不是先分别熟谙各模态模子再拼接,而是从架构筹办之初就让文本、图像、视频、音频等多种模态分享归并套表征体系,在模子底层已毕交融。

具体到HiDream-O1-Image系列模子,它去掉了传统生图历程中的VAE和独处文本编码器,将图像像素、文本Token、视频体素以及音频、当作、空间关系等原始信号映射进归并个分享Token空间,与归并套UiT(像素级转圜的 Unified Transformer) 交互,在转圜表征系统中完成领路、生成和推理。

UiT此前在智象翌日的开源模子HiDream-O1-Image依然得回选择,尔后,智象翌日也在快速迭代。本年5月,智象翌日发布了选择同款架构的HiDream-O1-Image-Pro,而本月登场的HiDream-O1-Image-1.5则是这一架构在商用领域的进一步考据。

新一代生图架构从盘考到开源再到商用落地,时时需要履历漫长的周期,而智象翌日的UiT架构当先在开源社区和买卖居品两条线上同期跑通,并在1个月傍边的时候内连气儿推出三款选择这一架构的模子。

这种高频迭代本人等于一个值得存眷的信号,反馈出UiT架构本人具备精致的可推广性和工程友好性,或者维捏起从本质探索到坐褥部署的快速跨越。

结语:生图模子加快走向原生转圜架构

有越来越多的生图模子,正从拼接式的架构走向原生转圜。一朝这条旅途全面走通,模子本就能像领路并生成天然说话内容那样,更好地科罚视觉生成任务。

智象翌日在这一架构内的快速迭代AG真人国际中国官网登录入口,依然初步阐明了这个底座的可推广性。跟着模子领域、熟谙数据和工程才气的捏续进化,咱们有原理敬佩,UiT所代表的期间范式,有可能成为下一代视觉生成模子的主流架构之一。