香港大模子公司weitu ai首秀，打制众模态native的工夫和产物

李明昊 2024-04-10 06:16 995

"香港大模子公司weitu ai首秀，打制众模态native的工夫和产物,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作香港大模型公司Weitu AI首秀，打造多模态Native的技术和产品量子位·2024-04-09 16:25关注“技术驱动的多模态交互Native产品将形成新的产品习惯”

香港也有大模型公司了。

Weitu AI，一家全力打造多模态Native产品的公司，其创始人王历伟博士在介绍时，特别强调了“多模态Native”这个关键词。

就在前不久，Weitu AI推出了自家的150亿参数多模态大模型WeituAI 1.0，在诸多世界权威评测榜单如MMMU[1]，MMBench[2]，CMMMU[3]，SEED-Bench[4]和MM-Vet[5]等上一路高歌猛进。

虽然参数规模不算大，但不仅力压200亿参数量以下的同量级模型，甚至在一些榜单直接超车LLaVA-NeXT-34B、MM1-30B-Chat等更大模型。

这些评测结果(Result)不仅反映模型的性能优势，也反映了其多模态能力的全面性。

例如，在由俄亥俄州立大学(University)，滑铁卢大学(University)，卡内基梅隆大学(University)和普林斯顿大学(University)等机构联合发布的大规模多学科多模态理解和推理数据集MMMU上，WeituAI 1.0取得了百亿参数模型中的优异成绩，仅次于一系列规模更大的模型，如GPT-4V等[1]。

在由香港科技(Technology)大学(University)、中科院自动化所和首都大学(University)等机构组织的中文学科多模态数据集CMMMU上，WeituAI 1.0在200亿参数量以下模型中排名第一[3]。

探索算法创新，瞄准多模态交互Native

为什么首先是百亿参数模型？

据王历伟博士介绍，因为这个参数规模的模型在打造实际多模态场景产品的时候，有非常灵活的想象空间。

此次在这些多模态大模型评测基准上展示了基础的多模态理解能力，但是目前(Currently)上述的评测基准大多以理解能力为主，尚没有完全展示Weitu AI大模型最擅长和最有特点的多模态交互能力。

Weitu AI针对多模态交互做了很多结构优化，不仅让WeituAI 1.0模型在传统的多模态理解任务上保持优势，更让其在多模态交互Native场景大放异彩。

△

事实上，作为深耕多模态（视觉和自然(Nature)语言结合领域）十多年的资深教授，王历伟博士对当下大模型的局限有着敏锐洞察。

我自己从10多年前就开始了多模态人工智能的研究，比如当前非常重要的语言匹配到具体图像内容（Visual Grounding）这样的经典多模态任务也是我和合作者们一起在10年前就提出来的。虽然最近多模态大模型这个词语被整个领域反复提及，多模态大模型的发展还有一些重要的问题亟待解决。即使是GPT-4V也在很多多模态的任务上表现出亟待提高的一面，比如对多模态细颗粒度的信息理解准确度需要提高等等。

当问到为什么会出现这样的情况，王历伟博士指出，“原因很多，但是有一个非常本质且当前诸多多模态模型尚未完全解决的问题是，传统的图像文本映射到同一个向量特征空间(embedding)的表达方法对视觉和跨模态建模具有局限性。 ”

目前(Currently)基于向量空间做跨模态映射表达的局限性，虽然存在很多年，也还没被完全解决。

举个最简单的例子，请思考一个问题，单一的图像和文本向量空间映射是否具备能够准确匹配所有细颗粒度信息的能力？

比如，一张图有一只白色的羊站在草地上吃草，那么什么样的文本描述在映射空间里面才真的是适合这张图的？是更加细颗粒度却细节容易出错的，还是更加粗颗粒度但不容易描述出错的？

这个问题其实很本质，反映了单一的映射向量空间很难解决的问题。也恰恰是这一点，也体现在为什么现在许多多模态模型对数字，可能者对图像内容细粒度理解和可控的生成还有很多地方需要完善。

总结起来就是，多模态大模型技术其实还有很多可以改进的地方，而Weitu AI也在不断探索算法上的创新。

尤其是，我们(We)瞄准自己多模态的长期积累优势，提出新的多模态大模型更多地侧重在“多模态交互Native”，因为我们(We)努力(Effort)打造的也正是多模态交互Native产品。

技术驱动产品，“双轮驱动”成就多模态新机遇‍‍

在王历伟博士看来，一款成功(Success)的多模态Native产品，离不开技术和产品力的“双轮驱动”，缺一不可。

不论是B to C的平台产品，还是C端的APP产品，从多模态交互 Native这一点来看，核心都是让交互的效果和体验因为人工智能多模态技术的应用而达到最佳状态，从而成为新的产品习惯。而这件事的意义绝对不亚于大家用键盘打字输入搜索引擎框带来的产品习惯。

和移动互联网时代的产品相比，要打造一款成功(Success)的多模态Native产品有何不同？

王历伟博士认为，需要同时满足两个因素：第一个是产品力，第二个就是人工智能多模态技术。

这也让真正好用的多模态智能产品的出现变得有挑战，因为这两个要素是耦合在一起的。我觉得，多模态AI技术的临界点和诞生成功(Success)的多模态产品的时间点也会是耦合在一起的，而能够拥有这样机会的公司，一定是同时具备多模态技术能力和产品力的公司。我觉得 Weitu AI正是往这个方向上努力(Effort)，因为我们(We)具备对多模态场景的理解，对用户的同理心，对技术的孜孜追求和自信。

据悉，截止到4月，Weitu AI的多模态图像语言理解等技术被全球化的产品公司调用功能即将超过一亿次，而且这个数字会将来会持续增长。

但在王历伟博士看来，这还远远不够。

他认为，Weitu AI的细粒度跨模态理解能力持续给这些全球化的客户平台公司输送提高产品智能交互能力的“燃料”，而且这种细颗粒度理解能力只是Weitu AI多模态着力打造的多项技术优势中的一种。

不仅如此，Weitu AI自己的一款充满想象力的C端产品也在努力(Effort)打造中。将来 Weitu AI将致力于打造丰富的多模态交互Native产品矩阵，而这些产品矩阵的基础，就是Weitu AI不断进化和发展的多模态交互大模型。

大模型技术的发展，需要场景应用的迭代。而公司自建产品矩阵，正是构建场景闭环的关键一环。

好的商业模式和产品力，能让有理想(Ideal)的多模态公司跑得更快、更有信心。

站在用户和市场的角度，多模态大有可为

最后，王历伟博士分享了他对创业的感悟:

创业者要有同理心。一方面，对用户的同理心，能让团队打造出优秀的产品；另一方面，对市场和投资者的同理心，又能让公司的技术理想(Ideal)走得更远。

Weitu AI的故事，恰恰诠释了技术与产品力的“同理心”。他们(They)在多模态技术的攻坚上不遗余力，更以对用户痛点的洞察，为这项前沿技术找到落地的场景。于是，我们(We)看到的不再是简单的技术堆砌，而是与人的交互习惯深度融合的“多模态新产品”。

如果对打造这个新产品感兴趣，欢迎多模态大模型、AIGC、模型训练、推理和部署等方向的技术研发，前端和后端工程师，C端产品经理、产品运营、产品增长等方向的优秀人才投送简历至： job@weitu.ai

商务洽谈，也欢迎邮件联系contact@weitu.ai

评测榜单链接（其中WeituAI 1.0模型名称 Weitu-VL-1.0）

[1] https://mmmu-benchmark.github.io/

[2] https://mmbench.opencompass.org.cn/leaderboard

[3] https://cmmmu-benchmark.github.io/

[4] https://huggingface.co/spaces/AILab-CVC/SEED-Bench_Leaderboard

[5] https://paperswithcode.com/sota/visual-question-answering-on-mm-vet

*观点仅为作者所有。

本文来自微信公众号“量子位”（ID:QbitAI），作者：允中，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+16

好文章，需要你的鼓励

量子位特邀作者2收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章291亿投资拉动5万亿财富增长，大模型的泡沫来了？AI到底能不能完成小说梦？北大开源最强aiXcoder-7B代码大模型，聚焦真实开发场景，专为企业私有部署设计GPT-4一眼看穿论文会不会撤稿：7000篇实测准确率高达95%刚刚，又有20亿巨款砸向AI，产业场景里的AGIOpenAI在内的大厂混战多年，Suno凭什么赢了文生音乐(Music)的比赛AI在用：万万没想到，科技(Technology)论文还能这么读120亿Stable LM 2上线即开源，2万亿token训练，碾压Llama 2 70B“音乐(Music)版Sora”，比Suno好两倍？神秘AI音乐(Music)产品引热议，但被指过度炒作最新文章推荐固态电池哪里好，敢跟燃油车比续航短剧上头：豪宅插翅难逃，GMV狂增374.4%，再造增量神话？苏州又招GP了“阴阳”小米，就可以冲上热搜？祖国小县城，制霸澳洲房车曾经的“铁饭碗”专业，也开始卷了货运平台冲刺IPO，他们(They)的“护城河”是什么？市值缩水2000亿，李宁遭遇「中年危机」？为什么眼界低的人，都只能赚小钱？晓谈数据工程4-数据管道

量子位特邀作者

作者有点忙，还没写简介

发表文章2131篇最近内容北大开源最强aiXcoder-7B代码大模型，聚焦真实开发场景，专为企业私有部署设计1小时前GPT-4一眼看穿论文会不会撤稿：7000篇实测准确率高达95%1小时前香港大模型公司Weitu AI首秀，打造多模态Native的技术和产品1小时前阅读更多内容，狠戳这里下一篇刚刚，又有20亿巨款砸向AI，产业场景里的AGI

独角兽特斯联，再次被推至台前

1小时前

热门标签窜货轻燕燕窝哈根达斯冰激凌湾仔码头水饺大金空调假面吴锋智能酒店陈海滨围住神经猫完全竞争垄断优势理论理论经济(Economy)学经济(Economy)学派门格尔精英文化(Culture)精英培育余罪韦小宝网页游戏(Game)产品差异化战略张燕生力拓集团zuul徐璐动态模型迈巴赫奔驰gls suvs级迈巴赫gls关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴