对话豆包一文一图见“智商”高低

8次阅读

IT时报记者潘少颖图壹图网

Grace改名为豆包的时候，字节跳动没少被人笑话。但就是这个接地气的名字，如今站上了字节大模型家族的C位。字节跳动战略和产品副总裁朱骏曾这样解释，一定要拟人化，产品起名的通用原则是简单、好读、好记。

在豆包家族中，有五个垂类模型，分别是角色扮演模型、语音合成模型、声音复刻模型、语音识别模型和文生图模型，基本涵盖了目前模型普遍使用的场景。

在8月中旬举行的火山引擎AI创新巡展—上海站活动上，火山引擎总裁谭待表示，豆包大语言模型最新实现多维度升级，综合性能提升20.3%。

在豆包首页的“对话”中，可以清晰地看到功能分类，包括写作神器、AI图片生成、英语外教、文案助手、工作日报等，从功能上来说，和其他家的大模型功能比较相似。但是豆包的“智商”有多高？不妨来考考它。

AI图片生成：从简至繁的挑战

对于大模型来说，图片生成说难也不难，说不难也难，因为没有固定的正确答案，比较简单的要求，大模型或许都能完成，但是对于一些较为复杂的指令，就要看大模型的“智商”了。豆包大模型支持写一句话即可生成图片，而且多种风格可选。

“一个人在沙滩漫步，脸色忧郁，漫画风”，条件比较简单，半分钟左右，豆包生成了四宫格，四幅画基本都满足条件，背景是蓝天、白云、沙滩和大海，主人公的服饰、步态、方向不一样，供用户选择，如果有满意的图片，可以下载。但是，“忧郁”这个表情并没有很好地刻画出来，第一眼看上去并没有感受到主角的忧郁。

在这幅图的基础上，《IT时报》记者提出了修改要求，“把男性变成女性，表情再忧郁一点”，本意是把主人公换成女性，但豆包似乎没理解，新生成的四张图中，虽然女孩的表情更显忧郁，但背景已经不是海边，而且人物风格也从漫画变成写实，完全和第一张图没有关系。

“背景不变，在海边，依然是漫画风格”，《IT时报》记者继续调整，得到这个指令后，豆包生成的图片是四幅海边的漫画图片，就是第一幅图片的背景，但是主人公不见了。看起来，豆包并没有把这三个要求看成是连续的要求。

此前，《IT时报》记者在“调戏”其他大模型时，发现如果画面中有多人或者不同年龄的人群，生成的图片效果并不理想。“海滩上，外婆、妈妈带着一个小女孩在捡贝壳，漫画风”，这次豆包的表现不错，既展现了三个女性，年龄层次也很容易区分，背景、动作、风格都没有出现失误。

看起来，尽量一次性把图片的条件都说清楚，豆包基本上都能在画面上展现出来，但是在对画面进行微调时，豆包还应该更清晰地把要求串联起来。

AI搜索：从基础到深度

此前，《IT时报》记者曾做过夸克、元宝和天工的AI搜索功能，总体而言，各家AI搜索应用各有各的优势，但也会有“迷糊”的时候。

看看豆包的AI搜索功能如何？

“水由哪些物质构成”，豆包基于8个搜索来源，包括抖音百科、网易、新东方在线等，给出了答案。总体来看，答案还是很详细的，水（化学式：H2O）是由氢、氧两种元素组成的无机物，在常温常压下，水为无色无味的透明液体……

豆包还有深入搜索功能，同一个问题，搜索了20个来源，从水的元素组成、分子构成讲到了化学性质以及在生命活动中的作用。虽然很详细，但非常专业，于是被要求“解释得通俗一点”，这时，回答的风格变了：水由氢元素和氧元素组成，就好像用氢原子和氧原子这两种“小积木” 搭成了水这个“大东西”。在我们身体里，水就像一个“小卡车”，把营养物质运送到身体各个部位，又把代谢产生的废物运出去。用了比喻的方法，解释得比较清楚。

在实时新闻搜索方面，豆包的精确度也较高。“最近上海的家电以旧换新政策是什么”，豆包通过9个搜索来源，总结出上海最近的家电以旧换新政策是从2024年9月7日至2024年12月31日，对个人消费者购买冰箱、洗衣机等8类1级能效产品按照销售价格20%予以补贴，2级能效产品按照销售价格的15%予以补贴，每位消费者每类产品可补贴1件，每件补贴不超过2000元。

“适老化产品有哪些可以参加补贴？”，继续追问，豆包也很快给出了详细的答案，分别是按照国家政策补贴的5个品种，如语音手势控制电视机、语音手势控制洗衣机等。此外还有按照本市政策实施补贴的15 个品种，包括烟雾、燃气、水浸报警器、智能摄像头、智能视频门锁等。

再考一下豆包的思辨能力，“现在的儿童智能手表好吗”，这个问题没有标准答案。豆包从优缺点两方面分析了儿童智能手表，优点有保障安全、方便沟通、辅助学习等，缺点有功能冗余、诱导消费、隐私泄露等。以“功能冗余”为例，豆包解释部分儿童智能手表预装了多种应用程序，如聊天、故事、音乐等，可能会分散孩子的注意力，影响学习和生活，一些关键点都点到了。

总体来说，豆包的搜索能力还比较“在线”。

人机交互：从普通话“卷”到方言

大多数时候，用户都是用文字和大模型进行交互，但这并不适用于所有的场景，有时需要和大模型用语言交互。经过升级之后，豆包的语言能力也大大提升。

如果和豆包用语言沟通，和真人之间沟通比较像，可以随时打断，也可以随时转换话题，简单来说，就是支持“边想边说”，让大模型跟着你的思路。

值得一提的是，豆包从普通话“卷”到了方言，可以识别粤语、上海话、四川话、西安话、闽南语等多种方言，但目前豆包仅支持方言输入，暂不支持方言交互，这样可以解决在一些会议或者交谈场合，如果对方讲的是方言，可以通过豆包记录整理。

豆包对方言的识别能力怎么样？《IT时报》记者用上海话和豆包进行了一番对话。

“侬可以帮吾写篇稿子伐”，一开始豆包似乎还没回过神，屏幕上的文本把“写篇稿子”翻译成了“皮果子”，以至于豆包无法理解，还反问一句“侬吃过饭了伐”，看来把“皮果子”当成了一样食物。

当《IT时报》记者纠正“不是吃饭，是写篇稿子”之后，豆包接下去的表现渐入佳境，“今朝上海举行了外滩大会，侬晓得伐”，“吾晓得呀，主题是‘科技，创造可持续未来’，是伐”……

所有这些对话并非在安静的环境中进行，“背景音”是几乎盖过记者声音的聊天声，有普通话、上海话，还有其他方言等，也就是说豆包要从这些声音中精准找到是谁在和它对话。根据文本翻译的内容，它并没有受到杂音的干扰。此外，在豆包“说话”时，记者经常打断它，一听到记者发声，它便立即停止说话。

聊天在停顿了5分钟后继续进行，“侬在做啥？”记者向豆包发问。豆包很快回答：“吾在帮侬写稿子，侬刚刚问我外滩大会的主要内容，是想让帮侬写一篇外滩大会的新闻稿，对伐”，这个回答深得记者的心。豆包是个“严谨”的大模型，“侬告诉我稿子字数、风格、发布渠道，吾现在就帮侬写”。

真是一场愉快的聊天。返回搜狐，查看更多

责任编辑：

正文完

发表至： IT专栏

2024-11-20

0

赵永刚：把握网上舆情主导权 AIGC技术让舆情管理更加高效明朝天启年间的大爆炸是怎么回事，究竟是不是“核爆炸”呢？

操作系统迎来“鸿蒙时刻”

“中国天眼”发现脉冲星数量突破千颗

华为Mate70系列预约破百万，余强东称之为最强大的Mate旗舰机辽宁葫芦岛84岁老人走失希望大家帮忙留意

初创企业参展“5G+工业互联网大会” 投资人组团挖项目

对话豆包一文一图见“智商”高低

AI图片生成：从简至繁的挑战

AI搜索：从基础到深度

人机交互：从普通话“卷”到方言

原创中国十大最美“公园”！大家都知道是哪里嘛？

中国十大最美湖泊，你去过几个？

2024中国“十大最美救护员”在沪揭晓

中国最美的乡村——江西婺源旅游攻略

十大最美乡村投票评选活动如何发起？制作教程分享

中国最美十大文化景区中国十大历史文化景区排名

凌空天行自研4马赫爆震发动机成功，高超音速飞行时代将来临？

经纬、国开投资的凌空天行，完成自研4马赫爆震发动机

“云行”系列超音速飞机验证机试飞成功武则天拔刀刺向上官婉儿：我的男人你也敢动我要宰了你

中国4倍音速客机验证机完成试飞，核心技术获突破，惊喜在后面关羽“刮骨疗毒”是真是假？《三国演义》中一句话，揭露真相

对话豆包 一文一图 见“智商”高低

AI图片生成：从简至繁的挑战

AI搜索：从基础到深度

人机交互：从普通话“卷”到方言

对话豆包一文一图见“智商”高低