IT时报记者 潘少颖 图 壹图网
Grace改名为豆包的时候,字节跳动没少被人笑话。但就是这个接地气的名字,如今站上了字节大模型家族的C位。字节跳动战略和产品副总裁朱骏曾这样解释,一定要拟人化,产品起名的通用原则是简单、好读、好记。
在豆包家族中,有五个垂类模型,分别是角色扮演模型、语音合成模型、声音复刻模型、语音识别模型和文生图模型,基本涵盖了目前模型普遍使用的场景。
在8月中旬举行的火山引擎AI创新巡展—上海站活动上,火山引擎总裁谭待表示,豆包大语言模型最新实现多维度升级,综合性能提升20.3%。
在豆包首页的“对话”中,可以清晰地看到功能分类,包括写作神器、AI图片生成、英语外教、文案助手、工作日报等,从功能上来说,和其他家的大模型功能比较相似。但是豆包的“智商”有多高?不妨来考考它。
AI图片生成:从简至繁的挑战
对于大模型来说,图片生成说难也不难,说不难也难,因为没有固定的正确答案,比较简单的要求,大模型或许都能完成,但是对于一些较为复杂的指令,就要看大模型的“智商”了。豆包大模型支持写一句话即可生成图片,而且多种风格可选。
“一个人在沙滩漫步,脸色忧郁,漫画风”,条件比较简单,半分钟左右,豆包生成了四宫格,四幅画基本都满足条件,背景是蓝天、白云、沙滩和大海,主人公的服饰、步态、方向不一样,供用户选择,如果有满意的图片,可以下载。但是,“忧郁”这个表情并没有很好地刻画出来,第一眼看上去并没有感受到主角的忧郁。
在这幅图的基础上,《IT时报》记者提出了修改要求,“把男性变成女性,表情再忧郁一点”,本意是把主人公换成女性,但豆包似乎没理解,新生成的四张图中,虽然女孩的表情更显忧郁,但背景已经不是海边,而且人物风格也从漫画变成写实,完全和第一张图没有关系。
“背景不变,在海边,依然是漫画风格”,《IT时报》记者继续调整,得到这个指令后,豆包生成的图片是四幅海边的漫画图片,就是第一幅图片的背景,但是主人公不见了。看起来,豆包并没有把这三个要求看成是连续的要求。
此前,《IT时报》记者在“调戏”其他大模型时,发现如果画面中有多人或者不同年龄的人群,生成的图片效果并不理想。“海滩上,外婆、妈妈带着一个小女孩在捡贝壳,漫画风”,这次豆包的表现不错,既展现了三个女性,年龄层次也很容易区分,背景、动作、风格都没有出现失误。
看起来,尽量一次性把图片的条件都说清楚,豆包基本上都能在画面上展现出来,但是在对画面进行微调时,豆包还应该更清晰地把要求串联起来。
AI搜索:从基础到深度
此前,《IT时报》记者曾做过夸克、元宝和天工的AI搜索功能,总体而言,各家AI搜索应用各有各的优势,但也会有“迷糊”的时候。
看看豆包的AI搜索功能如何?
“水由哪些物质构成”,豆包基于8个搜索来源,包括抖音百科、网易、新东方在线等,给出了答案。总体来看,答案还是很详细的,水(化学式:H2O)是由氢、氧两种元素组成的无机物,在常温常压下,水为无色无味的透明液体……
豆包还有深入搜索功能,同一个问题,搜索了20个来源,从水的元素组成、分子构成讲到了化学性质以及在生命活动中的作用。虽然很详细,但非常专业,于是被要求“解释得通俗一点”,这时,回答的风格变了:水由氢元素和氧元素组成,就好像用氢原子和氧原子这两种“小积木” 搭成了水这个“大东西”。在我们身体里,水就像一个“小卡车”,把营养物质运送到身体各个部位,又把代谢产生的废物运出去。用了比喻的方法,解释得比较清楚。
在实时新闻搜索方面,豆包的精确度也较高。“最近上海的家电以旧换新政策是什么”,豆包通过9个搜索来源,总结出上海最近的家电以旧换新政策是从2024年9月7日至2024年12月31日,对个人消费者购买冰箱、洗衣机等8类1级能效产品按照销售价格20%予以补贴,2级能效产品按照销售价格的15%予以补贴,每位消费者每类产品可补贴1件,每件补贴不超过2000元。
“适老化产品有哪些可以参加补贴?”,继续追问,豆包也很快给出了详细的答案,分别是按照国家政策补贴的5个品种,如语音手势控制电视机、语音手势控制洗衣机等。此外还有按照本市政策实施补贴的15 个品种,包括烟雾、燃气、水浸报警器、智能摄像头、智能视频门锁等。
再考一下豆包的思辨能力,“现在的儿童智能手表好吗”,这个问题没有标准答案。豆包从优缺点两方面分析了儿童智能手表,优点有保障安全、方便沟通、辅助学习等,缺点有功能冗余、诱导消费、隐私泄露等。以“功能冗余”为例,豆包解释部分儿童智能手表预装了多种应用程序,如聊天、故事、音乐等,可能会分散孩子的注意力,影响学习和生活,一些关键点都点到了。
总体来说,豆包的搜索能力还比较“在线”。
人机交互:从普通话“卷”到方言
大多数时候,用户都是用文字和大模型进行交互,但这并不适用于所有的场景,有时需要和大模型用语言交互。经过升级之后,豆包的语言能力也大大提升。
如果和豆包用语言沟通,和真人之间沟通比较像,可以随时打断,也可以随时转换话题,简单来说,就是支持“边想边说”,让大模型跟着你的思路。
值得一提的是,豆包从普通话“卷”到了方言,可以识别粤语、上海话、四川话、西安话、闽南语等多种方言,但目前豆包仅支持方言输入,暂不支持方言交互,这样可以解决在一些会议或者交谈场合,如果对方讲的是方言,可以通过豆包记录整理。
豆包对方言的识别能力怎么样?《IT时报》记者用上海话和豆包进行了一番对话。
“侬可以帮吾写篇稿子伐”,一开始豆包似乎还没回过神,屏幕上的文本把“写篇稿子”翻译成了“皮果子”,以至于豆包无法理解,还反问一句“侬吃过饭了伐”,看来把“皮果子”当成了一样食物。
当《IT时报》记者纠正“不是吃饭,是写篇稿子”之后,豆包接下去的表现渐入佳境,“今朝上海举行了外滩大会,侬晓得伐”,“吾晓得呀,主题是‘科技,创造可持续未来’,是伐”……
所有这些对话并非在安静的环境中进行,“背景音”是几乎盖过记者声音的聊天声,有普通话、上海话,还有其他方言等,也就是说豆包要从这些声音中精准找到是谁在和它对话。根据文本翻译的内容,它并没有受到杂音的干扰。此外,在豆包“说话”时,记者经常打断它,一听到记者发声,它便立即停止说话。
聊天在停顿了5分钟后继续进行,“侬在做啥?”记者向豆包发问。豆包很快回答:“吾在帮侬写稿子,侬刚刚问我外滩大会的主要内容,是想让帮侬写一篇外滩大会的新闻稿,对伐”,这个回答深得记者的心。豆包是个“严谨”的大模型,“侬告诉我稿子字数、风格、发布渠道,吾现在就帮侬写”。
真是一场愉快的聊天。返回搜狐,查看更多
责任编辑: