在各家都还在做APP寻找大模型的使用场景时,字节已经开发了与AI大模型结合的硬件产品——Ola friend。虽然不是第一个,但字节的这款硬件产品,有何独特之处?这篇文章,我们看看作者的分析。
上次分享了《深度剖析字节豆包AI》这篇文章后,比较有趣的是事情是,收到了很多大厂圈的朋友的反馈,其中也包括字节内部的同学,一方面文章在帮助他们面试字节AI相关岗位的时候发挥了很大作用,其次是对于AI产品和商业不太熟悉的同学,读完也会有些收获,这些热情反馈给了三白更多的创作热情,今天分享的是字节最近刚推出的另外一个AI产品:豆包AI耳机Ola Friend。
全文累计1.7万字,阅读预计需要20分钟,内容包括七个探讨主题,覆盖产品、行业、用户需求、竞品、商业等多个领域,为提升大家的阅读效率,全篇内容我整理了一个脑图如下:
为什么要写这篇文章?
大模型在应用端的落地,是整个行业都在关注的问题。
过去一年AI在软件端的落地说实话并没有呈现明星应用大爆发的情况,一方面国内只有少数几个产品在大厂流量和大量投放的情况下达到月活千万级别;另一方面有大量的AI应用面临成本比较高且商业化变现困难的难题;逐渐的大家也开始把目光转移到AI硬件,大家普遍的认知都认为,相比购买一个云端的AI软件应用,用户更愿意为一个看得见摸得着的AI硬件产品付费;10月字节的豆包耳机Ola Friend发布之后,国内投资圈开始掀起对于AI硬件领域的关注热潮。
从产品发布后的第一天开始,三白便一直保持着对豆包AI耳机的关注,并且还有幸参加了字节官方组织的“智能硬件x大模型”行业解决方案交流活动,我个人十分认可未来AI在硬件领域的应用,随着目前大模型、芯片、音视频等技术的发展,能提供良好的产品体验的AI硬件已经是一个触手可及的事情,为了让自己能够更加深入的了解这个行业,我花了将近1周的时间整理输出了这篇研究分析。
之所以开始关注AI硬件领域,与自身相关的,一方面是在从事了8年的互联网软件应用领域的工作后,深深的觉得,纯软件应用领域的发展已经有瓶颈了,这个行业已经进入成熟期,潜在的机会也越来越少;相比之下,我更加认同“软硬一体”的产品领域的发展,所以好好研究一下说不定以后能够在这个领域找到下一个更好的创业、投资、或者求职的机会;我一直都认可一个说法,如果你认可一个行业,就应该搞清楚它,并通过创业、投资,以及入职一家公司的方式去追逐这个行业,它能给自己带来红利。
另一方面,现在和我一样想要了解清楚AI硬件行业的人也越来越多了,所以我也想借着自己的文笔和研究,花点时间输出一点东西,帮助一下大家。
文章适合哪些朋友?
有意愿从事AI硬件行业,或者想要入职像华为、OPPO、小米、Vivo等手机厂商,或者其他国内知名消费硬件厂商、大厂Ai硬件团队的朋友;
有意愿投资AI硬件行业,或者想要在该领域做创业项目的朋友;
正在研究AI硬件行业或者具体产品的研究人员;
我将分享哪些内容?
概括起来,我将分享如下7个主题:
产品概述:分享产品的基本信息、交互、使用场景、用户反馈、供应链等;
产品定位思考:思考如何看待字节布局AI,以及豆包AI耳机的产品定位;
所在行业分析:分享AI硬件行业赛道布局、智能耳机行业赛道布局和行业动态信息等;
用户需求思考:分享消费者对智能耳机和AI耳机的诉求,以及豆包AI耳机的满足情况,技术挑战等;
产品竞争分析:分享竞品动态,以及对字节在AI耳机的竞争力思考;
商业模式思考:思考AI耳机的商业模式、利润空间问题;
产品局限和未来发展思考;
声明:其中大部分内容输出来自于个人思考、圈内朋友的交流和讨论,以及个人通过广泛收集大量的高质量的参考资料,通过AI效率工具快速整理输出。
一、产品概述 1.1 产品基本信息
字节豆包于 10 月 10 日发布首款 AI 智能体耳机 Ola Friend,Ola Friend接入豆包大模型,与豆包 APP 深度结合,用户戴上耳机后,无需打开手机,便能通过语音唤起豆包进行对话。目前,Ola Friend 已经在各大电商平台开启售卖,售价 1199 元。
Ola Friend是一款OWS开放式耳机,单耳仅重6.6克,设计上简洁而美观,拥有多种配色和充电仓选择。同时还搭载了 5 核音频芯片,支持专业声音解析和智能降噪算法,保证耳机本身的优秀音质。
1.2 产品交互形态
豆包AI耳机首先需要连接手机端豆包APP,连接后才可使用,耳机和手机APP的连接方式是通过蓝牙建立连接,所以产品的使用需要确保耳机和手机在蓝牙连接范围之内;
在蓝牙连接距离内,使用时,可以脱离手机,通过触摸或语音指令即可唤醒豆包APP,然后使用豆包APP的功能;
本质上,所有的AI功能其实是在APP端完成的,耳机只是作为一个接收APP输出音频内容信息的载体,耳机本身并没有部署端侧模型,耳机本身内置的芯片也主要是解决耳机自身音频识别、音频转码、降噪等功能,并不设计大模型的算力消耗;
大致绘画一下使用过程中数据交互的逻辑如下:
用户通过声音发出语音质量,耳机通过识别传感器获取音频信息,然后将信息通过蓝牙传递给豆包APP;
豆包APP将语音转文字后输入给大模型,大模型生成问答结果输出给豆包APP;
豆包APP将文本内容合成为语音之后,见语音内容发送给耳机,耳机通过麦克风播放器播放声音;
1.3 产品核心功能和使用场景有哪些?
目前豆包AI耳机实际上就是继承了豆包APP语音相关的应用功能,所以所有能够通过语音在豆包APP上使用的功能,理论上通过AI耳机也能支持。
尽管如此,ola friend官方主要主打作为卖点的应用场景主要包括如下5个:
通用的知识问答和语音聊天:整体能力和手机端的豆包智能体差不多,但是AI耳机生成结果和APP端生成结果稍微有些差异,有可能用了另一个更小的模型用于支持AI耳机内容的生成;
口语陪练:支持口语陪练能力;
情感陪聊:支持情感陪伴语音聊天;
旅行导游:支持旅行导游讲解、旅游攻略推荐、餐饮店铺推荐等;
听音乐:支持调用调用汽水音乐的数字音乐资源,但是版权资源有限制,部分付费版权内容需要付费后才能播放,官方有赠送一个月的音乐会员;
从目前主打的使用场景上看,其应用领域覆盖了搜索问答、教育学习、生活服务、休闲娱乐、情感陪伴着几个场景虽然目前都主打了一个单一的场景,但是相信未来官方会支持越来越多的使用场景的功能。
1.4 豆包AI耳机未来可能还会有哪些使用场景?
虽然目前豆包AI耳机只是主打了几个使用场景,但是个人认为,未来AI耳机可以结合的应用场景,将会是充满想象空间的,它可以覆盖我们的生活、学习教育、商务办公等多个方面的应用。
AI耳机在生活应用场景
本地生活服务推荐:比如附近餐饮商家推荐;
个人助理:比如日程安排、出行导游;
休闲娱乐:包括听音乐、听资讯新闻等;
出行:比如出行导航、打车等;
运动健康:比如运动健身、健康咨询、生理诊断等;
智能家居:AI耳机与其他智能设备无缝连接,实现语音控制和互动,可以通过耳机直接控制家中的灯光、温度和家电等设备;
学习教育场景
百科问答:覆盖K12,职场等多个问答场景;
口语学习:包括口语陪练,口语学习助手等;
办公场景
电话和会议记录;
录音笔;
翻译:语音同传;
最近个人也有留意到,豆包APP已经开始做语音录制等功能,这个能力和豆包AI耳机的应用可能存在密切的关联,或许AI耳机后续也能支持会议耳机的产品能力,以上这些场景我们可以保持期待一下。
1.5 豆包AI耳机的用户体验反馈如何?
正向反馈:在接触过大部分使用过豆包AI耳机的朋友,普遍他们会表达的正向反馈主要聚焦如下3点:
1)豆包的语音功能具备不错的情感交互的体验,陪伴感比较强;
“如果你使用过 Ola friend 这款产品,就会体验到一种「aha moment」,就是那种强烈的陪伴感,就像身边有人在跟你低语交流。这种陪伴感正是吸引用户的重要特质之一”
2)佩戴轻便无感;“佩戴还很无感,从下午 3 点一直戴到晚上 9 点也没有负担,好几次走在路上没有播放声音的时候,还要手动摸一下才能确定戴着耳机”
3)超长的续航能力;“另外值得一提的还有续航表现,6 个小时中度使用,两只耳机耗电都不到 50%。同时到手体验两天多,耳机盒还有 14%的电量”
负向反馈:而从小红书等平台中可以看到,大部分豆包AI耳机的使用者,普遍反馈容易遭受环境音影响,降噪和音质效果不太好,响应慢,以及和豆包APP的连接故障等问题;
拾音效果:拾音效果还不错,语音转文字的效果是可以满足需求的;但是容易受环境干扰,不能精准识别使用用户主体,可能会让豆包误把他人的声音当作使用者的声音。
实时性和流畅度:反应还比较慢,响应速度有点长;
音质要求:暂时没有非常强的音质体验;
降噪能力:降噪效果一般,不过这也正常,主打的是一个开放式耳机,还要支持良好的拾音效果,本来就难以和降噪的功能平衡;
语音互动体验:互动体验生成的结果可能和豆包APP还有些差距;
整体而言,个人认为,目前Ola Friend交付的AI耳机还是能带来一些惊喜,但是肯定还存在很多体验层面的问题,此前有些朋友反馈下单之后需要2周以上的时间才能发货,可能也因为目前还有不少问题,官方还需要加快做产品迭代和问题修复。
1.6 供应链情况
圈子内的朋友可能会对豆包的供应链情况也比较感兴趣,以下针对豆包AI耳机不同的元器件的供应商和产品型号做了一下整理,信息参考来自公众号“我爱音频网”的文章,笔者非常专业,真的购买了一个耳机并详细的拆解了其中的每一个元器件,其专业程度让人佩服!
1.7 字节内部组织架构情况
据了解,Ola friend是字节此前收购的耳机硬件企业oladance联合字节flow AI团队共同打造;Oladance是一个整机厂商,负责耳机的整体设计,开模和生产,有自己的生产工厂,其中芯片等硬件设施通过供应链支持。
二、产品定位思考 2.1.字节为何要布局AI硬件?
事实上,字节搞硬件的决心一直都没有停止过,从之前收购PICO,Oladance,锤子手机,至今一直都没有放弃过对硬件领域的尝试,如今重新开启AI硬件的探索,其目的为何,个人思考如下:
做硬件的核心目的还是为了掌握用户的使用入口:作为一个从掌握核心流量入口中获利的一家公司,字节很清楚掌握用户的使用时间和场景的价值,所以,硬件是从另一个维度牢牢的锁定用户的使用入口的重要方式;
AI硬件也是大模型的核心应用领域之一:大模型的应用并不仅仅局限于软件应用,另一个重要的领域的硬件领域,或许在字节制定大模型应用顶层设计的时候,就已经综合考虑的覆盖软件和硬件两侧,而豆包AI耳机是开启AI硬件的第一步;
AI软件应用商业化受阻,AI硬件或许更容易获得商业化成功:从目前国内的情形看,软件端的商业化真的很困难,而更多用户对AI硬件表现出浓厚的兴趣,付费意愿更强;
2.2.豆包AI耳机的产品定位是什么?
写这篇文章的时候,我一直在想,怎么去形容Ola friend的产品定位,它到底想做一个什么产品?因为从豆包目前的功能上看,它可以干很多事情,有很多的应用场景,让人一时想不到其产品定位,但是回看其产品名称Ola Friend,便也逐步明白其产品的理念和定位:
产品价值理念:你的随身陪伴的朋友,主打陪伴和情绪价值官方没有把它称为你的个人助理assitant之类的,所以或许官方也没有打算定位为一个提升效率的工具,“朋友”更多的像是定位为一个陪伴你的工具,所以或许定位为一个陪伴产品,主打为用户提供情绪价值,是这款产品的核心定位;
产品的生态定位:AI生态的延伸
从“应用-数据-服务”向“硬件-数据-服务”转型:过往字节AI主要还是聚焦在软件端应用,通过软件集成数据和服务,提供AI应用服务,AI耳机的出现,标志着字节AI向“硬件-数据-服务”转型拓展的开始;
从APP唤醒AI,到随时随地唤起AI:字节或许想要把豆包做成另外一个超级APP,打造豆包系列的应用矩阵;AI耳机可能是豆包应用的使用延伸之一,未来可能还会有更多的豆包系列的产品,我们现已经看到,豆包系列的产品还有豆包爱学(教育)、豆包Marscode(编码),根据相关消息,内部可能还在做豆包订餐、豆包体育等相关的应用;
目标用户和市场需求:从目前产品主打的卖点和能力上,个人认为产品主要面向如下用户群体
一二线城市的城市年轻人和职场群体:他们寻求的是便捷、高效且智能的设备体验,同时,作为焦虑集中人群,他们也是更加需要情感陪伴和情绪价值的群体;
AI科技圈的发烧友用户:对他们而言,更多的是满足其好奇和“酷”的需求,为AI的重度爱好者;
三四线城市的娱乐偏好人群:下沉市场用户,更多追求的是产品的娱乐价值和情感陪伴价值,满足他们打发空闲时间的“消遣”;
产品核心功能和差异化价值:从产品目前的特点看,硬件层面其产品核心主打的差异化价值是开放式、无感便携、续航能力;从软件层面则主打实时语音交互式使用、陪伴感音质;相比传统智能耳机而言,弱化对降噪能力、高保真音质等的追求,不做全面能力强大的耳机,耳机聚焦单点能力;
价格定位:目前的定价是1199元,该定价在耳机的整体价格段里面属于中高端价位,也就是说,其价格定位聚焦在中高端型的耳机;虽然目前该定价很多用户反馈太贵了,但是从品牌方提供的产品和服务的成本而言,可能产品本身的利润也不高,除了硬件本省的成本,用户持续的使用AI服务,还有大模型和语音合成技术的成本,这些目前都没有收费,让用户免费使用,只能说成体技术和服务成本就比较高,所以这个定价这么贵也能理解。
2.3.字节未来还会布局哪些AI硬件?
根据目前关注到的消息,预计未来字节可能在如下几个硬件领域会有AI的应用布局:
穿戴类设备:AI耳机(Oladance业务)、AI眼镜(PICO业务)、AI手机(锤子手机业务)
教育硬件:AI学习机、机器狗(豆包爱学业务)
以上信息仅为个人猜测,并未得到证实仅供参考,参考新来源如下:
“据悉,字节跳动同时还在探索 AI 眼镜方向,可能会投资一家新公司或组建内部团队,并且有一名互联网公司的前大模型核心人物已在与字节合作研发 AI 眼镜。
此前在 2024 年 5 月举行的火山引擎 Force 原动力大会上,字节跳动曾对外展示了 3 款联合外部合作方开发的 AI 硬件产品,其中包括机器狗、学习机以及学习机器人。
字节跳动曾在 2021 年底投资 AI 技术及智能眼镜研发商「李未可」,2024 年 7 月,李未可与博士宣布在全国 50 家博士眼镜门店线下首发李未可的 Meta Lens AI 眼镜。”
三、所在行业分析:AI硬件、智能耳机 3.1 AI硬件行业赛道布局和核心玩家
根据个人了解,目前国内外在AI硬件的上布局,主要聚焦在AI手机、穿戴类设备、教育硬件、办公硬件、智能家居和车载设备领域;其中穿戴类设备自然是受关注度最大的领域,而AI手机、AI耳机自然属于AI硬件行业领域目前最受关注的两大领域,各个领域目前的子赛道和国内外主要玩家情况如下:
1)AI手机:AI手机是目前广大消费者比较期待的AI硬件领域,继苹果不断地释放AI信号之后,我们暂时没有看到有实质性的苹果AI产品出来,反而是国内的手机最近观看了OPPO X8自带的手机AI功能后感觉开始看到一些AI手机的应用雏形,X8在一键识屏以及AI消除、去拖影、去反光等图像AI方面的表现让人焕然一新,感觉AI手机终于开始到来的感觉;不过目前大家都还是聚焦在图像和摄影领域,我们还是更期待手机AI助手和APP Agent能带来更多创新;
2)穿戴类AI硬件:赛道包括主要以AI耳机、AI眼镜、AI配饰、AI智能手表等领域,具体如下
AI耳机:Ola friend的发布,让整个投资圈和AI圈开始更加关注AI硬件领域,让大家终于看到Chatbot能够在耳机端使用,大家畅想的AI耳机终于可以落地;同时,国内像讯飞也推出了AI会议耳机,主打会议录制和会议AI助手功能;海外目前也关注到,三星也推出了AI 耳机 Galaxy Buds3 Pro;
AI眼镜:在AR眼镜发展不瘟不火的同时,目前整个硬件行业大家开始把目光转移到AI眼镜上,这种在眼镜上搭配耳机,把AI眼镜和AI耳机组合在一起的感觉,让人开始真的感受到一个便携式穿戴的“第二大脑”真的可以实现;Meta和Ray-Ban联合推出的雷朋AI眼镜推出之后,让大家开始把注意力关注到AI眼镜领域,目前国内包括华为等厂商也在布局该领域并推出相应的产品,还有一些垂直创业公司像李未可、雷鸟等也在推出相应的产品;10月参加了字节火山引擎线下举办的智能硬件x大模型的线下会,上台演示的AI眼镜也不少,可见越来越多的创业公司已经开始投入该领域的产品打造;
AI配饰:海外AI pin和Rabbit R1出来之后,让人看到了不一样的AI硬件产品,把AI配饰的概念也炒火了起来,作为新兴的产品,目前这两款产品在海外的用户满意度还不是很高,产品能力上被吐槽和诟病的比较多,所以激起了一定的水花但是很快又平静了,不过新兴领域就是这样,未来还是需要这些产品厂商持续的打磨产品才能交付给消费者一个满意的产品;
AI智能手表:智能手表目前在国内外很多手机厂商都有布局,但是目前结合大模型的AI只能手表暂时没有看到有类似的产品,个人觉得,未来这块会是大家争先投入的领域,特别是儿童手表领域;
3)AI PC:苹果和联想等电脑厂商一直都聚焦AI电脑领域有比较多的发声和畅想,我们也相信这个领域未来会是AI的重点应用方向,不过目前确实还没有看到深度结合AI的电脑终端产品出现;
4)AI教育硬件:教育硬件领域,一方面很多传统的教育硬件比如猿辅导的学练机,科大讯飞的学习机,开始结合大模型推出部分AI功能;另一方面,AI玩具现在也是很多创业公司投入的应用领域,包括机器狗,甚至连AI盆栽、AI玩偶都有,产品主打益智和陪伴价值;
5)AI办公硬件:除了教育,办公也同样是硬件集中地,围绕办公领域的AI硬件目前比较少,暂未看到太多知名度较高的产品出来;
6)AI智能家居:**这块目前主要还是以AI音箱为主,主要玩家还是传统智能音箱的那些玩家,包括天猫精灵,以及亚马逊Echo;
7)AI车载设备:最后一个领域的AI车载设备,目前国内像蔚来、理想汽车等都有推出相应的AI车载结合硬件,同样海外像奔驰、大众,也有相关的应用案例;
3.2 AI硬件行业动态情况
1)AI Pin和Rabbit R1
AI硬件最早爆火的产品,是2023年底美国Humane公司在世界移动通信大会上发布的AI Pin,用户将其别在衣服上,将画面投影在手掌上,用语音进行控制。
AI Pin定价699美元,发布一个月内,预定量就超过了450万台。然而, AI Pin的实际效果却不尽如人意,存在反应慢、交互体验差、续航差等诸多问题,很快跌落神坛,产品退货量甚至超过发货量。
与AI Pin类似的还有曾在百度智能硬件负责人吕聘创立公司Rabbit推出的R1,用户只需要通过和巴掌大小的R1进行语音交流,即可调用手机上所有APP。产品定价199美元,发布一周,预售量达4万台,几个月内销售量破10万台。然而,R1很快也受到套壳安卓、续航差、基础功能缺失、幻觉严重等质疑。根据今年10月吕聘的采访可以推断,Rabbit R1正常的双日活仅有5206,相较于销量并不理想。
AI Pin和Rabbit R1均采用了全新的硬件形态,也可以被称为是AI Native的硬件产品。全新的形态虽然在初期极大吸引了消费者的兴趣,但一旦出现Over Promise和Under Deliver的问题,很快就会被消费者抛弃。
2)Ray-Ban Meta智能眼镜
在这一点上,Meta则选择了不同的解法。
2023年9月,Meta与 Ray-Ban联手推出智能眼镜Ray-Ban Meta,用户可以通过眼镜拍摄照片与视频、接听电话以及播放音乐,并可以通过语音和简单的手势来控制设备。
Ray-Ban Meta起售价为299美元,相较于Ray-Ban的传统眼镜产品并不昂贵。
仅2023年第四季度,Ray-Ban Meta出货量就超过30万副,直到目前累计出货量已超百万。而今年9月份Meta发布的与视觉AI模型相结合的AR眼镜Meta Orion则再度引爆舆论,以至于很多人纷纷认为眼镜将是AI硬件的最佳形态。
3)AI车载设备
高通推出支持生成式 AI 的数字座舱
展会期间,高通通过骁龙数字底盘概念车,展示了骁龙座舱平台的传统 AI 和生成式 AI 能力,涵盖数字座舱、车联网技术、网联服务、先进驾驶辅助与自动驾驶系统等多个方面。
对于复杂的大模型而言,单一在云端运行的 AI 存在高成本、高能耗和隐私安全等问题。
高通通过兼具高性能和低功耗的平台,将终端侧生成式 AI 能力带进座舱,为座舱提供强大、高效、私密、更安全和更个性化的车载交互体验。
自驾出游前不再需要做复杂的攻略,数字助手能够根据我们的出行偏好规划一趟完美的行程;碰到如何换轮胎、安装婴儿安全座椅这些问题,无需翻出上百页的用户手册查找答案,AI 助手能通过对话指导你完成;它还能告诉你仪表盘上突然出现的警示灯代表什么,帮你预约最近的服务中心检测维修。
值得一提的是,高通还为两轮车、电动踏板车等新型车辆细分市场推出了骁龙数字底盘,提升车辆安全性、连接、信息娱乐、辅助系统(ARAS)和个性化云连接等方面的体验。
梅赛德斯奔驰
与 Open AI 合作开发车载语音助手宝马与亚马逊合作推出 Alexa 大型语言模型,而梅赛德斯奔驰正在与 OpenAI 合作车载语音助手——MBUX AI。
作为 MB.OS 的一部分,MBUX 引入的语音助手能够提供基于上下文的建议,并与用户进行对话;它能够基于情境给出建议,主动提问,更清楚地了解用户所询问的内容。
它还可以根据驾驶员的心理状态来调整其回答问题时的语气,比如,如果驾驶员的心情沮丧,那么它的提示和反应将更短、更直接;而如果驾驶员心情好,虚拟助手的声音会更愉快,更健谈。
自查功能,可以对语音助手的回答进行合理性检查。例如,当它推荐的餐馆或商店关闭时,语言助手将通过云数据或者客户的陈述来进行复查。
大众汽车
与 Cerence 合作开发车载语音助手在 AI 的加持下,汽车已经成为对话伙伴。
大众汽车在 CES 2024 期间表示,计划在二季度推出首款大模型汽车,整合了 ChatGPT 的语音助手,将在汽车行驶过程中识别并响应驾驶员的一系列需求。
其语音助手「Hello Ida」将整合 ChatGPT 的大模型能力,在汽车行驶过程中识别并响应驾驶员的一系列需求。
新的由大模型加持的车载语音助手将登陆 ID 4 和 ID 7 两款新能源汽车。方案由 Cerence 协助完成,相比之前的语音交互体验,大模型加持的语音助手应用范围更广、更自然。
4)AI智能家居
三星家居全家桶:冰箱、吸尘器、洗衣机、电视,还有投影机器人,通通 AI 加持三星在 CES 展前发布会上,展出了多款 AI 加持下的家居新品,展示了「AI for All」的决心。可以识别食物种类,并制定菜谱的四门 Flex 冰箱。AI 物体识别、AI 地板检测技术加持下的 Jet Bot Combo 真空吸尘器,能够更大力度减轻我们的清扫工作。QLED 8K 电视,也已支持上 AI 音频转字幕,并可通过 AI 分析环境声,提升影音体验。萌萌的 Ballie 投影仪机器人,真 AI 伴侣,能自动帮你投喂宠物,执行视频通话,甚至投影出健身教程。
Displace:全球首个购物电视,自动分析商品,自动加购物车,**在国内已有不少视频应用,支持通过图片识别技术,一键定位剧中好物。但电视厂商 Displace 似乎觉得,这还不够便利!在 CES 2024 期间,Displace 直接带来两款极度方便剁手党的电视新品 Displace Flex 和 Displace Mini。两台电视都内置有 AI 加持下的 Displace Shopping 服务。当用户观看电视发现心头好物时,只需使用手势就能即刻暂停画面,自动分析商品。并且,秉承极致便利原则,Displace Shopping 可直接将商品加载至购物车。按照这个逻辑,看完电视,再刷刷满满当当的购物车,也是件很愉快的事儿。
5)AI眼镜
雷鸟:大模型加持的轻量级 AR 眼镜,国内 AR 厂商雷鸟科技,在 CES 2024 上发布了新款 AR 眼镜雷鸟 X2 Lite。AI+AR 是这款眼镜,主打功能亮点。和早先发布的雷鸟 X2 一样,雷鸟 X2 Lite 也内置了大模型语音助手 Rayneo AI。Rayneo AI 可实现多轮自然语言对话、行程规划、便捷百科问答、头脑风暴等多项能力。同时,雷鸟 X2 Lite 也支持 AI 辅助翻译、3D 空间导航、第一人称视角影像创作等功能。
Solos:ChatGPT 协助翻译的音频眼镜:智能眼镜公司 Solos 亮相了其去年上新的一款搭载 ChatGPT 的新品 Solos AirGo 3。Solos AirGo 3 核心功能即实时翻译。搭配有应用软件 SolosTranslate,进而可透过 ChatGPT 翻译眼镜所拾取的声音。并且,Solos AirGo 3 还可以提供不同的场景模式,比如一对一对话模式,就非常适合与人面对面交流时使用。
3.3 智能耳机行业市场规模情况
1)全球市场规模情况:根据沙利文白皮书报告分享,2023年全球耳机零售量5.1亿副,其中开放式耳机3000万副,开放式耳机占比6%;预计2028年全球耳机规模7.6亿副,开放式耳机5400万副;
2)国内市场规模情况:根据智研瞻公开分享数据,2023年中国智能耳机的市场规模为144亿,年复合增长率在15%左右;
3)开放式耳机市场规模:作为智能耳机的一个重要分支,开放式耳机近年来也表现出强劲的增长势头,特别是在华南和华中地区,开放式耳机的出货量在2023年达到了652万台,同比增长130.2%;目前开放式耳机在智能耳机中的渗透占比大概是7%左右,其中70%的开放式耳机是骨传感形式的耳机;
3.4 智能耳机类型划分
智能耳机行业可根据不同的分类标准进行划分,涵盖连接方式、使用方式、消费场景、价格段:
1)按照连接方式连接方式上,包有线耳机和无线耳机,其中无线智能耳机成为市场主流,无线耳机中TWS蓝牙耳机独占66%市场份额,展现真无线立体声设计和多样化智能功能,颈戴式、头戴式和项圈耳机分别占据约15.2%、8.6%和7.6%的市场。
2)按照佩戴方式包括入耳式、半入耳式、挂耳式,入耳式耳机因紧贴耳道带来震撼音质,半入耳式设计舒适适合长时间佩戴,而挂耳式则平衡了舒适与牢固,挂耳式也就是OWS(开放式耳机),2021年,“Oladance”创始人李浩乾(前BOSE高管)在TWS行业峰会上首次提出“OWS”概念,即“Open Wearable Stereo(开放式无线音响)”,至此,开放式耳机行业进入发展期。具体来说,开放式耳机采用不入耳的佩戴设计,是让用户听见耳机内声音的同时能够感知到周围环境的无线蓝牙耳机。开放式耳机主要由骨传导和气传导两种技术组成,根据沙利文白皮书相关报告,开放式耳机中,目前有70%的耳机采用的是骨传导形式,30%采用气传导方式;
3)按照使用场景包括消费级、商用级、工业级使用场景,其中消费级产品包括娱乐消费耳机(听音乐、看电影等)、商务耳机(开会议、通电话)、运动耳机等;
4)按照价格段划分
低端耳机:价格区间在0-199元,竞争非常激烈,这一价格段主要面向入门级用户或追求性价比的用户,产品多以入耳式或有线耳机为主,音质和功能相对基础,满足日常简单的听音需求。
中低端耳机:价格区间在200-499元,数量较多,普及型耳机市场的主要价格段,这一价格段产品在功能性上有所提升,许多耳机配备了降噪、语音助手等功能,适合对音质和功能有一定要求的用户,尤其是蓝牙真无线耳机逐渐普及;
中端耳机:价格区间500-999元,产品数量适中,以知名品牌为主,这个价格段的耳机在音质、降噪和舒适性上都有较好的表现。以真无线和入耳式耳机为主,适合对音质有较高要求的用户,产品在功能、续航和外观设计上都更加均衡;
高端耳机:价格区间1000-1999元,数量相对较少,但品牌覆盖度较广,高端耳机价格段多用于真无线、头戴式降噪等高音质、功能性强的耳机,产品品质、音质、降噪效果突出,适合追求较高听觉体验和品质的用户。示例品牌包括:
超高端耳机:2000元以上,数量少,主打高端市场;
3.5.智能耳机产业链分析和核心玩家
上游环节:
原材料供应商包括芯片(如主控蓝牙芯片和存储芯片)、电子元器件(包括传感器和MEMS麦克风等)、电池以及外壳、耳塞等零部件。这些组件是智能耳机实现无线连接、数据处理和各种功能(如噪音消除、语音助手集成)的基础。
上游耳机主控蓝牙芯片厂商包括BES恒玄、Bluetrum中科蓝讯、JL杰理等; MEMS麦克风厂商包括敏芯微电子、意芯微电子等;耳机电池厂商包括VDL紫建电子、HJ弘捷等;其他传感器厂商包括SHOUDING首鼎、PinTeng品腾等;电源管理芯片厂商包括Injoinic英集芯、金宇宙等;无线充电接收芯片厂商包括Prisemi芯导科技、COPO酷珀微等;充电盒电池厂商包括众旺德、EVE亿纬锂能等;
中游环节:
则涉及整机制造和封装,代加工厂商包括天键股份、奥尼电子等厂商;
下游环节:
则主要由品牌厂商和销售渠道构成,直接面向终端消费者。品牌厂商如华为、小米、OV、苹果、Beats、sony、bose、JBL、漫步者、海能达等,新兴品牌商包括Oladance、Shokz韶音、Cleer等;在无线耳机市场上,苹果、华为和小米三大品牌占据了前三名的位置,合计市场份额达到32.8%。华为耳机凭借出色的用户口碑与媒体评价,在2021年中国十大耳机品牌评选中荣登榜单。国产品牌的竞争力也在不断增长,多个中高端国产耳机品牌如QDC、达音科、TANCHJIM、HIFIMAN等在发烧友中获得认可。
3.6.AI耳机和传统智能耳机的差别是什么?
传统耳机只是手机声音的延伸,不支持交互,AI耳机可以支持交互和互动、支持完成指令和任务:老实说,AI耳机相比传统的智能耳机而言,主要的差别其实就是增加了支持AI互动的功能,让耳机硬件本身能够支持接收用户的声音指令,然后实时的响应输出;但是增加了这个能力之后在使用场景上却可以带来很多耳机的应用场景,让耳机的价值更高;传统的智能耳机更多的是以单线的输出为主,无法接收过多的指令。
AI耳机可以在不碰手机的情况下调动APP执行任务,可以远程操控APP甚至手机;
AI耳机支持输入和输出音频内容上云,支持录制,从而获得更多的服务能力;
四、用户对于AI耳机的需求思考 4.1 消费者对智能耳机的基础诉求
根据沙利文白皮书发表报告,消费者在决策耳机的购买因素的时候,会优先考虑如下几个因素:
舒适度、续航时间:这考量的是耳机的重量、佩戴方式、携带方式等物理体验,以及耳机的电池续航能力;
价格:消费者对于耳机的价格接受度;
音质:消费者对直接的音质需求,有强烈的渴望和需求,希望能支持更良好的音质体验;
降噪:包括智能降噪等功能;
易用性:包括使用操作更简单、蓝牙连接和调节操控简便
4.2 消费者对开放式AI耳机的进阶诉求
语音互动能力:能更“聪明”、更实时的和用户语音互动,是AI耳机的关键诉求之一,这是AI耳机最关键的能力;
音质要求:包括高保真、低迟延、高流畅度、低音效果、个性化调节的需求,特别是发烧友用户,对音质有更加严苛的追求;
拾音效果:与传统智能耳机以输出为主不同,AI耳机需要支持灵敏的语音输入,所以需要具备灵敏的拾音效果,且最好能支持自动增益,准确识别使用者的声音,避免受到环境音的干扰;
智能降噪能力:对开放式的耳机而言,降噪是一个短板,所以用户更容易提出智能降噪的需求,包括能够支持智能过滤环境音,甚至对于部分不应该降噪的声音可以做到不被降噪,例如消防车声音;
记忆存储和录制能力:用户也期望耳机能够具备记忆存储和录制的能力,从而支持语音录制的功能;、
4.3 豆包AI耳机目前在消费者诉求上的满足情况
综合以上用户对于AI耳机的需求的衡量因素,整体上看,目前豆包AI耳机在语音互动、舒适度、续航能力等方面基本可以满足用户需求,但是在音质,降噪能力等方面还不足,整体定价也高于消费者预期;
4.4 AI耳机满足用户需求存在的挑战有哪些?
1)硬件性能和算力要求:包括芯片的计算能力、拾音器硬件的性能等,AI耳机需要支持大模型运算,以及实时的处理速度,且需要准确的语音识别能力,这些都是需要关键攻克的技术难题;
数据处理速度:AI耳机需要实时分析声音和环境数据,以提供快速响应,这对芯片的处理能力和算力提出了很高的要求。
低功耗高性能:在有限的电池容量下实现低延迟、实时AI运算和长时间续航,需要先进的芯片技术和能源管理优化;
2)用户对音质要求的挑战:音质是用户购买耳机的重要决策因素之一,目前开放式AI耳机在音质上的弱项会是消费者比较在意的一个点,而提升音质很大程度上取决于声学腔体的设计、芯片性能、传输链路、编码技术等因素的影响,极大的考验技术和成本,该部分具体可见4.5部分;
3)复杂环境的语音识别准确性
降噪与语音识别的平衡:在嘈杂环境下,既要保证语音指令识别的准确性,又要进行有效降噪,这对算法提出了较高的要求。
多语言与方言识别:支持多种语言和方言,尤其是具备较强的方言识别能力,对AI语音识别技术是一个重大挑战。
4)成本挑战:面对高昂的模型、语音识别、语音合成等技术成本,AI耳机如何保持商业模式的成功;
5)面对多样的能力和多种硬件组合:在体积有限的耳机中集成多个传感器并保持轻量化,是技术设计上的挑战。
4.5 AI耳机如何提高音质表现?
前面也提到了,音质是消费者对耳机非常重视的因素,目前豆包AI耳机在音质和AI互动能力上,优先保障了AI互动的能力,对于音质的追求必然也会有些牺牲,所以我们可以大概了解一下如果要获得更好的音质表现,需要依赖哪些技术能力;
声学腔体设计:无论是入耳式、头戴式还是开放式耳机,都需要一个外壳来容纳其发声单元,这一部分被称为腔体”。腔体设计对耳机的音质表现至关重要,它直接影响声音的调音和漏音情况,从而直接影响用户的听觉体验。其主要从声音调音、共振和失真控制、减少漏音与声场感和定位几个方面影响耳机音质;腔体设计的经验和技术,更多取决于厂商在这方面的经验和积累;
蓝牙芯片:芯片的性能也同样决定了音质表现的效果,目前市面上中高端的芯片主要是苹果、高通、华为、恒玄科技等厂商的芯片;
传输链路:在传输过程中如果音频文件无法顺畅传输,也会直接影响音质,而将音频文件以“高保真”格式传输,对于无线耳机功耗又是一个挑战。如何在保证功耗情况下实现稳定传输,同时确保传输接近“无损”水平,是当前所有厂商亟待解决的问题之一;
编码技术:编码技术也会影响音质的好坏,目前编码技术的音质表现从优到劣排列为aptXLossless>LDACLHDC>aptX>AAC>SBC;
蓝牙版本:蓝牙版本越高,传输速率和稳定性也会越高,对音质的效果越好,蓝牙吧版本5.4是目前最优的版本;
五、产品竞争分析 5.1 AI耳机竞品的动态情况
科大讯飞:
2024年5月 15 日,科大讯飞旗下品牌未来智能发布了讯飞会议耳机Pro2和iFLYBUDS2两款新耳机,讯飞会议耳机 Pro2支持 VIAIMAI进化大模型,可一键生成会议摘要总结、待办事项,支持 AI会议助理有问必答、32 国语言同传翻译,支持闪录音功能,支持免费录音转文字等AI功能,iFLYBUDS2 具备会议摘要总结、多场景录音撰写多国语音同声传译、快速生成会议摘要和待办事项等 AI功能。
Cleer:
2024 年4 月 22 日,智能声学品牌 Cleer 发布了“全球首款开放式 AI耳机”CleerARC3 音弧,该耳机搭载了全新一代 Greenwaves Gap9 AI芯片,内置了 Gomore 研发的AI运动算法,可帮助用户实时监控运动生理数据,如消耗卡路里、训练负荷及恢复时间、进阶跑步指标等精准运动数据;在智能交互方面,CleerARC3音弧还集成了出门问问的语音控制技术,升级了 AI语音控制,用户无需提示词唤醒语音助手,使用“下一首”“接听电话”等快捷口令即可进行相应操作;CleerARC3音弧还在开放式耳机中实现了 AI降噪效果,通过引进全新一代 AI芯片 GAP9 及 AI算法,首次在开放式耳机中实现了 AI降噪效果。
三星:
2024 年 7 月 10 日,三星发布两款耳机新品——Galaxy Buds3 Pro 与 Galaxy Buds3。其中 Samsung Galaxy Buds 3 Pro 耳机主打 AI,具备自适应降噪、环境分析(可以视周围环境的种类对降噪强度进行调整,进行”选择性的降噪”,例如路上救护车的声音就不会被”降噪”掉)等功能,并能够配合 Galaxy 手机完成实时翻译功能;
阿里通义:
首款智能耳机 AIxFU(爱富)在 2024 年云栖大会上首次对外发声。这款耳机融入了阿里通义的 AI 技术,定位也是耳畔智能助手,具体的功能细节目前暂时尚未公开;
百度小度:
另有消息透露,最早在 2020 年 9 月推出智能耳机的小度,今年也在加快AI耳机新品节奏。
漫步者:
在 2023 年与阿里集团下属人工智能公司签订合作开发智能耳机的协议书,相关产品已在研发中。
魅族:
联合怒瞄在今年年初推出的首款 AI Device 亮相,也是 AI 耳机形态,计划将于今年年底美国「黑五:」购物节期间正式发布。
整体而言,目前AI耳机竞品中,除了Cleer已经也支持AI互动体验且更多聚焦运动健康领域,科大讯飞垂直聚焦会议场景,目前像豆包AI耳机一样具备完整的AI语音互动能力,且支持多种应用场景的AI耳机,暂时还没有看到,其他产品基本都还在研发过程中;
5.2 面对激烈的市场竞争,字节的竞争力是什么?
AI耳机的技术实现基本包括以下几部分:LLM(大模型)+ASR(自动语音识别)+TTS(语音合成)+RTC(实时通信)+Agent;其中ASR作为语音识别输入技术,LLM+Agent作为生成回答的处理中枢,TTS和RTC作为语音生成输出技术,闭环整个产品的能力,字节在以上几部分上的竞争优势如下:
语音技术能力的优势:目前字节在语音技术上的优势更为显著,其语音效果在业界的口碑和认可度比较高,背后主要依托其ASR、TTS、RTC的技术能力,语音技术作为AI硬件最重要的技术之一,掌握语音技术能力将更加有竞争优势;
大模型的技术优势:字节自研大模型,相比没有大模型的厂商而言,则更加有优势,而对于同样也有大模型的厂商,且不提基础大模型能力差异如何,字节至少在成本端占据更加优势位置,从其定价上看,模型定价为行业最低;
Agent:未来耳机的使用场景,本质上其实也是通过Agent的方式实现的,字节在Agent的设计能力上,依托扣子的技术能力,或许能具备更强大和灵活的agent开发,从而支持丰富的应用场景;
六、商业模式思考 6.1 AI耳机真的有利润空间吗?
我们先盘点一个AI耳机的成本结构,个人总结下来主要包括如下几部分:
硬件部分成本:包括芯片、电池、传感器、耳机外壳等,该部分为一次性成本;
大模型和云服务部分:包括大模型token成本、语音识别和语音合成云服务成本,该部分为用户只要使用就会产生的成本;
由此可见,其产品的成本说实话可能不低,所以AI耳机真的有利润空间吗?
引用rabbit R1 的创始人吕聘的公开消息,其AI硬件产品 Rabbit R1的售价199美元,硬件的成本大概占比60%,只考虑硬件的利润率是40%左右,然而用户的使用过程中还有云端的服务消耗的成本,硬件的利润预计能够满足用户1~1.5年的使用,也就是说,产品的利润取决于产品的使用寿命以及用户的使用频率和消耗。
所以,可见单纯硬件本身,说实话可能没有太多的利润空间,那么AI耳机的商业模式到底是什么样的?
6.2 豆包AI耳机的商业模式什么?
参考Rabbit R1创始人吕聘的说法,未来AI 耳机的商业模式可能和手机厂商的模式相同,可能也是基于应用商店APPStore的模式实现商业化;未来AI耳机的使用可以支持多种应用场景,相应的应用由开发者开发并发布到应用商店,应用本身可以通过提供增值服务等方式让用户付费,而应用商店品牌方采用收佣分成的方式获利。
举个比较典型的例子,比如音乐、听书和FM类的应用,天然就是AI耳机最合适的搭配应用,用户可以购买耳机应用商店内的服务,获得更多的增值能力,而品牌方从中抽取一定的分成;
6.3 AI耳机的应用,和手机APP的应用有何区别?
看到前面第二点的时候,可能很容易会设想的问题是目前手机端已经有APP,且连接耳机就可以支持接听音乐等,为何还需要一个单独的AI耳机的应用?
仔细理解一下就可以知道,目前手机端的APP更多的只是支持声音的输出,尚不能通过耳机对APP发起指令,也就无法实现AI互动,应用本身必须要和耳机建立连接和“通讯”才可实现这样的AI互动效果,所以手机APP也需要结合AI耳机做二次开发,形成适配耳机互动的应用,这是两者之间的差别。
当然,以上这些也都是大家的揣测,并没有看到现实成功的案例,这些可以交给现在的AI硬件厂商们给我们答案;
七、产品局限和未来发展思考 7.1.豆包AI耳机目前的产品局限性
1.从产品使用的角度看,目前不能脱离手机使用:个人认为,最蛋疼的就是必须要蓝牙连接手机,这就意味着,耳机只是手机在空间上的延伸,耳机不能脱离手机使用,对于用户而言,也必须时刻保留在手机可以连接的范围内;
2.从硬件的角度看,语音识别在复杂环境中的准确性不足:例如在嘈杂的环境中,用户体验可能受到影响;
3.从数据的运行效率上,目前耳机的AI问答效果需要经历“耳机→APP→豆包应用→云端大模型”,链路比较长,无法实现“耳机→云端大模型”直连,这将影响其多任务处理和即时信息反馈方面的表现 ;
4.从商业模式上,AI耳机现在还是个新兴领域,商业模式是否能成功还没有得到印证,AI耳机未来将持续面临商业模式的挑战;
7.2.豆包AI耳机未来发展的思考
综合前面关于产品局限性的思考,个人认为,未来AI耳机的发展可能包括如下几个方面:
1)从产品使用的角度,未来AI耳机朝着可以脱离手机独立运行的方向使用,能够支持自身联网,直接连接云端大模型,这样耳机便可以不需要通过蓝牙连接耳机使用,脱离手机连接距离范围也能运行,手机端的价值更多的解决耳机应用安装和管理的能力,以及语音数据上云的作用;但是这必然意味着对芯片等硬件的要求会更高;
2)从硬件的角度,未来AI耳机可以逐步补充其在智能识别、智能降噪、音质等方面的短板,基础性能上追赶传统智能耳机的体验,让AI成为耳机标配下的增值部分,而不是让用户在传统智能耳机和AI之间做选择;
3)从数据的运行效率上,个人觉得潜在的发展路径包括如下几个阶段:
耳机→APP→豆包应用→云端大模型:这是现在的实现模式;
耳机→云端大模型:未来耳机如果直接支持联网和计算,便可以直连云端大模型;
耳机→端侧模型+云端模型:未来如果端侧模型的发展起来,可以让耳机本身自己承担一部分算力计算,部分链接云端大模型,形成端云混合的计算方案;不过这个还比较遥远,端侧模型目前还没有在手机和电脑上看到落地实现;
4)从商业模式上,AI耳机除了持续迭代产品提升产品价值,也会持续的寻找降低硬件和软件成本的路径,同时寻找商业变现的机会,把商业模式跑通;
7.3.字节将如何赋能AI硬件行业
我相信字节做AI耳机和AI硬件,不会只是想单纯的做硬件本身,按照大厂的生态发展思路,他们通常都会把解决方案开放出来,赋能整个行业,10月在参加火山引擎举办的“智能硬件x大模型”的线下会议的时候已经看到了大概的思路;
1)智能硬件连接大模型的解决方案:LLM+ASR+TTS+RTC+Agent
官方给出的关于AI硬件的技术解决方案的组合是串联大模型LLM,语音自动识别技术ASR、语音合成技术TTS、实时通讯技术RTC、Agent开发技术,如此便可以实现硬件AI化的能力;
火山引擎提供大模型和语音技术的一体化SDK,接入SDK即可直接使用自己的语音和大模型技术,至于Agent的构建,这主要可以通过扣子实现,扣子后续将在API插件方面增加硬件插件能力,支持扣子和硬件能力的连接,解决Agent调用硬件能力的问题;
2)字节的语音技术能力情况
强大语音识别能力:支持中文普通话、方言混合、语种混合能力;
智能降噪能力:支持回声消除、背景音一直、自动增益(自动识别说话人的声音并强化该声音,弱化其余声音)
智能打断:支持语音随时打断,交互更加流畅、自然、拟人化;
八、结尾
作者:三白有话说,公众号:三白有话说
本文由 @三白有话说 原创发布于人人都是产品经理。未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议返回搜狐,查看更多
责任编辑: