查看原文
其他

语音 AI 重塑中国社交和消费的未来

StartupBoy 投资实习所
2024-08-23

本文来自云涛,花果山 CEO,资深连续创业者,原 E 家洁创始人。曾推出打车软件后转型家政,历经 6 轮融资,早年涉足地方娱乐资讯,精耕下沉市场,现专注 AI 时代语音优先应用。

关于语音 AI 这个话题,还可以参考这几篇文章《a16z 将语音 AI 作为一个独立投资主题,行业图谱展示投资机会》、《估值超 1 亿美金,它将实时语音和视频无缝嵌入到任何应用》以及《从 Character AI 融资艰难说起》(https://dub.sh/Memo3)。


Siri 作为苹果产品的智能语音助手曾经引领了潮流,但随着时间的推移,语音的影响力逐渐减弱,到逐步变为只做“输出”的附庸和配角。现在有了大模型的赋能下语音有望重新成为人机交互方式的主流,可谓是一波三折。如今美国 a16z 甚至单独设立了一个投资主题,但是在中国语音将会产生哪些影响,目前还只是零零散散的观点。本文着重讨论了语音结合中国国情可能产生的一些影响。

01 Voice is ready

语音:开启人机交互的新纪元

在绿洲资本的洞察中,互联网的发展历程可以被看作是硬件迁移的历程,从鼠标到触摸屏,每一次变革都极大地改变了我们的交互方式。然而,当我们谈论AI时代的来临,许多人还在期待下一次硬件的革新。这种观点忽略了一个重要的趋势:语音技术的崛起。语音不仅是输出的工具,更是输入的媒介,它在大模型的赋能下,正在引领人机交互方式的一次新的“范式迁移”。

这种迁移的核心在于,语音技术不再局限于单一的硬件界面。它能够跨越智能手机、智能家居设备、车载系统乃至各种智能机器人,成为一种无处不在、灵活便捷的交互方式。语音输入的无缝对接,不仅极大地提升了用户体验,也显著提高了交互效率。

特别是在用户人群的扩展上,语音交互展现出其独特的优势。它不仅适用于年轻人,更在老龄人群和低龄人群中展现出巨大的潜力。对于视力下降、手指灵活性降低的老年人,以及尚未掌握手写能力的儿童,语音交互提供了一种更为自然、更为便捷的交互方式。这种技术的普及,无疑将为更广泛的用户群体带来更加人性化的体验。

语音:入口价值

语音作为交互入口,正展现出其独特的价值和广泛的应用潜力。与传统的文字搜索相比,语音交互的即时性和自然性使其在非正式的闲聊场景中更具优势。语音的这种简洁性不仅为用户提供了便捷的沟通方式,也为构建语音生态系统奠定了基础。

语音社交作为这一生态系统的最高频场景,具有强大的导流作用。它能够将用户引导至各种垂直语音应用服务,从而推动这些服务的市场增长和创新。随着语音优先的用户规模扩大,未来的语音交互有望实现跨设备的无缝连接,形成一个以语音为核心的全新应用生态链。

语音在多模态应用的进展已经展现其作为入口的价值。例如,Suno的新功能允许用户通过哼唱来生成歌曲,这不仅展示了语音在音频创作领域的潜力,也体现了语音输入在非传统文本转换场景中的应用。类似的,语音生成视频、语音购物、语音生成图片等功能,都会为用户带来了全新的交互体验。

语音:中国 AI 的特有突破与最低门槛

在中国AI能力边界的探索是当前VC和创业者热议的话题,关键在于洞察AI的潜能和局限。尽管大模型拥有强大的生成和学习能力,但它们的有效性在很大程度上取决于用户的认知水平,这表明了用户主观体验的重要性。

一些VC甚至开始将模型的智能水平与用户的学历水平相对齐,这反映了对用户认知水平分层的重视。语音接口作为一种低门槛的交互方式,尤其适合服务那些认知负荷较低的用户群体,如教育水平较低或技术不熟悉的用户,它通过简化的交互方式满足了这些用户的基本需求。

与此同时,尽管文字交互因其复杂性和精准性在生产力工具中占据不可替代的地位,但中文大模型在文本处理的多样化和精细化需求方面仍有提升空间。中美两国在AI发展的宏观方向上虽有共识,但在实施层面,中国可以利用其独特的用户群体属性和市场需求,探索和发展出具有本土特色的发展路径,以满足国内用户的特定需求并推动AI技术的创新应用。

语音:增加了情绪价值

语音技术通过TTS、角色设计、用户ID绑定以及性格微调等手段,为互联网应用带来了显著的情绪价值。这种情绪价值不仅提升了用户体验和满意度,还为应用厂商构建了独特的竞争优势和壁垒。应用厂商可以专注于提升语音交互的EQ(情感智商),将IQ(智商)方面的工作交给大厂来完成,从而实现双赢的局面。

尤其是语音优先的用户很难分清虚拟和现实的分别,老人和儿童会把AI当作真实的“准人类知己”。他们会对这个“IP”产生强烈的认同感和归属感。这种情感上的连接使得用户在更换IP时面临极大的失落感。新的IP也没有了用户之间的历史互动记忆,从而破坏了用户原有的情感寄托和信任基础。

孤独感这一看似普遍的情绪状态,通过AI的模拟人类语言和情感的对话,其缓解效果却极具个体差异。无论是青春洋溢的学生、忙碌的职场人还是享受晚年的长者,AI在缓解孤独感方面的成效因人而异。年轻人的孤独感往往与他们的婚姻状况、收入水平紧密相关,孤独感是多维缓解的。而老年人则可能通过扩展社交圈或参与线上活动来弥补线下社交的不足,是线上线下结合的。

创世伙伴梁宇强调,在吸引首批用户的市场策略中,还需要特别关注那些娱乐资源相对匮乏的地区,比如中国的下沉市场。

语音:重塑社交格局

语音社交正在逐步改变我们的社交格局,它通过提供一种更自然、更亲密的交流方式,重塑了我们与他人建立联系的方式。与传统的熟人社交和陌生人社交相比,语音社交能够更轻松地打破初次见面的尴尬,促进人们之间的信任和默契的建立。这种交流方式不仅适用于熟人之间的深入沟通,也能帮助陌生人建立起初步的联系,并随着时间的推移发展成为半熟人关系。

Clubhouse 作为语音社交的先驱,虽然一度引起了广泛关注,但在维持用户粘性和活跃度方面面临挑战。纯人类语聊的模式难以持续产生有趣话题或深入讨论,容易陷入冷场。此外,过度依赖人与人之间的陪伴也限制了平台的灵活性。

AI技术的引入为语音社交带来了新的解决方案。AIRCHAT 等平台通过在人类群聊中融入 AI,不仅通过 AI 生成的内容(AIGC)带动了交流时长的增长,而且通过人与AI的互动提升了用户粘性。

与此同时,传统的文字、图片和视频社交平台,尽管为用户提供了丰富的交流渠道,但在沉淀用户关系链方面存在局限。用户在这些平台上往往面临着众多选择,而这些平台的独特社区文化和庞大的用户基础使得用户更倾向于加入已经建立并广泛认可的社区。这导致一些以年轻人为主要用户群体的AI社交平台逐渐变成了纯内容平台,难以形成深层次的用户关系。

语音:造就了“解放双手”的新场景

移动互联网的发展极大地改变了人们的生活方式,使得我们不再局限于坐在电脑前的场景。随着移动设备的普及,用户可以在通勤、等待等碎片化时间里观看短视频,这种快节奏的信息消费模式符合现代人的生活方式,并逐渐培养了用户的新习惯。

语音必须在移动化和碎片化场景上延展出新的场景,才能展现出其增加用户时长的独特价值。语音新增场景最大想象力,就是让“解放双手”成为可能,用户可以通过简单的语音指令来执行多任务处理,如在下厨时无需触碰屏幕,或在忙碌的日程中通过语音快速更新会议记录和日程计划,紧急情况下的快速响应,用户在购物或进行其他交易时无需使用手操作。

通过这些无需双手应用场景的探索,可以预见语音将在日常生活中扮演越来越重要的角色,成为连接人与信息、设备、服务的重要桥梁。

02 语音扩宽了互联网用户群

语音:打破年龄、地域和文化障碍

互联网时代我们很难看到操着唐山话的人和一个温州话的人在线交流,这里其实就是卡在了翻译的技术实现上,巨大的延迟阻碍了语音网络效应的形成。

GPT-4o赋能下的AI翻译技术,相当于让每个人有虚拟的同声翻译员。使得跨方言或语言交流成为可能。在语音社交平台上,用户可以轻松与来自不同国家和地区的人进行交流,无需担心语言障碍。这种全球化的交流体验将吸引更多用户参与,并提升平台的国际影响力和用户粘性。

预计到2050年,语音优先的全球60岁及以上的人口将接近20亿,这将是一支不可忽视的庞大用户群体。将会诞生新的网络文化与传播。

语音:中国是语音优先用户的最佳聚集地

中国凭借其庞大的互联网用户基础和高移动设备拥有量,成为语音优先用户群体的理想聚集地。特别是对于那些已经接入互联网但由于输入困难而未能深入体验网络服务的用户,中国提供了一个巨大的潜在市场。在中国东部沿海地区,人口密集且经济发达,为语音技术的本地化运营提供了肥沃的土壤。

此外,中国公司在人力成本和外派运营方面具有明显优势,这使得它们能够在欧美日韩和大洋洲等地区开展本地化服务,这些地区往往因为语言和文化的特殊性而被美国大厂忽视。例如,苏格兰和日本关西地区的口音,为中国公司提供了展示其本地化能力的机会。

然而,亚非拉等地区虽然市场潜力巨大,但受到经济水平、移动设备普及度和地理条件的限制,语音技术的推广面临更多挑战。在这些地区,需要创新的解决方案来克服障碍,实现语音技术的普及和应用。

03 语音的通用和本地化

大厂的通用运营策略

智能音箱和手机语音助手的普及,让硬件厂商在用户心中树立了品牌认知和使用习惯,这无疑为它们带来了显著的市场优势。然而,要将这种优势转化为持续的增长和忠诚度,厂商必须不断推动产品的创新与升级,确保这些升级能够切实解决用户的痛点。

面对的最大挑战之一是如何将这些设备从偶尔使用的工具,转变为用户日常生活中不可或缺的社交互动方式。这涉及到规模和网络效应的问题,语音优先的用户可能分别使用华为、小米或VIVO等品牌的设备,厂商很难突破各自的生态系统。

历史告诉我们,忽视这一趋势可能会带来严重的后果。小米公司在上个时代的竞争中,尽管拥有预装优势的米聊,却未能超越微信,最终在竞争中处于劣势。

语音的本地化策略

在推动语音技术的本地化过程中,方言的使用不仅能够增强人性化交流和文化共鸣,还能够显著提升用户体验和用户粘性。然而,这一过程并非没有挑战。数据收集和处理是本地化策略中的一大难题,尤其是在像印度这样的多语言国家,口音的多样性和复杂性给语音识别技术带来了前所未有的挑战。

尽管迁移学习技术已经大幅降低了方言训练的成本和数据要求,但对于那些用户基数较小的语言分支,识别技术的准确性仍然依赖于用户反馈。在中国,虽然已有二十几个主要方言经过了训练,但更多的地方方言仍处于待训练状态。这些地方方言不仅包含了丰富的语音、语调、节奏,还蕴含了特定的语境和语用信息,这些信息对于提升语音识别的准确性至关重要。

为了实现有效的本地化运营,团队需要深入了解当地文化和用户需求。百度战投MAX表示,“这个需要非常接地气”。

传音在亚非拉地区的本地化销售团队已经展示了本地化运营的潜力,但如何将这种潜力转化为用户运营的成功,仍然是一个需要深入探讨的问题。火山引擎生态的牛少强指出,大厂的优势是通过中心化的流量分发获客,而语音优先的用户的推广中,需要更多地依赖本地化策略和运营积累。

04 语音是下一代消费介质

我们知道上一代短视频媒介除了短视频+直播内容生态的基础上广告和打赏外,最大变化是延展出电商、本地生活等更多业务形态,引入人格化互动形式和基于信任的消费决策场景,成为驱动增量消费新引擎。

传统互联网时代语音购物面临着剥夺用户购物快感和缺乏信任两大问题。语音无法提供足够的信息宽度,无法像图形界面那样快速区分不同的商品特性和场景效果,呆板冰冷的对话也无法获取用户信任,从而影响了用户的购物体验。中美的语音购物一直停留在概念阶段。

那么语音作为新媒介,除了增加的情绪价值类似打赏直接变现外,如何改变图文和视频传统电商的流量逻辑呢?

语音:农民的电商上架新利器

在中国电商领域的竞争格局始终如一幅动态的画卷,不断演变。与美国相比,中国电商生态的独特之处在于其供给端的多元层次结构。在这个移动互联网蓬勃发展的时代,拼多多与抖音快手等新兴平台,精准捕捉到了阿里巴巴和京东所忽略的市场缝隙——那些被传统电商巨头视为非核心的中小商家和非品牌商品,从而开辟出了全新的商业蓝海。

电商对于农民而言,曾是一片难以触及的领域。面对高度分散的农户群体(其中绝大多数是老龄化的独立种植者),加之他们对电脑技术的陌生感,使得生鲜电商的拓展一度受限于复杂的批发商体系。然而,随着语音的兴起,这一切将会悄然发生变革。

语音凭借其天然的亲和力与操作的简易性,正重塑农民参与电商的方式。通过简短的口述指令,农民可以迅速上传商品详情与价格,再搭配生动的可灵图像转视频,即可构筑起极具吸引力的产品展示。这种方式完美契合了农民在微信群中语音报价的传统习惯,极大地简化了技术操作,让电商上架变得触手可及。

设想一下,一位农民代表只需轻松地说出:“河北彩木营村的精品西红柿,每斤仅售1.2元,个大味甜。” 这一简单的话语,便足以促成商品的即时上线。这不是未来主义的幻想,而是即将成为现实的电商新纪元。语音的运用,让平台能够直连农户,削减中间环节,增强供应链的效能与透明性。

当然,语音的应用并非万能,它最适合那些特征明显、易于口语描述的商品,比如西红柿、黄瓜或羊肉。但对于那些特性复杂、需要详尽说明的产品,语音描述可能会显得力不从心。农民可能缺乏将商品细节和卖点以言语精炼表达的技巧。

若农民能熟练驾驭电商运营,他们将在供应链中占据无可替代的位置,凭借高频耕作与灵活的生产模式,成为电商领域的一股强大力量。在主粮作物休眠的季节,他们利用空窗期种植速生叶菜,或是自家后院养殖鸡鸭,这些周期短、回报快的品类,其市场活跃度远超拼多多等大型电商平台上的常规农产品,展现出非凡的市场潜力。

在拼多多的物流网络中,远程交易的农产品虽非易腐的叶菜为主角,但语音的普及,正以本地化运营的策略,消弭城乡隔阂。在这百公里的地理半径内,小周期农产品,诸如鲜嫩的绿叶蔬菜,将迎来前所未有的流通加速,书写着电商新时代的绿色篇章。

语音购物:重塑电商生态的低价革命

刘强东的AI数字人直播盛事,虽已触及行业技术的巅峰,但也映射出人工智能在表情动态与行为模仿上尚存的边界。细微的机械感与非自然表现或许会侵蚀用户对AI主播的亲近感与沉浸式体验,从而制约了直播互动的质量。然而,步入语音购物的疆域,这一切视觉上的不足得以巧妙化解。语音交互,作为一门纯粹的听觉艺术,其魅力源自于音质的清澈、语调的自然流畅及信息传达的精确无误,而非对外形的过分追求。

同时正如我们所探讨,语音正在为电商开辟一片崭新的低价、标准化商品的市场,凭借其明确的价值标签与广泛认同的品质标准,促使消费者的购买逻辑趋向直截了当,聚焦于价格竞争力与购物流程的便捷性。

更为重要的是,语音购物首次打破了当前电商行业的“囚徒困境”,实现了消费者与商家的双赢局面。在消费降级的大背景下,市场各方似乎都被卷入了一场无休止的价格战漩涡,面对高昂的运营成本与激烈的市场竞争,商家的盈利空间受到严重挤压。然而,在语音优先的新型供给体系中,参与者多为年长的农户或手工艺人,他们对巨额财富的渴望已然淡薄,生活成本低廉,从事生产更多出于对家庭的责任与爱。这种社会剩余价值的发掘,实际上利用了中国最后一波廉价劳动力的成本优势,为电商市场注入了新鲜血液,创造出一种可持续发展的商业模式,其中,消费者得以享受低价实惠,而平台亦能在合理利润与社会责任间找到平衡点。

语音:口碑经济的催化剂与品牌升级的加速器

语音尤其在以口碑为核心驱动力的精选商品与高频复购场景中,展现出了无可比拟的适用性。语音优先的用户群体,多为生活智慧的积淀者,他们深谙日常所需,于无形中积累了大量宝贵的评价数据。这些真实反馈,如同一盏明灯,为白牌产品向知名品牌迈进提供了坚实的导航依据。更重要的是,语音平台凭借其“原材料级”的供应链优势,能够在品牌塑造的道路上,领先于如拼多多等同场竞技者,展现出无与伦比的白牌升级潜力。

设想一下,在喧嚣的菜市场中,向熟稔的老店主询问哪款马桶搋子最实用,他或许会告诉你:“周围的老顾客都青睐这款。”同样,漫步于北京牛街这样的地道美食街区,对于外来访客而言,那些隐藏在民间的美食秘籍,往往难以通过常规的在线点评系统窥见全貌。究其根源,是因为这些经年累月沉淀的语音口碑,长久以来,只在口耳相传之间流转,难以转化为线上可检索的文字信息。

语音的兴起,正是破解这一难题的关键。它不仅赋予了这些珍贵的口碑数据以生命,让它们得以跨越时空界限,触达更广泛的受众,同时也为电商平台构建了一个全新的信任体系,让消费者在选择时,能够聆听来自真实声音的指引。在这一过程中,语音成为了连接线下口碑与线上购物体验的桥梁,推动着品牌与消费者之间更加紧密的联系,为品牌升级与口碑传播注入了源源不断的活力。

05 语音技术的双刃剑

语音技术,作为科技向善的典范,深度挖掘了中国社会的潜在价值,不仅显著缩小了城乡之间的信息鸿沟,还在应对人口老龄化带来的信息获取障碍方面展现出巨大潜力。然而,在颂扬其积极贡献的同时,我们也需正视其伴随而来的挑战与问题。

语音潜在煽动性:低认知群体的风险

在中国社会,低认知群体历来是易受影响的群体。语音技术,尤其是AI语音的广泛应用,强大的说服力和情感模拟能力,在某种程度上接近于历史上的“造神运动”,而这类运动往往伴随着“盛极而衰”的规律。正如我们目睹的,一些不法商家利用语音技术配合人情攻势,诱导老年人购买高价保健品,即便面对家人与警方的劝阻,这些老年人也往往固执己见。因此,未来语音技术的发展必须与国家监管部门紧密合作,共同构建健康、理性的使用环境。

巨头的双刃剑:语音技术的本地化与依赖

语音技术的本地化运营需求,如同一项繁琐而细致的“水泥工程”,往往让大型科技公司望而却步。然而,语音技术又无法脱离大厂的强大技术支撑独立前行。这种矛盾要求平台在寻求技术合作的同时,必须精心平衡与巨头之间的关系,既要借助其技术实力,又要保持自身的独立性和创新性。如何在巨头的庇护下,又不失自我成长的空间,是每一个语音技术平台必须深思的问题。

国际化征途:机遇与挑战并存

在全球视野下,语音技术无疑是一片未被充分开发的蓝海。中国语音技术凭借独特的低价供应链优势,正逐步构建起与美国等强国差异化竞争的能力。然而,当前中美之间的政治紧张局势,无疑为语音技术的国际化之路增添了几分不确定性。尽管如此,欧洲、日韩等市场依然为语音技术提供了广阔的舞台和优质的用户基础。面对这些机遇与挑战,中国语音技术企业需灵活应对,寻找最佳切入点,以创新驱动发展,实现全球化布局。

通过本文的深入分析,我们可以看到语音技术正迅速成为人机交互的新范式,特别是在中国特色市场,它展现出重塑社交格局和消费习惯的巨大潜力。语音技术的普及不仅为老年人和儿童等特殊群体提供了更加便捷和人性化的交互方式,也为电商、健康等多个领域带来了创新的应用场景。

·END· 
加入 Memo Pro 会员,获取更多趋势信号


Memo: Signal, not noise!

扫码或点击「阅读原文」继续阅读

订阅 Memo Pro
Memo(vcsmemo.com)是一个基于付费订阅模式的创投内容平台,已得到大量 VC、企业 CEO 以及高管的支持,我们希望帮助你捕捉最具价值的趋势信号、过滤噪音(Signal,Not Noise)。
订阅 Memo Pro 你将获得:
1.解锁未来一年以及之前的所有会员专属内容2.邮件订阅功能:付费内容+最新行业快讯+...3.优先体验 Memo 新产品和新功能4.后台回复“发票”获得开票入口
限时 599 元/年,扫码立即订阅

a16z 将语音 AI 作为一个独立投资主题,行业图谱展示投资机会


估值超 1 亿美金,它将实时语音和视频无缝嵌入到任何应用


从 7400 万美金年收入的 AI App 看今天的 AI 应用


6 个月估值增长 10 倍到 11 亿美金,AI 语音克隆彻底火了


继续滑动看下一个
投资实习所
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存