星空体育官网全面拥抱AI!音频行业新趋势展望:语音助手只是开胃菜

发布时间:2024-08-06 09:27:51|来源:星空体育app下载| 作者:星空体育app官方下载

  另一方面,综合类智能品类也受益于此。INMO Go、阿法龙 Alpha X1 等产品均将语音识别、云上大模型翻译与 AR 眼镜相结合,将外语语音实时转化为眼前能看到的母语文本,为翻译应用提供了新的可能场景。产品详情可以参考我爱音频网评测报告。

  生成式 AI 更强的语义理解能力不仅强化了语音助手的能力,也进一步推动了人机交互的革新。更精确的大模型能力赋能之下,一些智能产品的交互设计中,语音交互的重要性被前所未有增强,重要性与「触控」同等,甚至成为了「唯一」的交互方式。

  从较小的角度看,用户将可以在耳机、智能音箱等传统纯音频产品上,通过「说话」的语音形式执行更多指令,「拿出手机调音量、切歌」的频率会大大降低;从较大的角度看,只设语音交互的、功能更复杂的新类型消费电子品类产品将成为可能,孕育出全新产品形态。

  2023 年,Humane 发布旗下新品 Humane AI Pin,一款无屏幕可穿戴式产品,在「胸针」的造型中内置了麦克风、摄像头、投影仪等,可在手掌上投射出一块屏幕,用户将通过语音指令与手势进行人机交互。

  Rabbit R1 则是另一款备受关注的新形态设备。Rabbit R1 运行自研的 Rabbit OS,通过 AI 理解自然语言执行任务。用户在使用时,不需像使用手机通过点触触控操作 R1,而只需「开口说」提出指令来控制,为个人随身设备提出了新的可能。

  人声转文字和会议记录转录等语音 - 文本转换,是较早的音频智能化应用,在大模型技术原理的协助下,这些应用再度得到优化飞跃,具体体现为转换结果更精确、实时时效性更快速、且可分辨不同说话者等。

  在过往,只有少数品牌厂商掌握进阶级别(即具有区分说话人等功能)的语音 - 文本转换技术。但大模型原理之下,越来越多品牌尤其是音频产品品牌都接入了这类技术,在耳机、录音笔等音频产品上配备专业语音文字转换的产品也越来越丰富。

  讯飞专注办公场景已久,是在办公、效率领域表现最好的品牌之一。讯飞旗舰产品 iFLYBUDS Nano+ 以「随时随地,高效开会」为主题,将重点放在了会议办公场景,支持通话录音、音视频录音、现场录音三种功能,并可同时进行转写转译,其中音视频录音转写转译可实现将音视频里的声音实时转成文字。

  音乐、播客等音频内容,是用户使用音频产品的主要目的,也是广义音频行业的一部份。AI 之下,平台将能更精准把握用户便好,Sora 等生成式 AI 音频工具也将让音频内容平台带入「AIGC 时代」。

  在音频内容层面,AI 接入的最能感知的显著影响,就在于各类推荐算法的完善。大规模用户数据积累、数据发掘深入之下,各类音乐内容平台对用户个体偏好的分析更为精确,推荐算法更为精准。例如,平台不仅可根据用户已经听过的内容作标签式的音乐推荐,也会加入聆听时间、位置场景等因素的考量,区分出「驾驶时听的歌」「放空时听的歌」「工作学习时听的歌」等。

  用户层面,音乐 App 平台的「每日推荐」「猜你喜欢」等由算法推荐的内容会更符合喜好、命中便好;平台与行业层面,更精确的推荐则将增加用户在音乐平台中的活跃度,也间接提高用户使用音频产品的时间。

  QQ 音乐音频技术总监闫震海此前接受访问时说到,QQ 音乐对用户场景的分类更加多样且准确,可以更加有针对性的为用户推荐合适的歌曲,同时搭配适合特定场景的音效渲染,为用户推荐的效果会更为用户所喜欢。

  另一方面,以推荐算法为核心技术之一的字节跳动旗下音乐平台 App 汽水音乐(Resso)则以「推荐」作为核心功能,一反国内传统音乐流媒体的产品逻辑,采用滑动式单曲推荐形式,作出了音乐 App 的新尝试。

  生成式 AI 已经改变了文字与绘画领域,对于音频和视频领域的变革即将到来。2023 - 2024 年,已经有多款可生成高质量音频的生成式 AI 工具出现,用户可借助这些工具,输入歌词、音乐类别和曲风等提示词(Prompt),就能得到一个 AIGC 曲子。

  我们能预见,生成式 AI 将变革音频创作。目前,文字工作者、绘画人士已经在日常工作流中全面使用 AI 工作辅助,相信在不久的将来,音频创作者也会广泛拥抱 AI,将 AI 工具融入工作流之中,为创作加速,拓宽音频艺术的空间。

  音乐创作 AI —— Suno 在 2024 年问世,能够根据简单的提示,创作出包含歌词、人声和配器等所有元素的完整歌曲,被视作「音乐界的 ChatGPT」。和 GPT 等文本生成式 AI 类似,Suno 的技术逻辑是大模型的分析与机器学习训练,其技术实现相当复杂和先进。

  另一方面,Google 的 Deepmind 团队也紧随其后推出音乐 AI Udio,其同样具有音乐生成能力,涵盖了流行音乐、说唱、摇滚、金属等各种风格,且支持多种语言。目前 Udio 已上线。

  最后,AI 的发展应用也在更广泛的层面推动了音频消费产品的演进,为音频类产品的功能跨界提供辅助。

  例如,一些搭载健康功能的耳机可以引入 AI 模型算法来辅助耳机的「心率 / 体温监测分析」、「智能姿态识别」等非音频功能,带来更好的分析效果;佩戴检测、自动区分佩戴方向等功能体验也是 AI 发力的空间。

  华为 FreeBuds Pro 2 + 搭载了光学心率传感器和加速度传感器,可以同时采集心率和运动数据,结合手机端的 AI 数据分析,可为用户提供更全面的健康数据。此外,耳机还支持语音播报,例如在你进行运动时,如果过程中心率过高或过低都会有预警提醒,及时在你的耳边提醒,避免超负荷运动。

  AI 是新质生产力的全新引擎,AI 浪潮正席卷千行百业。我们方才刚见到「AI 时代」的曙光,就已经看到它已在正以不可阻挡之势变革着各行各业,也正从内容创作、生产流程、用户体验的多个维度,全方位重塑音频行业的面貌。

  在 AI 愈来愈成为全链条中各环节关键驱动力的当下,把握行业脉搏尤为重要。未来,我爱音频网将继续关注音频行业动向,与行业一同见证变革与繁荣进步。


星空体育官网
上一篇:2024年开年经济一线观察:从工厂、产业链、产品看先进制造 下一篇:华勤技术获24家机构调研:公司在智能座舱、智能车控、智能网联、智能驾驶四大业务模块均已实现突破与国内汽车自主主机厂、新势力造车头部客户等达成20余项合作(附调研问答)