星空体育官网OpenAI与Google巨头对线后开发者如何快速

发布时间：2024-06-05 07:42:23|来源：星空体育app下载| 作者：星空体育app官方下载

　　5月16日，在近期备受瞩目的OpenAI和Google大战话题之下，我们邀请到了潞晨科技创始人尤洋、Zilliz技术合伙人栾小凡、51CTO内容中心主编薛彦泽、硅星人/品玩创始人&CEO骆轶航、硅星人/品玩内容中心负责人王兆洋作为嘉宾分享他们的观点和新洞察。

　　这些技术进步对多模态融合模型成熟度产生什么影响？以及它们可能对特定行业和应用场景，尤其是中国市场带来怎样的深远变革？

　　尤洋：首先工程化、产品化非常重要。这次GPT-4o所做的这一步，对于长期AI公司的商业化，甚至是成为超级公司，都是非常关键的。最终肯定希望把这AI一个标准化的产品能基于知识产权嵌入生活环境里边。

　　骆轶航:大家实际上也注意到的一个事情，之前当sora刚出来的时候，大家非常关心其商业化的可能性。但到目前为止，sora已经启动了一些特别小规模的、特邀制的商业化内测。但我们看这次GPT-4o发布的版本，它的第一步是免费的。那么，从这个角度来看，尤老师怎么看？

　　尤洋：sora之所以不能直接像GPT-4o一样免费去用主要有两个原因。第一点是，它的成本非常高。再一个，视频大模型对GPU基础设施的要求太高了，费时用户交互性非常差。但是GPT-4o的表现非常流畅丝滑，显然他们已经把模型做得非常精简，并且它的下层基础设施本身就比较强大。我认为从成本和用户体验的角度来看，GPT-4o都是OK的。

　　栾小凡:这一次我认为真正的突破在于，它真正实现了端到端（E to E）的处理，我认为这个模型的能力在接下来的一段时间内将会大幅加强。这跟前段时间特斯拉的完全自动驾驶（FSD）升级非常相似。从scaling law的角度来说，用于训练的数据量和可以处理的信息量，实际上都比之前多了很多，只要我们的算力和推理层面能够跟上。

　　我觉得对整个行业或者对应用的开发者来说，可能现在已经到了可以真正做出好应用的阶段，至少底层infra的响应能力已经具备了。

　　骆轶航:如果我们谈论特斯拉最近的FSD更新，它在很大程度上也是一种工程上的变革。包括内部组织结构上的大幅变革，为了推进这一变革而进行的工作。

　　另一方面，它实际上也证实了scaling law的某些东西，比如在训练数据量上的处理，以及它能够通过训练这些数据，包括推理过程所产生结果的能力。它就像一个领导者。

　　薛彦泽:我想从另一个角度来说，无论是对用户还是对企业的使用，我认为可以说是迈出了一小步。但是，在OpenAI奥特曼看来，这其实也不算什么。OpenAI现在似乎被市场教育了，奥特曼再一次采访中说“我们学到的一点是，我们应该放慢步伐，采取更小的迭代步骤。”

　　骆轶航:从奥特曼最近对外公开的一些表达中，可以看到他们的策略可能会有所调整。在这个阶段，他们可能认为小幅快跑、小步迭代，像开发一个产品那样，是大家更愿意接受的方式。但这并不意味着他们的步伐真的慢下来了。GPT在去年3月份发布的时候，实际上至少在22年的7-8月份，就已经准备好了。

　　另外，很多人可能也了解到，ChatGPT之所以在2022年11月30号发布，可能是为了对冲之前不久发生的一个团队的出走事件的影响。我觉得他们把握节奏的能力非常好，包括抢在Google之前一天举办发布会，以及与Gemini 1.0版本同一天发布。

　　的确它是有这样的一种可能，这个不意味着步子慢下来了，只是我先给你看到我目前想给你看到的，我觉得这个是一种可能性。

　　它融合了多模态，将视频、主要是图像和声音，语音，融合到了文本文字中，形成了一种多模态的融合形式。实际上，从Gemini 一开始推出时，它就声称自己是一个融合模型。这个融合模型，他认为自己是在多元化自己。这是他们ChatGPT中一个非常重要的点。

　　王兆洋:我对它前后脚的节奏印象很深。我当时想说Google I/O大会只字不提openAI，但是满眼到处都是openAI。它节奏上的把握，真的是就是一个非常灵活的一个游击战和一个比较身型庞大的一个大型公司之间的一个对比。Google知道OpenAI在做多模态的东西，但Google也在强调自己是原生多模态的。

　　我昨天与Google的CTO交流时，他一直在强调这一点，似乎有一种争夺正统的感觉。但Google似乎还不确定何时会展示他们的成果。

　　王兆洋：对，它不会去强调自己是多模态的，但它展示给你的东西，让你知道当理解用户和使用起来的时候，它就是多模态的。所以我觉得整个Google I/O大会基本上是在OpenAI的ChatGPT全新的阴影下进行的。

　　他们尝试给出了一些回应，比如Extra。我们现场有机会体验了Extra。现场展示的是一个动态识别的能力，效果可以说是不太稳定。实际上这个产品还没有完全推出。我觉得这个就是处处都是在做对比和回应的。

　　尤洋:我感觉他们在做的一件事是如何在不损失精度和用户体验的情况下，让模型运行更加流畅。他们可能使用了更大的数据去训练一个更小的模型，但这个模型也不会太小，当然我确认过它不是蒸馏。在基础设施方面，OpenAI的水平已经很高，最近一两年没有太多实质上的创新。但如果有创新的话，我最近看到的架构还挺有意思的。

　　王兆洋:Google的I/O是在OpenAI之后发生的，OpenAI并没有对这个技术做太多解释。但是Google可能觉得，如果你是在别人后面发布的，你在出来讲的时候，会尝试表达你认为对方做的技术你也有。我觉得Google可能已经意识到了对方在模型小参数上的突破，Google实际上强调了蒸馏技术，即如何将大模型变得更小。但他们不会在大型会议上明确说出来。

　　然而在小型会议上，他们想要强调的往往是他们认为在当前竞争中比较重要的点。他们还强调了自己是正统的原生多模态的，他们认为原生多模态是将所有不同模态的数据都用同一种计算机理解的同一种token来处理。

　　不同模态的数据，比如文本、图像等，都用同一种方式处理，使用同一种token，然后让计算机去处理，可以让数据规模做得更大，或者说涵盖的不同模态更多，整体的多样性也更好，这可能是他们的一个优势。

　　栾小凡:这次发布的一个比较小的一个细节，我觉得他可能是尝试把多模态里面的像音频和文本的tokenization某种程度上有一个统一。这样整个的信息密度可能就更高了，推理速度可能也会更快。

　　关于对向量数据库的影响，如果我们真的能在未来就是实现这种多模态的融合，tokenization如果真的是一个体系的话，那embedding的产生可能会变成多模态数据加文本数据，或者说图片数据加音频数据，整个的搜索的场景和使用的一个广泛程度，其实是更具有想象空间的。

　　我个人觉得大模型还是一个推理的工具，推理能力可能比他能记住多少东西更加重要，记忆可能是长期来看还是会一直是存在的东西。

　　薛彦泽：OpenAI可能唯一包袱就是现在ChatGPT有多少用户量了。奥特曼要实现的是要把全人类都可以使用的AI变成一种服务或产品，只要能被更多的人能发挥出价值来就去做。

　　正如GPT-4o所展示的，语音互动很流畅，且声音具备人类的情绪。而谷歌则不一样，虽然CEO皮查伊注意到了AI必须得革新，但是在如何追这个OpenAI这件事上他犯难了，所以他最后不得不推出了另外一条路线：既然我在这个通用模型上追不上OpenAI，那我就不如都一口气融入到各个业务里。

　　谷歌唯一的底牌还是数据。之前谷歌沉淀了丰富的公域的数据。现在谷歌可以借用AI的能力，然后让每个人都能用起AI来，积累到更私域一些的数据。

　　骆轶航OpenAI将ChatGPT视为新型产品，迅速整合工程、训练、推理及模型迭代的实践到产品中。相比之下，Google的做法显得有些分散，急于展示其基座模型并将其融入多个产品中以彰显AI实力，通过新模型优化旧产品。

　　我们推送的文章里用了一张头图，那个头图是兆洋拍的，他抓拍了奥特曼走向后台，戴密斯哈萨比斯走向前台的一张照片。我们使用的头图上展示了Google deepmind的两个标志，同时有两个人在台上。他现在不认为自己是Googler，而是认为自己是一个Geminier。

　　这个就很有意思，你一边说自己是个Geminier，一边在用这个基座模型，你还可以做很多更新。

　　骆轶航:应该类似于Gemini I/O。通常在进行此类操作时，一方面不断强调将技术应用到旧产品中。

　　如果我们将其投射到国内，也是我们所看到的两种不同的产品思路：一种是利用新技术定义新产品，另一种是利用新技术优化旧产品。

　　首先讨论第一类情况，即将人工智能快速产品化。最近人们经常讨论的是，目前大家在选择卷token的价格，另一方面还在选择卷API的价格。云服务商在某种程度上也在降低服务价格，这可能是因为作为上市公司，他们面临的压力较大，可能不能无限制地降价，但目前看来，这两方面的趋势非常明显。如果在工程方面或其他方面没有重大更新，并且产品无法实现本质提升，就可能出现这种价格竞争的状况。

　　首先，我们看到目前代理的概念非常火爆，但当我们真正与这些专家接触并询问他们的看法时，他们最终的落脚点在于开发机器人，即具身智能领域。如果纯粹讨论这个概念，他们似乎也无法给出明确答案，因此不如将其转化为具体场景。

　　第二点是，我最近在研究奥特曼的想法，他认为最好的产品是将GPT作为一种工具、服务或产品来使用，让其他人基于此构建他们认为酷炫的应用产品。现有的互联网产品已相当成熟，需要的是利用AI创造新想法。云服务商虽然有开发AgentBuilder等工具，虽然很酷，但目前缺乏大规模成功案例。

　　骆轶航：这个现象也很有趣，在硅谷，真正声称自己在做AI的人并没有那么多。在这个环境中，OpenAI随时在凝视大家，人们实际上会变得更加谦逊。他们可能不会总是宣称自己正在开发agent，而是可能会说他们正在为智能家居提供AI能力服务，或者他们可能正在提供跨不同设备和系统的文档整理和时间表整理服务，但他们说自己在做copilot。

　　栾小凡:我与薛老师的看法心路历程正好相反。到了现在这个时间点，在OpenAI所搭建的平台上与OpenAI竞争是非常困难的。但我认为是否有可能通过新的硬件和新的交互方式诞生一些新的产品。未来我们的玩法可能不再是移动互联网或Web应用，而可能是可穿戴式或纯硬件产品。我认为这是一个机会，特别是如果交互方式线o展示的那样令人惊叹，那么这个机会可能确实存在。

　　尤洋:我感觉在开源领域，很快就能对齐LLamMA 4000亿参数的水平。如果这个水平与OpenAI的差距不大，大家都可以在此部署上进行开发，那么应用开发者的壁垒可能不会那么弱。我们现在并不知道OpenAI是否真的遇到瓶颈，还是他们想控制公关节奏，毕竟奥特曼被称为PR大师。

　　骆轶航:据我们了解，这样一个会实际上是由背后参与具体筹办的人，即那些每天都投入精力筹备这个会议的人组织的内部参与筹备的人数大约有1000人。但是，OpenAI基本上就是由20个人就把这件事做成了。

　　我再提出一个观点，即我们通过4o这种免费的模式，我之所以一开始就提到免费这个问题，是因为无论是卷价格还是免费，都意味着你的产品或服务提供给他人使用的成本是比较低的，或者需要付出的代价是较小的。如果产品或服务足够有价值，或多或少应该收取一些费用。

　　另外一种情况是，有些人可能愿意接受体验稍差的产品，4o最大特点，至少目前表现出来的是尽管语音功能尚未可用，但其速度比3.5版本还要快。然。

星空体育官网
上一篇：数码科技在智能家居、智慧医疗、教育和娱乐领域的下一篇：从 IoT 到 IoE：安全的重要性