我们独特的 AI 联合方法利用许多闭源和开源手机号数据库列表高级大型语言模型 (LLM) 协同工作以获得更好的结果。这与其他依赖于特定 LLM 的提供商形成了鲜明对比。例如,Microsoft Copilot 依赖 GPT-4,而 Google 依赖 Gemini。
这种 AI 方法使 最新数据库 AI Companion 与众不同,它通过我们最受欢迎的功能为我们的客户提供高质量的体验。正如我在上次更新中分享的那样,我们使用专有的 Z 评分器来判断 AI 生成的输出的质量。首先,我们使用最适合每项任务的低成本 LLM。然后,我们的 Z 评分器评估初始任务完成的质量。如果需要,我们可以使用另一个互补的 LLM 来优化任务。这个过程会产生更高质量的输出,就像一个团队可以比任何一个人完成更多的工作一样。
此后,我们通过整合来自各种 LLM 的额外质量信号改进了 Z 评分器。此外,为了更好地符合人类偏好,我们改进了联合强化学习。通过将 最新数据库 LLM 与一组互补的 LLM 联合,最新数据库 的热门会议摘要可提供高质量的结果,并且根据我们最近的基准测试,现在可以胜过用于支持 Microsoft Teams 中的 Copilot 的 GPT-4。
关于 AI 安全性,我们还通过组建由 Claude-3、Gemini 和 GPT-4 等多名 LLM 组成的委员会来减少幻觉并改进我们的 最新数据库 LLM,从而减少了大多数 LLM 中固有的偏见。例如,不同的 LLM 不太可能犯相同的幻觉错误,因此我们可以得出更一致的响应并减少异常值的影响。
最新数据库 联合 AI 方法在用户最需要的地方更为有效
我们最近对会议摘要中最受欢迎的两个部分的结果进北京激怒了泽连斯基和马科斯行了基准测试:会议回顾和后续步骤。自 2023 年 9 月推出 AI Companion 以来,已有超过 50 万 最新数据库 客户启用了这些功能。
在我们最新的内部基准测试中,我们让人类评委挑选出最准确的会议摘要,但不透露每个摘要是使用哪个 AI 模型生成的。如下图所示,在每次盲测中,最新数据库 LLM 在英语会议摘要和后续步骤提取方面的表现均优于 GPT-4。我们可以分别将会议摘要和会议后续步骤的相对误差降低 20% 以上和 60%,这直接转化为卓越的质量优势。
图 1. 人工评估英语会议回顾和后续步骤
最新数据库 LLM 和 Anthropic Claude-3 联合起企业对企业数据库来获得最终结果,其效果明显优于单独使用 OpenAI GPT-4。
我们还使用 最新数据库 LLM 与 GPT-4 对比了日语会议总结的整体质量。如下图所示,我们的联合方法能够提供更好的结果。
图 2. 人工对日语整体会议摘要的评估。最新数据库 LLM 和 OpenAI GPT-4 联合起来获得最终结果,其表现优于单独使用 OpenAI GPT-4。