苹果公司的研究团队近日发表了一篇论文,宣布他们成功开发了一种创新的人工智能系统。该系统可以准确地理解屏幕上的模糊内容及其相关的对话和背景环境,从而实现与语音助手更自然的交互。
该系统被命名为领域(引用解析为语言)
建模(基于语言建模的引用解析)通过使用大型语言模型将理解屏幕视觉元素的复杂任务转换为纯语言问题。与现有技术相比,这种转换大大提高了领域的性能。
苹果公司的研究团队强调:“使对话助手能够理解上下文,包括相关的内容说明,这一点至关重要。”允许用户根据他们在屏幕上看到的内容提问是确保真实语音体验的重要一步。“
|0@4299.com
领域的创新之一是它能够重构屏幕内容,即通过分析屏幕上的信息及其位置来生成文本表示,这对于捕捉视觉布局是必不可少的。研究人员证明,这种方法与为内容导向而设计的语言模型相结合,在执行相关任务时可以超过GPT-4的表现。
研究人员表示:“我们对现有系统进行了重大改进,在处理多种类型的内容方向方面表现出色。”我们最小的模型实现了超过5%的性能改进,而大型模型的性能显著优于GPT-4。“
|1@4299.com
这项研究突出了关注语言模型在处理面向内容的分析等任务方面的巨大潜力。由于响应时间或计算资源的限制,大型端到端模型往往难以实施。通过这项创新研究,苹果展示了其继续致力于让Siri等产品在对话和上下文理解方面做得更好。
尽管如此,研究人员也指出,依赖屏幕内容的自动解析仍然面临挑战。在处理更复杂的视觉内容时,例如区分多个相似的图像,可能需要将计算机视觉和多模式技术结合起来。
|2@4299.com
尽管苹果在人工智能领域一直落后,但它正在悄悄地取得显著进展。从融合视觉和语言的多通道模型,到AI驱动的动画工具开发,再到高性能专业AI技术的构建,苹果的研究实验室不断实现技术突破。
面对来自谷歌、微软、亚马逊和OpenAI的激烈竞争,|_2@981.com等公司在搜索、办公软件、云服务等领域推出了先进的AI产品——是一家以保密著称的科技巨头。苹果正在努力不被落在后面。
长期以来,苹果在创新领域扮演的更多的是追随者而不是领导者的角色,现在它面临的是一个被人工智能迅速改变的市场。在6月份的全球开发者大会上,苹果预计将推出一个新的大语言模型框架--苹果。
GPT在其生态系统中拥有聊天机器人和其他人工智能功能。
我们很高兴在今年晚些时候分享我们在人工智能方面的进展,首席执行官蒂姆
库克(COOK:行情)最近在一次获利电话会议上暗示.尽管苹果一直保持低调,但其在AI领域的广泛努力引起了业界的极大关注。
然而,在人工智能领域日益激烈的竞争中,苹果的相对滞后使其处于劣势。但凭借其强大的财务实力、品牌忠诚度、一流的工程师团队和紧密整合的产品线,苹果仍有机会扭转局面。