产品展示
全息AR眼镜来了!扎克伯格现场开箱黄仁勋首批体验ng体育登陆入口还有Llama 32大模型上新
智东西9月26日报道,北京时间今日凌晨1点15分,年度“MR圈春晚”Meta Connect 2024大会正式拉开帷幕。
Meta CEO马克扎克伯格穿着黑色T恤登台,紧锣密鼓发布Quest 3S头显、Llama 3.2大模型、雷朋智能眼镜、全息AR眼镜等新品。
扎克伯格亮出的首个硬件新品是Quest 3S,惊爆价299.99美元(折合约2110人民币)。
虽说性能比Meta首款消费级MR一体机Quest 3略逊一筹,但起售价直降200美元,约等于苹果Vision Pro的1/11,妥妥的性价比机皇!!!
大模型也重磅上新!Meta多模态模型Llama 3.2发布,包括90B和11B参数的视觉大语言模型,以及1B和3B参数的轻量级纯文本模型。
借助Llama 3.2,Meta AI推出全新多模态功能,能支持语音交互了,有多种音色选项(包括一些名人的声音)。扎克伯格现场演示与Meta AI语音聊天,非常丝滑。
还有被Meta称作有史以来最先进的AR眼镜——全息AR眼镜“Orion”。
Meta直接将Quest 3S价格砍掉200美元(折合约1406人民币),还几乎做到了性能与Quest 3相差无几。
两款头显采用的处理器一致,均为高通骁龙XR2 Gen 2芯片。价格大幅下降的关键就是Quest 3S将Pancake镜头更换成了Infinite透镜。
从现场演示来看,拥有4K显示屏的Quest 3S显示十分清晰,还支持杜比全景声(Dolby Atmos)环绕。
Meta添加了空间音频,并改进了Passthrough(透视)的对比度和颜色,都使得其画面演示能更加逼真和身临其境。
扎克伯格宣布Meta正与微软合作,用Windows 11 PC来实现无缝虚拟桌面体验。
Meta已提供多屏幕支持,并且能够直接与显示器上正在发生的事情进行交互。例如,用户可以直接拖拽笔记本中的界面到Quest设备中。
为了创建更加逼真的元宇宙环境,Meta推出了Hyperscape,用户只需用手机扫描自己所在的房间,然后随时戴上头显都能“重现”这一房间。
这一头显设备能让你坐在前排座位观看音乐会、坐在家庭影院观看高清大片、进行健身等。
此外,Quest 3S还兼容Meta的数千款应用和完整游戏库,以及即将推出的Quest 3和3S独家游戏,如《蝙蝠侠:阿卡姆暗影》。
对于那些刚接触XR或者一直在等待Quest和Quest 2设备降价的用户而言,Quest 3S可能是更好的选择。
Llama 3.2有90B和11B两种参数规格的视觉大语言模型,还有能在设备端本地运行的1B和3B轻量级纯文本模型,包括预训练和指令调整版。
1B和3B模型支持128K tokens上下文ng体育登陆入口,适配高通和联发科硬件,并针对Arm处理器做了优化。
3B模型在遵循指令、总结、快速重写和工具使用等任务上的表现优于Gemma 2 2.6B、Phi 3.5-mini模型。1B模型的表现媲美Gemma。
90B和11B视觉模型是其相应文本模型的直接替代品,同时在图像理解任务上的表现优于封闭模型,如Claude 3 Haiku、GPT-4o mini。
比如问企业去年哪个月的销售额最高,Llama 3.2可根据可用图表进行推理并快速提供答案。
视觉模型也能通过从图像中提取细节、理解场景,然后制作一两句话作为图像字幕来帮助讲述故事。
与其他开放多模态模型不同,预训练和对齐模型都可以使用torchtune针对自定义应用程序进行微调,并使用torchchat在本地部署。
Meta的训练流程由多个阶段组成,从预训练的Llama 3.1文本模型开始,首先添加图像适配器和编码器,然后通过大规模噪声对数据进行预训练,接下来在中等规模的高质量领域内和知识增强的数据上进行训练。
在后期训练中,Meta使用与文本模型类似的方法,在监督微调、拒绝采样和直接偏好优化方面进行多轮对齐。最终得到这一组可以同时接收图像和文本提示并深入理解和推理两者组合的模型。
对于1B和3B参数的轻量级模型,Meta使用了利用强大的教师模型来创建性能更佳的小型模型的方法,使得其成为首批能够高效适应设备的高性能轻量级Llama模型。
Meta通过缩小Llama现有模型的大小,同时尽可能多地恢复知识和性能,其采用了从Llama 3.1 8B中一次性使用结构化修剪的方法。
在后期训练中,研究人员使用与Llama 3.1类似的方法,通过在预训练模型的基础上进行几轮对齐来生成最终的聊天模型。
Meta正在分享首个官方Llama Stack发行版,将极大简化开发人员在单节点、本地、云和设备端等不同环境中使用Llama模型的方式,从而实现检索增强生成(RAG)和集成安全性的工具支持应用程序的交钥匙部署。
现在,使用语音与Meta AI对话,可以让它回答你的问题或者讲笑话逗你开心。Meta在语音中还添加了很多熟悉的AI声音。如英国女演员Judi Dench等的声音。
扎克伯格现场对话了AI版数字AR/XR视觉艺术家唐艾伦史蒂文森三世(Don Allen Stevenson III),他对小扎提到的恭喜新书发表、创作感想等内容对答如流。
当被问到一个与史蒂文森三世本人毫无相关的农业问题时,AI版艺术家的回应也很符合人设,他称自己擅长设计和技术而非农业相关。
Meta AI还能直接看懂照片,用户可以直接在聊天界面中上传图片,AI就可以帮你解答你旅行中遇到的花是什么花、如何制作图片中这道菜等等。
编辑照片也不在话下,无需打开其它编辑工具,仅在Meta AI的对话框就能解决。用户可以直接告诉AI想在上传的照片中添加、删除或者更改什么内容,例如替换服装、更换背景等。
同时,当用户想分享照片到Instagram Story等社交平台上时,Meta AI还会根据照片的内容生成相应的背景图。
扎克伯格说,Meta正在测试一款翻译工具。该工具可以自动翻译短视频应用Reels中的音频,通过自动配音和口型同步,不仅能模拟说话者的声音来翻译,连口型都能对上。
这一功能首先将在Instagram和Facebook上进行小规模测试,将来自拉丁美洲和美国的创作者的视频翻译成英语和西班牙语,未来将会扩展到更多创作者和语言中。
Meta AI的图像生成功能还能帮用户在Facebook等平台上为自己“立人设”,如将自己的个人资料图片更换为超级英雄或者其他角色,还能为故事推荐标题。
面向企业,Meta正在将其AI工具扩展到数千家使用WhatsApp和Messenger英文版点击消息广告的企业。
上个月已经有超过100万个广告客户使用Meta的广告生成工具,并利用这些工具制作了1500万条广告。数据显示,平均而言,与未使用这些功能的广告系列相比,使用Meta生成式AI 广告功能的广告系列点击率高出11%,转化率高出7.6%。
雷朋智能眼镜一直非常受欢迎,具备视频通话、流式传输内容、拍摄,抑或是听音乐、有声读物等功能。
首先是对话变得更自然。用户只用在对话开始时说提示词“Hey Meta”,后面就可以直接连续提问,不用重复说很多次“Hey Meta”。
还有一个功能是帮用户记住事情。比如当用户飞到某个地方,询问在哪儿停车,眼镜会帮用户记住停车的位置。
它还能用来打电话、扫码。当双手不方便操作手机时,用户可以用Meta AI在WhatsApp和Messenger上录制和发送语音消息,同时保持在线状态。
比如当用户探索一个新城市,可以让Meta AI根据摄像头捕捉的信息询问用户在行走时看到的地标或获取下一步要看什么的想法。
它也能提供服装搭配建议,并实时掌握你的周围环境,比如建议用户考虑“刚才路过的那条珍珠项链”、“右边的黑色连衣裙”。
或者在一个杂货店并试图计划一顿饭时,用户可以让Meta AI根据自己在过道上行走时看到的东西来帮忙弄清楚要做什么,以及手里的酱料是否与它刚刚建议的食谱搭配得很好。
现场还演示了流畅的实时语音翻译功能,戴着眼镜就能打破语言障碍,实现跨语种交流。
雷朋智能眼镜可使用“be my eyes”应用,将视力有缺陷的人与视力正常的志愿者相连,以便志愿者能借助眼镜和POV视频通话,轻松看到视力残障人士的视角并告知周围环境,或者在日常任务中提供实时、免提的帮助,例如调节恒温器或分类和阅读邮件。
Meta正推进与Spotify和Amazon Music的整合,并与Audible iHeart建立新合作伙伴关系ng体育登陆入口,使用户能随时随地使用语音搜索、发现和播放内容。
AR眼镜兼具便捷、即时性、大显示屏、高带宽输入、情景化AI等优势。它不受手机屏幕限制,能借助大型全息显示屏,将物理世界当成画布。
Meta AI智能助手可在Orion上运行,理解用户在现实世界上看到的东西。比如用户可以把摄像头对准冰箱,让Meta AI根据里面的东西提供食谱建议,或者边洗碗边调整数字家庭日历,边给朋友打视频电话。
基于手腕的神经接口可理解用户与设备交互的手势。手势操控时,你可能不想在公共场合手舞足蹈招一堆人围观,而操作Orion的动作非常轻微,不会影响到周围的人。
目前Meta主要关注三件事:1)调整AR显示质量,使视觉效果更加清晰;2)尽可能优化,让外形尺寸变得更小;3)规模化,使其可负担。06
便宜、便携、舒适,智能,成为今年MR/VR/AR新品的共识,这在今天的Meta Connect大会上再度得到印证。