翻译错误:解析值时遇到意外字符:<。路径 '',第 0 行,位置 0。

奥菲斯量子位的文乐 | QbitAI公众号 说实话,现在的AI世界希望当你睁开眼睛和闭上眼睛时天空会发生变化。产品将陆续出现。难怪网友们都开始说“求你别更新了”……△来源:抖音hyarriver 这不,今天一睁眼,就看到了新的东西。你见过能直接从屏幕录像中提取特效代码并播放的模型吗? ?无论如何,它让我大开眼界。我从相册中提取了以下视频,将其上传,然后输入“实现此交互式特效”。使用模型后,我们得到了以下成品。只能说,在春节电影热潮之前,中国开源的力量就已经势不可挡。 Kimi K2.5是Moonshot AI最近推出的最强大的代理模型。在他的 Spearlie 之后,成为 Twitter 上的热门话题。领导杨志林也亲自到现场进行记录制作了中英文介绍新车型的视频。从视频内容来看,Kimi K2.5有很多改进的地方。它注重一体化的设计美学,实现视觉与文字、思维与实时、交互与代理功能的融合,并能生成具有高级动画的网页。支持可视化编辑,通过循环截图来改变界面,通过加载效果录屏自动反汇编逻辑生成专业代码。启动编程工具 Kim Code 在终端运行,与 VSCode、Cursor 等 IDE 无缝集成,支持图像/视频输入,自动迁移用户现有技能和 MCP。一开始我读了介绍并想尝试一下,但事实证明它非常有趣。那么,让我们更详细地解释一下并尝试一下。在测试实际视觉能力之前,我们先来看看Kimi K2.5的基准测试结果。 K2.5 是最终的 HLE 人类考试,BrowseCompWe 在许多困难的测试套件(包括 DeepSearchQA)上取得了 SOTA 结果。编程方面,它在SWE银行验证中取得了77分的高分,缩小了与开源领先闭源模型的差距。许多视觉理解测试也创下新高。值得注意的是,K2.5 在多项评估中表现优于 GPT-5.2-xhigh。 Kimi K2.5现已更新,新增四种使用模式,以适应不同场景。无论您的需求是什么,您都可以找到适合您的职位空缺。快速模式注重非常快速的反馈,适合日常聊天和简单查询。 mThinking odo 专门针对难题,帮助您逐步分解复杂的逻辑。 Agent模式适合深度挖掘,比如进行研究或者生成办公文档、网页。最强大的是代理集群模式,可以调动大量的i智能克隆并行执行多线程超级任务。在一开始的特效播放的情况下,采用的是代理组模式。您为我指派了一位名叫 Ache 的开发人员。介绍的重点是“可视化代码x”,所以我们来尝试一下K2.5。编码能力。第一个真正的测试项目涉及查看图像和编写代码。上传K2.5音乐播放器网页截图以供参考。然后输入“访问此网页”。没过多久,相应的代码就生成了,并发布了一套新的或完整的代码。生成的网页不仅恢复了原始布局的功能,还包括按钮的悬停效果和音乐播放进度条的滑块效果。事实上,你也可以看到,我展示的参考图像不是很清晰,但是模型能够准确地识别它。网站上显示的音乐封面是由模特自己制作的。另外,按钮的布局底部的ns还没有完全恢复。不过,在我看来,这个效果已经是一份优秀的答卷了,治愈率超过90%。当然,您还应该看到上传的参考图像上出现一个红色感叹号。 srds模型可以识别图像进行分析。所有模型都可能有一些误差,但我唯一能说的是,如果能用于实际用途,就不会有问题(doge)。 K2.5除了读取图像和编写代码之外,还可以截图和修改代码。考虑刚刚生成的音乐播放器的网页。我想调整播放器的布局,所以我截图并圈出了播放器的主要部分。然后我对K2.5说:“请将这块放在左下角。”模特立刻明白了我的意图,并在2分钟内给了我修改代码。当我刷新网页时,除了截图部分的布局之外,其余部分没有变化,根据需要进行调整,以提高准确性(这次没有红色感叹号)。更重要的是,整个过程就像使用绘图软件修改一样直观,省去了写大段文字说明的麻烦。又玩了几轮后,我们发现即使圆isava的面积模糊、不完整,它也能智能地完成意图,避免常见的AI误读问题。例如,我认为播放器的配色方案有点单调,所以我截图并圈出了播放器的左侧边栏。我告诉K2.5我想改用莫兰迪色系。这部分的配色有点单调,所以改成了莫兰迪色模型,重新理解了用意。他们在 5 分钟内给了我一个维修代码。当我刷新网页时,我发现所选的颜色与原始颜色非常一致。我不仅改变了颜色,而且他们还给了我一个“p找不到自己喜欢的设计,或者想不出创意,也不用担心。简单的几句,就可以让K2.5自由发挥。比如我随手写了“生成一个有文化有艺术气息的书籍推荐网页”,没想到,他真的做得很好。各种字体搭配青绿色的背景,营造出一种文艺气息。鼠标悬停在书的封面上,可以看到一句话介绍。向下滚动,你会看到阅读社区和“本周之书”活动的介绍,卡片上甚至还有翻转和展开的动画,此外,他还设计了阅读体验、读者见面会、作者演讲等模块,每个展览都非常注重细节,完全超出了我的预期。我设计了一个开关控制器r 将 pygame 风格的推盒游戏带到您的屏幕上。相互比较,很明显K2.5 Thinking设计的游戏在术语、屏幕比例和像素方面都优于K2 Thinking。 K2.5的最后一行代码也是738行,但是K2的代码总行数是818行。大家是否也注意到,K2.5设计的代码其实和我们平时看到的AI产品不一样呢?它不是紫色的,也没有严格的模块化设计。相反,它在视觉上更加美丽,更加多样化。显然,团队的目标不仅是提供功能,还要将美学融入设计中,让人工智能产生的想法像人类一样有灵魂和个性。过去,AI编程往往仅限于“只是移动东西”,但现在连照片和文字都可以轻松使用,我们现在可以提供高质量、专业的产品。除了“视觉效果”之外,最重要的是它是可编辑的,这使得它很容易供普通用户使用。即使不懂快速文字工程的人也能成功使用 Kimi。即使AI犯了一个小错误,也不需要通过提示一次又一次地纠正。您可以随时自行更改。此前,人们需要学习公式、函数、数据格式等不同的Office语言来应对不同的工作。现在有了Kimi办公软件,K2.5就是内功,如果说Kimi K2.5是神招的话,那么Agent Swarm,也就是一组代理,就是本质的概念,让多个具有独立能力的代理一起工作,各自发挥自己的作用,相互配合。 AI界大佬NVIDIA的黄先生多次表示,2025年AI智能体将成为下一个万亿级机器人级产业,并且特别看好群体智能/集体智能(集群/集体智能)的发展前景,这不如果你回顾 Kimi 的技术迭代轨迹,就很难发现了。六个月前,他们宣布了第一个 10 亿参数的开源模型 Kim K2。后来,通过扩展思想链,单个智能体可以完成多达 300 个步骤的操作序列,这已经不够了。毕竟,你的能力是有限度的。 Kimi 的团队还意识到,要解决现实场景中的复杂问题,代理需要学会协作,而不是仅仅依靠单独工作。因此,有了“Kimi K2.5”,他们迈出了重要的一步。数百个克隆,从单个代理到一组代理,都可以通过编程来实时协同工作。这些代理就像 K2.5 的克隆。每个人都有自己的经历。有些人擅长数据分析,有些人擅长写作、广告,有些人擅长市场研究。当出现复杂的任务时,K2.5不再允许一个代理完成所有工作。相反,我t 为这些克隆分配角色,并根据任务要求即时拆除子任务。整个过程没有预先制定的规则,完全取决于K2.5的独立决策。让我们举一个简单的例子。例如,如果你想对100家公司进行市场调查,K2.5立即成立研究团队,并为不同行业的公司分配不同的代理商。一些公司收集财务数据;一些公司分析市场份额,而另一些公司则总结竞争产品的趋势。最初需要数周才能完成的工作现在只需 10 分钟即可提供详细报告。整个过程可以自由地从串联切换到并联,效率提升明显。根据设备内部评测,Kimi K2.5搭载的Kimi Code较前代机型软件工程能力显着提升。相比单agent执行模式,agent集群可以减少最小核心数实现目标性能所需的步骤数为 3 至 4.5 倍,目标要求越高,节省的步骤就越多。同时,借助并行处理,实际执行时间(实测时间)最多可减少4.5倍。让AI“做事”,人类“定义” 事实上,这样来看,Kimi K2.5通过视觉能力和代理群体,显着缩小了普通用户和专业产品之间的技术差距。毕竟,你甚至不需要反复审核和打磨关键词。基本上只要把照片或视频展示给K2.5就可以得到一张满意的答案。此次Office更新还表明微软认可Kimi作为生产力工具。要知道微软此前“Agent+Office”合作的核心就是OpenAI的GPT系列。大家总喜欢说人工智能迟早会取代人类,但在K2.5中我们看到人工智能正在给每个人带来帮助。“指挥千军万马”的超级大国。正如 Kimi 团队所说,用户应该专注于问题定义和决策,而把剩下的繁重、艰苦的工作和琐碎的任务留给这群“Kim 克隆人”。总体而言,Kim K2.5 更新简化了人类工作流程。也许当你成为一名经纪人时,你不需要写一份很长的简历; “我很熟悉你”(Doge)就足够了。 —完—
特别提示:以上内容(含图片、视频)(包括,如适用)均由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括照片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传并发布。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注