Machine Heart 报道称,Machine Heart 编辑部的 InfCode 正在定义人工智能编程的“工程时代”。自从文字大师Andrei Karpathy提出“振动编码”的概念以来,它的受欢迎程度一直很高。只需“情感”一词和描述其意图的消息,人工智能就可以直接生成可执行代码。这种近乎神奇的编程体验让很多开发者感到惊讶。输入要求的单词。编写 Python 代码,以可视化交通灯在汽车以随机速度驶入的单向道路上的工作原理。 AI可以在几秒内生成完整的动画模拟程序,包括红黄绿信号灯变化逻辑、随机车辆生成机制、停车和超车决策规则,甚至还有流畅的可视化界面。但惊喜过后,问题就来了。虽然 Vibecoding 非常适合快速原型设计和创建一次性脚本,但它尚未准备好用于复杂的企业级项目。由于缺乏连续性而受到限制ext windows、推理深度和代理模式,识别大型代码库中的隐藏错误往往很困难,并且在交叉处理文件系统级别发生变化时容易出现级联错误,尤其是在 C++ 等书面语言常用的低级框架编程场景中。现在,中国创业团队慈源物物找到了自己的答案。由清华大学姚班毕业生带领的团队设计开发的编码智能体InfCode,在SWE-Bench Verified和Multi-SWE-bench-CPP两项备受推崇的人工智能编码基准测试中登顶,压倒了所有调度智能体。具体来说,InfCode 展示的不仅仅是简单的技术进步。 SWE-Bench Verified 实现了 SOTA,Pass@1 分数为 79.4%。 MultiSWEbench 的 C++ 子集的解析率达到了 25.58%,明显高于 Claude 3.7 Sonnet 的 8.59% 和 DeepSeek V3 的 7.75%。这些数字的背后,隐藏着一套针对业务场景设计的多智能体系统。对于想要的决策者将AI编码引入企业场景,这可能是AI在企业中从“一次性效率提升”走向“组织进化”的新范式。如果说 Vibecoding 开创了人工智能编程的“感知时代”,那么 InfCode 则定义了人工智能编程的“工程时代”。人工智能编程进入代理时代人工智能正在改变软件开发的范式。传统的大规模模型只能生成代码片段,而新一代的编码代理强调自主性、全流程覆盖和工程实用性。他们不仅可以编写代码,还可以分解任务、调用工具、运行测试、迭代调试,甚至提交补丁。这些代理根据多个基准进行评估,其中最可靠的是普林斯顿大学等提出的 SWE-Bench 基准,以及 OpenAI 于 2024 年发布的增强版 SWE-Bench Verified。基准取自真实 GitHub 项目和每个示例都附带问题的自然语言描述和代理必须在不中断其他功能的情况下解决的完整测试用例。 SWE-Bench Verified 仅包含 Python 项目,并未反映多语言生态系统的挑战。字节跳动联合科研机构发布了多SWE银行数据集,cuIt支持Java、TypeScript、JavaScript、Go、Rust、C、C++等7种语言。该数据集包含68位专家精心挑选的2456个候选样本。它总共包含 1632 个手动验证的修复任务。研究表明,C++ 项目通常需要一次更改 200 多行和 7 个文件,这比高级语言(例如:JavaScript)困难得多;由于手动内存管理和复杂的编译系统,系统语言显着降低了 LLM 性能。与官方报告相比,领先模型通常具有解析率C++ 低于 8%。 InfCode团队开发的InfCode代理系统在这方面取得了革命性的成果。在 SWE-Bench Verified 上,InfCode 更新了 SOTA,Pass@1 得分为 79.4%。 – Multi-SWE-bench (Multi-SWE-bench-cpp) 的 C++ 子集的分辨率为 25.58%,远高于公开排名中 GPT-5 和 Claude 等顶级模型约 70% 的结果,并且显着高于 Claude 3.7 Sonnet 的约 8.59% 和 DeepSeek V3 的 7.75%。 Qwen2.5-72B-Instruct 接近于零的分辨率表明系统语言(C、C++、Rust)在内存管理、模板机制和复杂的编译链方面要困难得多。在ch中,C++问题通常涉及文件之间的较大更改,并且某些任务需要更改超过200行代码。下表总结了 C++ 中每个 Multi-SWE 银行模型的解析率。在此背景下,InfCode 在 C++ 子集中实现了 25.58% 的 Pass@1 解析率,refle发挥语义定位与句法分析相结合的优势。它对行业来说非常有价值,因为它不仅可以识别问题,而且可以为复杂的语法和大型项目生成正确的补丁。这些成就并非偶然,而是精心设计的技术体系的结果。慈源团队正在使用 arXiv 平台(https://arxiv.org/abs/2511.16004),我们已经在上面发布了相关技术报告。分析报告显示,InfCode包含三个重要亮点。超越 RAG:基于功能意图的复杂上下文定位 在真实的软件存储库中,真正的挑战通常不是“创建补丁”,而是“在大量代码中找到第一个有问题的代码块”。 SWE-Bench 任务一般不提供堆栈跟踪(StackTrace),代理可以仅依靠自然语言描述(例如惰性搜索功能)来推断问题发生的位置。传统 RAG(自动基因基于向量相似度的机制)通常只检索包含关键字“搜索”的评论或变量。这种机制可以在中小型仓库中定位问题,但在大型项目中它往往会靠近“字面相关”的片段。例如,单词搜索将影响工具的功能、配置或包装层,而不是承载查询逻辑的实际实现位置(例如 Manager::ExecuteQuery)。本质原因是它主要识别局部向量相似性,而没有明确理解功能意图,例如代码或其逻辑所需要的特定功能语义。为了打破这一瓶颈,InfCode 提出了“代码意图分析”机制。该机制允许智能体超越字面匹配,理解自然语言背后的“功能意图”,并将该智能映射到具体实现项目中的单元(函数或类)。这个过程结合了语义推理和架构理解,使模型能够在没有堆栈信息的情况下准确地固定在问题的上下文中。研究表明,在多语言基准测试中(例如多 SWE 银行),传统的 LLM 往往无法正确定位文件或函数,特别是对于 C++ 和 InfCode 语义等系统级语言。 Tick意图映射和AST级分析相结合,有效提高了跨语言和模块定位的成功率,让代理能够在复杂的项目中“理解全局意图,直接访问根本原因代码”。改进的工具:超越基于 Grep AST 的结构化搜索,找到有问题的代码只是第一步。如何准确定位和更改代码是工程修复的关键。 grep等传统文本搜索工具在C++等复杂语言中存在明显缺陷。相同的标识符可以是一个类 name、成员函数或变量同时存在,导致非常嘈杂的结果。字节跳动团队表示,由于 C++ 和 Rust 项目通常涉及文件之间的大规模更改,InfCode 开发了基于抽象语法树(AST)的内部结构化搜索引擎,并为代理提供了 FindClass 和 FindFunction 等语法层 API。返回名为 Find 的类定义,自动忽略同名的函数或变量。 FindFunctions (MyClass::search) – 仅匹配特定类的成员函数。这种协同语法感知的搜索概念称为“语法级 grep/sed”,借助这种结构化搜索,InfCode 代理不再“盲目”查找和重写代码。这是一种“搜索”,但它确实“理解”代码的层次结构,从而可以在复杂的项目中进行更精确的错误定位和安全修复。多Agent生成:基于双Agent生成和修复能力的核心对抗性代码补丁和测试补丁在于反复试验和不断进化,而不是“一次性”。大多数传统的代码修复代理都采用单代理架构。无论是先生成测试补丁再生成修复代码,还是先生成修复代码再回测,这种单向修复模型往往很容易陷入“适应当前问题”的信息茧中。 InfCode 是第一个对抗性双代理架构。代码补丁生成器负责生成更强大的测试用例并捕获缺失的边缘场景。如果您的代码补丁通过测试,测试补丁生成器会自动分析潜在的漏洞并改进测试。这种设计符合当前代码代理研究的发展趋势。这种“测试更好,修复更多稳定”的违反直觉的工作流程最终达到了工程级质量,可以直接集成到生产环境中。是房子。生成,但它也需要能够被验证和自我改进。最近的研究结果表明,单轮生成模型将不再能够支持复杂的工程任务,迭代、验证和优化的闭环结构将被取代,将成为下一代加密代理的中心范式。工程细节:生成和过滤范例 InfCode 修复过程分为两个阶段:生成和选择。在构建阶段,系统并行启动多个独立容器,每个容器运行修复挂钩,允许模型查看代码库、运行测试、分析错误并迭代生成候选补丁。经过最多 5 轮迭代,获得各种补丁组合。在选择阶段,系统会在真实的构建和测试环境中重现每个补丁。除了检查测试是否通过之外,它还考虑一致性cy、稳定性和行为副作用。最终选择的补丁不仅“通过了测试”,而且具有更高的工程完整性和可维护性。这种广泛的扫描+精确的检测策略使得InfCode能够生成更高质量的修复补丁,而不是过拟合或弱修复方案。技术创新的背后是一支令人印象深刻的团队,被业界称为“创业团队”。磁源屋核心团队不仅拥有最优秀的技术能力,更是罕见的技术远见、生产能力和商业思维的结合。这在当今竞争激烈的 AI 编码代理赛道上很难复制。设置的好处。团队负责人杨平在字节跳动期间主导建立了公司第一个软件工程实验室。公司开发的多智能体测试系统广泛应用于Byte的多个核心产品线。其从无到有开发的内部AI编码产品已全面覆盖公司的研发体系。 “如何在超大型组织中通过人工智能在复杂的现实场景中获得性能和结果”已深深融入慈源团队的基因中。凭借其创新的Agentic平台,该公司希望使企业能够用自然语言构建、优化和开发软件系统,减少技术壁垒,加速数字化进程,并在不受技术资源限制的情况下实现创新。首席技术官王伟来自清华大学姚班。他在大规模模型和代理领域工作多年,拥有深厚的算法和工程背景。在加入慈源无锡之前,他曾担任国内知名实体机器人公司和大型模型创业公司的技术合伙人,主导创建了众多工程智能项目、大型布置和模型,并取得了优异的实施效果。他还带领团队到达了在 SWE 替补席上排名世界第二。此外,InfCode此次拔得头筹,展现了团队世界级的算法创新能力。李鹰先生,首席营销官,拥有10余年人工智能行业落地经验。作为人工智能领域的连续创业者,她主导了多个全周期,从0到1培育企业到大规模增长并成功将企业推向资本市场。此外,他在To B模式大领域主导完成了数亿元项目,并在多个中央项目中取得成功。我们与财富 500 强客户签订合同,并在十亿级项目上取得卓越成果。这种将技术价值转化为商业利益的能力对于人工智能初创公司来说是最稀缺的资源。这个团队包括字节、百度、微软等顶级公司。不仅有行业精英,还有来自世界知名大学的人才清华大学、北京大学、哥伦比亚大学、麻省理工大学强强联手,形成“顶尖元老+新一代骨干”的独特组合。我们的很多关键职位都是由2000年以后出生的人领导的,这不仅为我们的团队注入了前沿技术的知识和创新能量,也创造了一种扁平化、拥抱变革的人工智能原生文化。这对于在快速迭代的人工智能代理中保持领先地位至关重要。此外,团队对AI编码轨迹也有清晰的认识。这一领域的竞争正在从简单地提高“工具效率”转向重新设计一切——软件工程生命周期(AI SWE)。未来的赢家将是提供端到端价值闭环的“数字劳动力”平台,而不是简单的代码完成工具。团队致力于赋能垂直“代理ISV”,实现“编码+细分行业”深度融合,构建从工具到平台到生态。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。