Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

AAilin HuangAAng LiAAobo KongBBin WangBBinxing JiaoBBo DongBBojun WangBBoyu ChenBBrian LiBBuyun MaCChang SuCChangxin MiaoCChangyi WanCChao LouCChen HuCChen XuCChenfeng YuCChengting FengCChengyuan YaoCChunrui HanDDan MaDDapeng ShiDDaxin JiangDDehua MaDDeshan SunDDi QiEEnle LiuFFajie ZhangFFanqi WanGGuanzhe HuangGGulin YanGGuoliang CaoGGuopeng LiHHan ChengHHangyu GuoHHanshan ZhangHHao NieHHaonan JiaHHaoran LvHHebin ZhouHHekun LvHHeng WangHHeung-Yeung ShumHHongbo HuangHHongbo PengHHongyu ZhouHHongyuan WangHHouyong ChenHHuangxi ZhuHHuimin WuHHuiyong GuoJJia WangJJian ZhouJJianjian SunJJiaoren WuJJiaran ZhangJJiashu LvJJiashuo LiuJJiayi FuJJiayu LiuJJie ChengJJie LuoJJie YangJJie ZhouJJieyi HouJJing BaiJJingcheng HuJJingjing XieJJingwei WuJJingyang ZhangJJishi ZhouJJunfeng LiuJJunzhe LinKKa Man LoKKai LiangKKaibo LiuKKaijun TanKKaiwen YanKKaixiang LiKKang AnKKangheng LinLLei YangLLiang LvLLiang ZhaoLLiangyu ChenLLieyu ShiLLiguo TanLLin LinLLina ChenLLuck MaMMengqiang RenMMichael LiMMing LiMMingliang LiMMingming ZhangMMingrui ChenMMitt HuangNNa WangPPeng LiuQQi HanQQian ZhaoQQinglin HeQQinxin DuQQiuping WuQQuan SunRRongqiu YangRRuihang MiaoRRuixin HanRRuosi WanRRuyan GuoSShan WangSShaoliang PangSShaowen YangSShengjie FanSShijie ShangSShiliang YangSShiwei LiSShuangshuang TianSSiqi LiuSSiye WuSSiyu ChenSSong YuanTTiancheng CaoTTianchi YueTTianhao ChengTTianning LiTTingdan LuoWWang YouWWei JiWWei YuanWWei ZhangWWeibo WuWWeihao XieWWen SunWWenjin DengWWenzhen ZhengWWuxun XieXXiangfeng WangXXiangwen KongXXiangyu LiuXXiangyu ZhangXXiaobo YangXXiaojia LiuXXiaolan YuanXXiaoran JiaoXXiaoxiao RenXXiaoyun ZhangXXin LiXXin LiuXXin WuXXing ChenXXingping YangXXinran WangXXu ZhaoXXuan HeXXuanti FengXXuedan CaiXXuqiang ZhouYYanbo YuYYang LiYYang XuYYanlin LaiYYanming XuYYaoyu WangYYeqing ShenYYibo ZhuYYichen LvYYicheng CaoYYifeng GongYYijing YangYYikun YangYYin ZhaoYYingxiu ZhaoYYinmin ZhangYYitong ZhangYYixuan ZhangYYiyang ChenYYongchi ZhaoYYongshen LongYYongyao WangYYousong GuanYYu ZhouYYuang PengYYuanhao DingYYuantao FanYYuanzhen YangYYuchu LuoYYudi ZhaoYYue PengYYueqiang LinYYufan LuYYuling ZhaoYYunzhou JuYYurong ZhangYYusheng LiYYuxiang YangYYuyang ChenYYuzhu CaiZZejia WengZZetao HongZZexi LiZZhe XieZZheng GeZZheng GongZZheng ZengZZhenyi LuZZhewei HuangZZhichao ChangZZhiguo HuangZZhiheng HuZZidong YangZZili WangZZiqi RenZZixin ZhangZZixuan Wang

Published: February 11, 2026
Authors: 215

View on arXiv Download PDF

Abstract

We introduce Step 3.5 Flash, a sparse Mixture-of-Experts (MoE) model that bridges frontier-level agentic intelligence and computational efficiency. We focus on what matters most when building agents: sharp reasoning and fast, reliable execution. Step 3.5 Flash pairs a 196B-parameter foundation with 11B active parameters for efficient inference. It is optimized with interleaved 3:1 sliding-window/full attention and Multi-Token Prediction (MTP-3) to reduce the latency and cost of multi-round agentic interactions. To reach frontier-level intelligence, we design a scalable reinforcement learning framework that combines verifiable signals with preference feedback, while remaining stable under large-scale off-policy training, enabling consistent self-improvement across mathematics, code, and tool use. Step 3.5 Flash demonstrates strong performance across agent, coding, and math tasks, achieving 85.4% on IMO-AnswerBench, 86.4% on LiveCodeBench-v6 (2024.08-2025.05), 88.2% on tau2-Bench, 69.0% on BrowseComp (with context management), and 51.0% on Terminal-Bench 2.0, comparable to frontier models such as GPT-5.2 xHigh and Gemini 3.0 Pro. By redefining the efficiency frontier, Step 3.5 Flash provides a high-density foundation for deploying sophisticated agents in real-world industrial environments.

Keywords

Mixture-of-Expertssparse MoEfoundation modelactive parametersinterleaved attentionsliding-window attentionfull attentionMulti-Token Predictionreinforcement learningverifiable signalspreference feedbackoff-policy trainingself-improvementIMO-AnswerBenchLiveCodeBenchtau2-BenchBrowseCompTerminal-Bench

More in AI Agents

View all

LongCat-Flash-Thinking-2601 Technical Report

Meituan LongCat Team, Anchun Gui +160

We introduce LongCat-Flash-Thinking-2601, a 560-billion-parameter open-source Mixture-of-Experts (MoE) reasoning model with superior agentic reasoning capability. LongCat-Flash-Thinking-2601 achieves ...

Jan 23149

Agentic Reasoning for Large Language Models

Tianxin Wei, Ting-Wei Li +27

Reasoning is a fundamental cognitive process underlying inference, problem-solving, and decision-making. While large language models (LLMs) demonstrate strong reasoning capabilities in closed-world se...

Jan 18149

UI-Venus-1.5 Technical Report

Veuns-Team, Changlong Gao +25

GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In ...

Feb 9140

daVinci-Dev: Agent-native Mid-training for Software Engineering

Ji Zeng, Dayuan Fu +15

Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and ...

Jan 26113

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Zhiheng Song, Jingshuai Zhang +7

Route-planning agents powered by large language models (LLMs) have emerged as a promising paradigm for supporting everyday human mobility through natural language interaction and tool-mediated decisio...

Feb 26103

More AI Agents papers