全球手机用户数量2025 全球AI模型发布时间线(持续更新)

AI模型使用直达网址文档

https://docs.qq.com/smartsheet/DUXVObEpMaW5qelB2

欢迎评论区补充遗漏的发布事件，本文持续不定时更新中……

2025年7月22日，阿里巴巴更新发布 Qwen3-235B-A22B-Instruct-2507-FP8，非思考模式(Non-Thinking)的更新。

2025年7月18日，OpenAI 发布通用型AI Agent：ChatGPT Agent。具备自主思考和行动的能力，能够主动从其技能库中选择合适的工具，完成各种复杂任务，结合Deep research多步研究和高质量报告生成能力、Operator通过远程可视化浏览器环境执行任务的能力等。

2025年7月14日，谷歌Google 发布稳定版文本嵌入模型 gemini-embedding-001。

2025年7月11日，月之暗面(Moonshot AI) 发布开源混合推理模型 Kimi K2，总参数1万亿，激活参数320亿。

2025年7月10日，快手发布图像生成模型可图2.1。

2025年7月10日，vivo 发布端侧多模态推理模型 BlueLM-2.5-3B，可直接理解GUI页面。

2025年7月9日，xAI 发布多模态推理模型 Grok-4。包含Grok 4，Grok 4 Hey，编程模型Grok 4 Code。

2025年7月7日，腾讯混元发布 3D生成模型 Hunyuan3D-PolyGen，能接入Maya、Blender等专业工具，可应用于UGC游戏资产生成。

2025年7月4日，北京智源人工智能研究院发布开源图像生成模型 OmniGen2。

2025年7月2日，智谱AI 发布开源视觉推理思考模型 GLM-4.1V-9B-Thinking。

2025年7月2日，字节跳动发布开源图像生成模型 XVerse，基于Diffusion Transformer架构，能控制生成图像中每个主体，同时保持图像质量。

2025年7月1日，阿里巴巴发布开源泛语音生成模型 ThinkSound，首次将思维链(CoT)引入音频生成领域，有1.3B、724M、533M三种，用于视频配音。

2025年6月30日，百度宣布开源文心4.5系列模型，开源包括10款模型，参数从0.3B到47B，同步提供API。

2025年6月30日，Meta的LeCun团队发布开源世界模型 PEVA，学会人类的“预判能力”，首次实现16秒连贯场景预测。

2025年6月30日，华为发布开源混合推理模型盘古Pro MoE，总参数720亿，激活参数160亿。

2025年6月29日，俄亥俄州立大学研究团队发布开源生命视觉模型 BioCLIP 2，能识别95万生命物种，并自己悟出生态关系与个体差异。

2025年6月27日，阿里巴巴发布开源多模态模型Qwen-VLo，支持图像生成和编辑；发布信息检索Agent：WebDancer，输入指令可上网搜索、做攻略，自主信息检索代理和类深度研究模型的推理。

2025年6月27日，谷歌Google 发布端侧原生多模态模型Gemma 3n，原生支持文本、图像和音视频等多种模态，有5B(E2B)和8B(E4B)两种。

2025年6月26日，小米发布小米AI眼镜，1999元起售。

2025年6月26日，Black Forest Labs 发布开源图像编辑生成模型 FLUX.1 Kontext[dev]，参数12B，专为图像编辑打造，可直接在消费级芯片上运行。

2025年6月26日，蚂蚁发布 AI医疗健康应用 AQ，基于蚂蚁医疗模型，可模仿真人医生追问，引导用户提供信息，给出准确健康建议，支持图片+文字输入，可解读报告、药盒、病历等，健康档案可记录就医、用药、运动、饮食等信息。中医科等细分科室医生AI分身，减重专区，健康生活，就医医保等服务。

2025年6月26日，阿里巴巴发布开源多模态推理模型 HumanOmniV2。

2025年6月25日，阿里巴巴达摩院联合浙江省肿瘤医院发布视觉医疗模型 DAMO GRAPE，全球首个胃癌影像筛查AI模型。

2025年6月25日，谷歌DeepMind 发布生物模型 AlphaGenome，能快速预测基因变化影响，观察人类DNA的AI显微镜，预测DNA分子特性，评估DNA变异影响；发布开源免费AI工具 Gemini CLI，将Gemini模型整合到开发人员的终端工作流中，搭载Gemini 2.5 Pro，支持100 万token上下文，开发者凭个人谷歌账户即可获取免费Gemini Code Assist使用许可证，免费用户每分钟可发起60次请求，每日限额1000次。发布本地具身智能模型 Gemini Robotics On-Device，可完全在机器人本地离线运行的视觉-语言-动作(VLA)模型。

2025年6月24日，科大讯飞发布医疗模型星火医疗 V2.5 国际版，推出升级后的讯飞晓医 APP 香港版。

2025年6月24日，谷歌Google 发布图像生成模型 Imagen 4 Ultra 与 Standard 预览版。

2025年6月24日，微软发布端侧语言模型 Mu，参数3.3亿，大小约330M，内置于Windows 11系统中，用户可通过自然语言指令来操控电脑设置。

2025年6月20日，华为发布推理思考模型盘古5.5，7180 亿参数 NLP MoE(256 专家)，支持自适应快慢思考切换；发布面向AI时代的操作系统 HarmonyOS 6。

2025年6月19日，智象未来发布 AI创作工具 Vivago2.0(智小象AI)，集图片、视频和播客生成于一体，Agent判断意图来修图或生图。

2025年6月19日，美团联合浙江大学发布语音交互图形用户界面(GUI)智能体 GUIRoboTron-Speech，让用户通过简单的语音指令就能控制计算机。

2025年6月19日，MiniMax 发布通用智能体 MiniMax Agent。具备编程能力；多模态能处理长文本、视频、音频、图片等多种信息，内置图像、音频、视频生成能力；开放的MCP生态。

2025年6月18日，MiniMax 发布视频生成模型 Hailuo 02，1080P视频的直接输出，具有时空一致性和物理逻辑性。

2025年6月17日，谷歌Google 发布推理模型 Gemini 2.5 Flash、Flash-Lite。

2025年6月17日，MiniMax 发布开源混合推理模型 MiniMax-M1。参数4560亿，支持100万上下文输入及最长8万token推理输出。

2025年6月17日，阿里巴巴发布开源混合推理模型 Qwen3 全系列 MLX 量化模型。可在移动端部署，覆盖4bit、6bit、8bit、BF16四种精度，共 32 款，支持苹果 MLX 框架全系列设备(从 iPhone 到 Mac Pro)。

2025年6月17日，阿里巴巴联合中科院自动化研究所万彦阳团队发布 GUI智能体决策诊断模型 GUI-Critic-R1，能在GUI智能体操作执行前对其决策进行诊断，以避免不必要的操作和不可挽回的错误。

2025年6月17日，月之暗面(Moonshot AI) 发布开源代码模型 Kimi-Dev，参数72B。

2025年6月15日，北京大学张牧涵团队联合亚马逊云发布以图为中心的关系型数据库(RDB)基础模型 Griffin。

2025年6月14日，港中文MMLab、港理工、北京大学等联合发布视觉理解模型 PAM(Perceive Anything Model)，一次交互，「分割+识别+解释+描述」全搞定，同时支持图像、视频和长视频，文本&Mask同时输出。

2025年6月14日，腾讯发布开源3D生成模型混元3D 2.1，首个实现全链路开源的工业级3D生成模型，已集成至腾讯游戏编辑器“轻游梦工坊”，道具管线制作周期从2天缩短至0.2天。

2025年6月12日，阿里巴巴的夸克发布高考志愿模型，首个专为中国高考志愿填报场景开发的AI模型，同步上线 “高考深度搜索”“志愿报告”“智能选志愿” 三大核心功能，为中国考生提供专业、精准的个性化志愿填报服务，可在夸克浏览器或手机夸克APP、夸克搜索网页版中使用。

2025年6月12日，谷歌Google的DeepMind 发布气候预测模型 Weather Lab，推出实验性气旋预测功能，可提前15天生成多达50种可能的风暴情景，与美国国家飓风中心合作，支持飓风季预报和预警，已开源部分代码和数据集。

2025年6月11日，字节跳动更新发布多模态推理思考模型 doubao-seed-1.6系列，包括doubao-seed-1.6、doubao-seed-1.6-thinking、doubao-seed-1.6-flash，图形界面操作能力，图像和复杂推理与数学能力提升。发布视频生成模型 Seedance 1.0 pro，支持多场景视频内容创作。

2025年6月11日，Meta 发布开源世界模型 V-JEPA 2，用视频数据训练，使机器人和AI Agent理解物理世界。发布 AI视频编辑功能，基于Movie Gen和Llama Image模型，允许用户用多个预设AI提示编辑短视频，改变服装、地点、风格等，可在Meta AI应用程序、Meta.AI网站和Edits应用程序中使用。

2025年6月10日，OpenAI 发布多模态推理思考模型 o3-pro，设计为“思考更久”以提供最可靠响应，擅长数学、科学、编码，可访问工具。API定价为每百万token输入20美元/输出80美元。宣布 o3 降价80%，比GPT4o还便宜。OpenAI CEO 山姆·奥特曼说：ChatGPT已经比历史上存在过的任何人都强大，人类已经跨过了一个温和的奇点。

2025年6月9日，小红书REDnote 发布开源语言模型 dots.llm1，参数142B的混合专家模型(MoE)，用大量非合成数据训练，推理中仅激活14B参数。

2025年6月6日，字节跳动发布图像编辑模型 SeedEdit 3.0，基于文生图模型Seedream 3.0，在图像主体保持、背景细节处理以及指令遵循等方面实现提升，将在即梦和豆包中上线。

2025年6月6日，Fish Audio 发布开源文本转语音(TTS)模型 OpenAudio S1-Mini，参数0.5B，小参数自然AI语音，支持14种语言，能生成超50种情感和语调的语音表达。

2025年6月6日，阿里巴巴发布开源向量模型 Qwen3-Embedding 和 Qwen3-Reranker，专为文本表征、检索与排序任务设计，支持119种语言及编程语言，提升搜索相关性。

2025年6月6日，智源研究院发布多模态模型悟界系列，其中：全球首个原生多模态世界模型 Emu3，基于纯自回归的 “下一个token预测” ，统一文本、图像与视频的理解与生成，构建模态无关的统一表征空间，无需扩散模型与组合；全球首个脑科学多模态通用基础模型见微 Brainμ，基于Emu3，将神经科学与脑医学相关的脑信号统一token化，实现多模态脑信号与文本、图像等模态的多向映射；全球首个支持MCP的跨本体大小脑协作框架悟界・RoboOS 2.0，具身大脑模型悟界・RoboBrain 2.0；全原子微观生命模型 OpenComplex2，微观模拟与建模。

2025年6月5日，ElevenLabs 发布文本转语音模型 Eleven v3 Alpha版，通过引入音频标签实现对语音情感、语速的精准控制，支持70多种语言，并具备更强的文本理解和对话模拟能力。

2025年6月5日，Anthropic 发布专为政府部门的AI模型套件 Claude Gov，专为美国国家安全机构量身定制，旨在满足政府层面，特别是情报和国防领域的严苛需求。已在部分高级别国家安全机构中部署使用。

2025年6月5日，谷歌Google的DeepMind 更新发布多模态推理思考模型 Gemini 2.5 Pro preview(0605)，100万token的上下文处理能力，思考有快速、深度、平衡和自适应调节模式，回答准确性与效果再提升。

2025年6月3日，昆仑万维发布开源推理思考模型 Skywork-MoE-Medium，总参数146B，激活参数22B，单台8×RTX 4090服务器可推理。

2025年6月3日，中国水科院发布水利标准AI模型，基于“SkyLIM”体系，用“知识库+DeepSeek/Qwen双模型+标准服务”架构，多模态数据融合，实现水利标准立项、制定、实施与监督全生命周期数字智能化管理。

2025年6月3日，谷歌Google的DeepMind 宣布 Gemini Live功能已上线Apple的iOS和iPadOS，但目前仅限美国用户使用。

2025年5月29日，深度求索DeepSeek 发布更新开源推理思考模型 DeepSeek-R1-0528，优化复杂推理与幻觉问题。

2025年5月22日，Anthropic 发布多模态推理思考模型 Claude 4 Opus 和 Claude 4 Sonnet，具备7小时自主任务执行连续工作能力，可在扩展思考过程中使用外部工具，代码与推理能力提升。

2025年5月21日，谷歌Google的DeepMind 发布开源端侧多模态模型 Gemma 3n，基于Gemini Nano，参数5B和8B，支持音频、文本、图片和视频等多种数据类型。音频上还可识别背景音及音频情感。设备端本地运行。更新发布浏览器操作自动化Agent工具 Project Mariner，能运行多达十个并行任务流及 “教导与重复” 功能等。

2025年5月20日，谷歌Google的DeepMind 更新发布多模态推理思考模型 Gemini 2.5 Pro, 提升代码生成、逻辑推理和多模态理解能力。发布 Gemini Live API 预览版，视听输入和输出音频对话，情感感知并知何时回应，支持超过24种语言并可无缝切换，已在Gemini API中可用。发布视频生成模型 Veo3，首次实现视频与音频的原生同步生成。更新发布音频音乐生成模型 Lyria 2，适用于品牌配乐、影视音乐和数字内容制作。发布图像生成模型 Imagen 4，生成的图像细节更逼真。发布 AI电影制作工具Flow。

2025年5月20日，字节跳动发布语音生成模型豆包·语音播客模型，实现从文本创作到双人对话式播客的转化，支持长文本转播客，可在豆包PC端、扣子空间等产品中体验。

2025年5月15日，Meta 发布开源通用原子模型 Universal Models for Atoms(UMA)，包括UMA-small和UMA-medium，在分子特性预测、材料设计、触媒开发、能量存储及半导体制造等领域表现出色。开源化学数据集Open Molecules 2025(OMol25)。

2025年5月14日，OpenAI 发布语言模型 GPT-4.1系列，专用于编码任务，更擅长指令遵循和Web开发。包括GPT-4.1、GPT-4.1 mini、GPT-4.1 nano。

2025年5月14日，谷歌Google的DeepMind 发布编程AI Agent AlphaEvolve，专用于设计高级算法，与Gemini深度集成，能够自动评估通用算法的发现与优化，助力开发人员高效设计出优质、高效的矩阵算法。已协助解决最早可追溯至1694年的牛顿也曾参与辩论和研究的数学难题"亲吻数问题"。

2025年5月6日，谷歌Google的DeepMind 更新发布多模态推理思考模型 Gemini 2.5 Pro preview(0506)，编码性能再提升，开发者体验提升。

2025年4月30日，小米Xiaomi 发布开源推理思考模型 MiMo，参数7B，在数学和编程测试表现良好。

2025年4月29日，阿里巴巴发布开源混合推理思考模型 Qwen3，支持119种语言，可调用工具提升任务处理能力，根据任务复杂度自动切换“快/慢思考”模式。包含2个MoE模型(Qwen3-235B-A22B、Qwen3-30B-A3B)和6个Dense模型(Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B、Qwen3-0.6B)。

2025年4月29日，Meta 发布应用 Meta AI App，基于Llama 4，个性化AI助手，支持语音对话、图像编辑，跨Meta应用和眼镜使用。

2025年4月27日，阶跃星辰发布开源通用图像编辑模型 Step1X-Edit，参数19B，提供人人可用的多模态改图能力，可完成日常工作和生活中的高频11类图像编辑任务。

2025年4月26日，月之暗面(Moonshot AI)发布开源语音模型Kimi-Audio，基于Qwen2.5-7B，融合Whisper技术，支持语音识别、音频理解、音频转文本、语音对话等多种任务。

2025年4月26日，鱼跃医疗发布鱼跃医疗模型和AI agent健康管家，开启全面公测。

2025年4月25日，谷歌Google的DeepMind 发布音乐生成模型 Lyria2，可生成多风格高保真音频；推出基于Lyria2的Lyria RealTime功能，支持实时音乐创作。升级Music AI Sandbox，向更多美国的音乐家、制作人和词曲创作者开放。推出SynthID水印技术，在生成的音频中嵌入不可察觉的数字水印，以确保AI生成内容的可识别性，防止潜在的版权争议。

2025年4月25日，OpenAI发布轻量版DeepResearch，基于o4-mini，面向免费用户，回答更短，但智能水平与全量版相当。

2025年4月25日，百度发布多模态模型文心4.5 Turbo 和推理思考模型 X1 Turbo，推出高说服力数字人、通用智能体APP “心响”，开放电商交易 MCP 服务器，推出内容操作系统“沧舟OS”。发布多模态AI编程智能体文心快码Comate Zulu，自动生成代码并支持多种开发环境，降低编程门槛。

2025年4月24日，中科创达发布多模态操作系统滴水OS 1.0 Evo，面向智能汽车的AI原生操作系统，支持舱驾融合与算力调度，提升交互与驾驶体验。

2025年4月24日，OpenAI发布图像生成模型GPT-image-1的API，即驱动GPT-4o多模态图像生成能力的模型，高质量专业级图像生成。

2025年4月24日，Adobe 发布图像生成模型Firefly Image Model 4 和 Firefly Image Model 4 Ultra，支持Photoshop/Illustrator 插件集成，并引入 “协作模式” 。

2025年4月22日，欧洲航天局与IBM联合推出地球观测多模态模型TerraMind，整合卫星图像、地形数据等多模态信息，用于监测甲烷泄漏、森林变化等环境问题。

2025年4月21日，昆仑万维SkyReels团队发布开源视频生成模型 SkyReels-V2，可用扩散强迫框架(Diffusion-forcing)生成无限时长电影，为普通人创作视频提供新选择。

2025年4月21日，Sand AI(三呆科技)发布开源视频生成模型 MAGI-1，全球首个自回归视频生成模型，支持 “无限续写” 与秒级精准控制，由Swin Transformer团队研发。

2025年4月21日，生数科技发布视频生成模型 Vidu Q1，支持5秒1080P视频生成，可用文本生成相关音效。

2025年4月17日，谷歌发布原生多模态混合推理模型 Gemini 2.5 Flash，可自由设定思考深度。

2025年4月17日，字节跳动发布语言推理思考模型Doubao-1.5-thinking-pro 和多模态视觉推理思考模型Doubao-1.5-thinking-pro-vision。

2025年4月17日，微软发布推理思考模型 BitNet b1.58 2B4T，采用三值量化技术(仅-1/0/1），内存占用压缩至传统模型的1/8，推理速度提升5倍，可在普通CPU运行。

2025年4月16日，OpenAI发布推理思考模型o3和o4-mini，开源Codex CLI。o3具备图像深度推理能力，编程和数学能力提升；o4-mini成本降低40%，支持高频推理场景。Codex CLI是可在终端运行的轻量编程智能体，可在个人电脑运行。

2025年4月15日，字节跳动发布图像生成模型Seedream3.0，支持2K分辨率直出、中文文本渲染优化。

2025年4月15日，快手发布多模态视频生成模型可灵2.0 和图像生成模型可图 2.0。可灵2.0支持文字图片视频混合编辑，实现多模态内容融合生成。可图2.0提升准确性，支持2K分辨率直出。

2025年4月15日，OpenAI发布多模态模型GPT-4.1系列，包括GPT-4.1、GPT-4.1 Mini、GPT-4.1 Nano。这些模型专为API开发者设计。GPT-4.1支持100万token上下文，可处理大型代码库；Nano版成本低，每百万token输入0.1美元。GPT-4.5将逐步淘汰。

2025年4月14日，字节跳动发布推理思考模型Seed-Thinking-1.5，基于MoE架构(200B），在数学推理和编程任务中性能接近OpenAI o3-mini，延迟低至20毫秒，推理成本降低。于4月17日通过火山引擎开放接口供用户体验。上线视频生成模型Seaweed-7B。

2025年4月14日，谷歌Google的DeepMind发布生物声学模型 DolphinGemma，基于 400M 参数轻量架构，可解析大西洋斑点海豚的声音 “语言”，支持手机端实时分析，助力生态保护与生物智能研究。

2025年4月13日，昆仑万维发布开源推理思考模型 Skywork-OR1系列，包含Skywork-OR1-Math-7B，Skywork-OR1-7B-Preview，Skywork-OR1-32B-Preview。

2025年4月11日，华为盘古发布通用语言模型Pangu Ultra，135B参数，基于全中国国产昇腾芯片研发。

2025年4月10日，月之暗面(Moonshot AI)发布开源视觉语言模型Kimi-VL 和视觉语言推理思考模型Kimi-VL-Thinking，都基于MoE架构，16B参数。

2025年4月10日，商汤科技发布多模态模型日日新SenseNova V6，支持64K思维链、视频推理及全局记忆功能。

2025年4月9日，谷歌Google 推出开源AI通信协议A2A(Agent2Agent Protocol)，能让AI Agent在不同生态系统间安全协作，无需考虑框架或供应商。谷歌Google称A2A是对MCP的补充。

2025年4月9日，亚马逊Amazon 发布语音模型 Amazon Nova Sonic，自然对话能力，低延迟与高性价比，支持双向流式 API，已集成到 Alexa+语音助手，并向开发者开放测试。

2025年4月8日，谷歌Google 更新发布 Gemini Deep Research功能，将Gemini Advanced的Deep Research功能模型升级到Gemini 2.5 Pro，免费用户的Deep Research功能模型是Gemini 2.5 Flash。

2025年4月4日，谷歌Google 发布网络安全模型 Sec-Gemini v1，专注于提升网络安全防御能力，对抗网络威胁，帮助快速准确评估潜在风险，制定应对策略，将免费开放给选定的组织、机构、专业人士和非政府组织(NGO)用于研究目的，以促进网络安全领域的合作与研究。

2025年4月2日，英国埃克塞特大学初旭副教授团队与北京航空航天大学王文康副教授团队联合发布流体力学语言模型OpenFOAMGPT，基于DeepSeek V3(671B)和Qwen 2.5-Max。

2025年4月1日，Meta发布开源原生多模态模型Llama 4系列，包括Scout(17B）、Merick(400B)、Behemoth(2万亿）。混合专家(MoE)架构，支持1000万token上下文窗口。

2025年4月1日，Runway 发布视频生成模型 Gen-4。

2025年4月1日，百度发布原生多模态模型文心4.5 和推理思考与工具调用模型 X1。

2025年3月31日，智谱清言发布Agent智能体 AutoGLM“沉思”，具备自我反思能力，可执行网页操作与报告生成。

2025年3月29日，智源研究院发布跨本体具身大小脑协作框架 RoboOS 和开源具身大脑模型 RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能。

2025年3月28日，阿里巴巴发布开源视觉推理思考模型通义QVQ-Max，基于QVQ-72B-Preview的优化升级版。

2025年3月28日，VAST 发布开源 3D生成模型 TripoSG和TripoSF。TripoSG 是基础3D生成，TripoSF 是专注于高分辨率三维重建和生成任务。

2025年3月27日，阿里巴巴发布开源端到端全模态模型通义Qwen2.5-Omni-7B，支持文本、图像、音频、视频输入及实时语音合成输出，采用Thinker-Talker架构。

2025年3月27日，OpenAI 宣布其Agent SDK开始支持MCP(Model Context Protocol)。

2025年3月26日，OpenAI 发布多模态模型GPT-4o升级版，新增支持原生图像生成功能并免费使用，效果惊艳。

2025年3月26日，港科大(广州)与趣丸科技合作推出 3D生成模型 Kiss3DGen，把传统3D生成问题转化为2D图像生成任务。

2025年3月26日，清华大学联合腾讯发布开源视频生成模型 Video-T1，将Test-Time Scaling引入视频生成领域。

2025年3月26日，昆仑万维发布音乐推理模型 Mureka O1，支持旋律优化与音色克隆。

2025年3月25日，谷歌Google 发布原生多模态模型 Gemini 2.5 Pro Experimental，并于3月30日宣布免费开放使用。

2025年3月25日，阿里巴巴发布开源视觉语言模型通义Qwen2.5-VL-32B-Instruct。

2025年3月25日，深势科技及北京科学智能研究院与北京大学联合发布开源 3D生成模型 Uni-3DAR，通过自回归下一token预测任务将3D结构的生成与理解统一起来。

2025年3月24日，深度求索DeepSeek 发布开源语言模型 DeepSeek-V3-0324，是DeepSeek-V3的升级版。

2025年3月21日，上海财经大学联合财跃星辰等发布金融推理模型 Fin-R1-7B，基于Qwen2.5-7B-Instruct模型，金融领域效果接近DeepSeek-R1-671B。

2025年3月21日，腾讯混元发布推理思考模型 T1正式版，基于Hybrid-Mamba-Transformer架构。

2025年3月21日，OpenAI发布语音模型API，包括语音识别模型GPT-40 Transcribe、语音合成模型GPT-40 mini TTS，两个语音模型已整合进Agent SDK。

2025年3月20日，OpenAI推出o1-pro API，当时最贵AI模型，输入价格150美元/百万token，输出价格约600美元/百万token。

2025年3月20日，老板电器宣布烹饪模型“食神”接入DeepSeek推理能力，拓展多模态能力。

2025年3月20日，Hugging Face推出AI助手HuggingSnap，本地化AI视觉助手，基于轻量多模态模型smolVLM2，无需依赖云端服务器，确保隐私安全。

2025年3月18日，英伟达Nvidia发布开源推理模型Llama Nemotron，基于Llama；发布开源人形机器人推理和技能模型GR00T N1；更新开源视频世界基础模型Cosmos系列，包括Cosmos-Reason1-8B和Cosmos-Reason1-56B。

2025年3月18日，Roblox 发布开源 3D生成模型Cube。

2025年3月15日，Sesame开源语音模型CSM-1B(Conversational Speech Model)，语音助手Maya背后的基础模型。

2025年3月13日，Google发布Gemini机器人大脑模型Gemini Robotics。

2025年3月12日，Google发布开源非推理模型Gemma3；推出Gemini Flash 2.0原生多模态功能，模型直出图像，文修图。

2025年3月11日，OpenAI推出Agents SDK，帮助开发者更轻松地构建AI智能体。推出Responses API并已整合进Agents SDK。

2025年3月11日，阿里巴巴发布开源全模态情感模型 R1-Omni。

2025年3月11日，上海智元AgiBot发布多模态交互模型硅光动语，用于具身智能机器人。

2025年3月10日，上海智元AgiBot发布通用具身基座大模型“启元”GO-1，一脑多形，用于具身智能机器人。

2025年3月6日，阿里巴巴发布推理思考模型通义QwQ-32B，基于Qwen2.5-32B强化学习而成。

2025年3月5日，BUTTERFLY EFFECT(蝴蝶效应) 发布通用AI-Agent(自主智能体)产品 Manus，开启部分内测。

2025年2月24日-28日，深度求索DeepSeek 开源周开源五个代码库，分别是 FlashMLA、DeepEP、DeepGEMM、DualPipe、3FS。

2025年2月27日，OpenAI 发布GPT-4.5，代号 Orion 猎户座，OpenAI的最后一个非思维链模型，模型参数规模更大。

2025年2月25日，谷歌Google的DeepMind全球推出免费版Gemini Code Assist，基于Gemini 2.0，支持所有公共领域的编程语言，12.8万token上下文窗口。

2025年2月25日，Anthropic 发布混合推理模型 Claude 3.7 Sonnet，支持标准模式(即时响应)与推理思考模式(分步推理)，统一推理能力，兼顾效率与深度。发布基于该模型优化的代码开发Agent工具Claude Code。

2025年2月25日，阿里巴巴发布基于通义Qwen2.5-Max 的推理思考模型通义QwQ-Max-Preview。

2025年2月25日，阿里巴巴发布视频生成模型通义万相 Wan 2.1 并开源，采用 Apache2.0 协议。

2025年2月18日，腾讯元宝上线腾讯混元推理思考模型 Thinker，即 T1。

2025年2月17日，xAI 推出多模态推理思考模型 Grok 3。

2025年2月5日，谷歌Google宣布 Gemini 2.0 向所有用户开放使用，包括 2.0 Flash、Pro Experimental 和 Flash-Lite 。

2025年1月31日，OpenAI 推出推理思考模型 o3-mini。

2025年1月29日，阿里巴巴发布语言模型通义Qwen2.5-Max。

2025年1月28日，OpenAI 发布专为美国政府机构设计的 ChatGPT Gov，旨在提供比ChatGPT企业版更高层次的安全性，为政府人员和决策者提供定制化AI工具，协助其进行数据分析、信息管理、政策咨询，文件处理与政策起草，跨部门协作，日常行政事务等工作。

2025年1月23日，OpenAI发布AI智能体Operator，支持GUI交互，基于推理思考模型o3微调而成。

2025年1月20日，深度求索DeepSeek 发布推理思考模型DeepSeek R1，基于DeepSeek V3强化学习而成。

2025年1月20日，月之暗面(Moonshot AI)公布多模态思考模型 Kimi k1.5。在数学、代码、多模态推理能力等方面都接近OpenAI满血版o1。

2025年1月20日，字节跳动的豆包AI宣布全新端到端实时语音通话功能正式上线app。对话效果接近GPT4o实时语音。

2025年1月17日，Sakana推出自适应模型Transformer square，引入自适应机制，提高语言模型在未见任务上的泛化和自适应能力。

2025年1月16日，Luma发布视频模型Ray 2。

2025年1月16日，面壁智能发布端侧全模态模型 MiniCPM-o 2.6 8B，效果接近GPT-4o。

2025年1月15日，Google发布人脑记忆模型Titian，引入神经长期记忆模块，能在测试时学习记忆。

2025年1月15日，讯飞星火发布推理思考模型讯飞星火 X1 和星火语音同传模型。讯飞星火4.0 Turbo模型再升级。

2025年1月15日，生数科技发布上线视频生成模型Vidu 2.0，生成价格更低、速度更快、质量更稳。

2025年1月15日，MiniMax(海螺AI)开源MiniMax-01系列，支持4M上下文，包含两个：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。

2025年1月13日，潞晨发布视频生成模型Video Ocean V2.0，免费使用。

2025年1月11日，NovaSky发布Sky-T1-32B-Preview，训练成本不到450美元，具备高级推理能力。

2025年1月11日，谷歌Google开源能预知未来的时间序列模型TimesFM2.0。可预测股价走势、市场销量等。

2025年1月9日，Adobe推出视频模型TransPixar。

2025年1月7日，英伟达发布视频世界基础模型Cosmos。

2025年1月6日，昆仑万维宣布推理思考模型天工4.0 O1版(Skywork O1)全量上线，用户可免费使用。

2024年12月31日，智谱清言发布推理思考模型GLM-Zero-Preview。

2024年12月26日，深度求索DeepSeek 发布开源模型DeepSeek-V3，671B参数，MoE架构。

2024年12月25日，阿里巴巴发布视觉推理思考模型通义QVQ-72B-Preview。

2024年12月23日，Answer.AI和英伟达等联合发布ModernBERT。基础版139M，较大版395M。

2024年12月23日，百川发布金融领域增强模型Baichuan4-Finance。

2024年12月21日，OpenAI发布思考推理模型o3和o3-mini。

2024年12月20日，谷歌Google发布推理思考模型Gemini 2.0 Flash Thinking。

2024年12月19日，字节跳动发布视觉模型Doubao-vision-pro-32k。还有豆包·音乐模型，豆包·文生图模型。

2024年12月19日，腾讯发布混元视频模型FastHunyuan。

2024年12月19日，学术界和产业界共20多个组织联合研究发布生成式物理引擎Genesis，一句话就可以生成完整精确的模拟物理世界。

2024年12月17日，谷歌Google发布视频生成模型Veo 2。

2024年12月16日，月之暗面(Moonshot AI)发布视觉思考模型Kimi-k1。

2024年12月16日，无问芯穹宣布首个端侧全模态理解的开源模型Megrez-3B-Omni。

2024年12月13日，巨人网络发布有声游戏生成模型千影QianYing，包括游戏视频生成模型YingGame、视频配音模型YingSound。

2024年12月13日，微软发布14B小模型Phi-4。

2024年12月11日，谷歌Google的DeepMind发布Gemini 2.0，面向智能体时代的AI模型。发布基于Gemini 2.0的三个AI Agent，通用AI助手Project Astra，浏览器自动操作工具 Project Mariner，编程助手Jules。

2024年12月10日，智源研究院推出3D生成模型See3D。

2024年12月10日，OpenAI视频生成模型Sora开放付费用户使用。

2024年12月9日，xAI上线文书图模型Aurora。

2024年12月9日，北京交通大学研究团队推出O1-CODER，专注于编码任务。所有源代码/精选数据集及衍生模型都开源。

2024年12月7日，Meta发布Llama-3.3-70B。

2024年12月7日，MinMax海螺AI发布2D动画专用视频生成模型Hailuo I2V-01-Live，日漫迪士尼插画风都支持。

2024年12月6日，OpenAI上线推理思考模型o1和o1-Pro。

2024年12月5日，谷歌Google的DeepMind推出生成式3D游戏引擎Genie 2，可响应键鼠操作，可玩、可控制，一张图生成无限多样的3D游戏世界。

2024年12月5日，中国电信人工智能研究院(TeleAI)发布视频模型 TeleAI-VAST。

2024年12月4日，亚马逊发布多模态模型Amazon Nova系列，共六款，涵盖文本对话、图片生成、视频生成。

2024年12月4日，阿里巴巴的通义实验室推出自适应规划的多模态检索智能体OmniSearch，能模拟人类解决问题的思维方式，将复杂问题逐步拆解智能检索规划。

2024年12月3日，腾讯发布并开源混元视频生成模型HunyuanVideo，130亿参数。

2024年11月28日，阿里巴巴上线推理思考模型通义QwQ-32B-Preview。

2024年11月28日，上海AI实验室上线推理思考模型InternThinker。

2024年11月27日，昆仑万维发布推理思考模型天工4.0 O1版，即Skywork O1。

2024年11月26日，华盛顿大学和艾伦人工智能研究所(Ai2)共同推出科研助手开源模型Ai2 OpenScholar-8B，论文检索增强生成回答，从论文到数据集、模型检查点都开源。

2024年11月21日，阶跃星辰发布万亿参数模型Step-2-16k-202411。

2024年11月21日，深度求索DeepSeek 发布上线推理思考模型DeepSeek-R1-Lite。

2024年11月19日，Mistral AI发布多模态大模型Pixtral Large，124B参数量。

2024年11月19日，阿里巴巴发布通义Qwen2.5-Turbo。

2024年11月19日，北大等推出首个多模态推理思考开源模型LLaVA-o1，基于Llama-3.2-Vision模型打造，实现自主“慢思考”推理。

2024年11月16日，月之暗面(Moonshot AI)发布数学模型k0-math。

2024年11月14日，生数科技发布视频生成模型Vidu，能实现多主体一致性。

2024年11月12日，小米发布语言模型MiLM2系列。

2024年11月12日，阿里巴巴发布编程模型通义Qwen2.5-Coder-32B。

2024年11月12日，谷歌Google的DeepMind开源诺奖模型AlphaFold3，能预测所有生命分子的相互作用。

2024年11月9日，香港生成式人工智能研发中心(HKGAI)旗下AI for Reasoning团队(HKAIR)联合北京大学对齐团队(PKU-Alignment Team)推出全球首个法律推理思考模型HK-O1aw。

2024年11月6日，百图生科发布生命科学基础模型xTrimo V3，2100亿参数，覆盖蛋白质、DNA、RNA、细胞等七大主流模态。

2024年11月6日，阿里巴巴的达摩院发布气象模型“八观”，预测时空精度最高可达1公里×1公里×1小时。

2024年11月6日，腾讯发布开源MoE模型Hunyuan-Large，3890亿总参数，520亿激活参数。

2024年11月5日，腾讯发布3D生成模型Hunyuan3D-1.0。

2024年11月5日，上海AI Lab团队发布推理思考模型LLaMA-O1。上交大团队发布推理思考模型O1-Journey。

2024年10月25日，智谱清言发布视觉语言模型CogAgent，专用理解和导航GUI。基于此模型基座的应用AutoGLM、AutoGLM-Web、GLM-PC。

2024年10月25日，上海AI Lab团队宣布原生多模态模型Mono-InternVL。

2024年10月24日，讯飞星火发布模型星火4.0 Turbo。

2024年10月22日，Anthropic发布Computer Use功能，基于Claude 3.5系列模型。

2024年10月21日，智源研究院发布原生多模态世界模型 Emu3，基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

2024年10月16日，零一万物发布模型Yi-Lightning。

2024年10月6日，Black Forest Labs(黑森林实验室)发布文生图模型Flux1.1。

2024年10月4日，Meta发布视频生成模型Meta Movie Gen。

2024年10月1日，中国电信人工智能研究院TeleAI开源千亿参数模型星辰语义TeleChat2-115B。

2024年9月26日，Meta发布多模态模型Llama 3.2。

2024年9月20日，VAST发布3D生成模型Tripo 2.0。

2024年9月20日，快手发布上线视频生成模型可灵1.5。

2024年9月19日，阿里巴巴发布开源模型通义Qwen2.5系列。

2024年9月14日，元象XVERSE发布MoE开源模型 XVERSE-MoE-A36B，总参数255B，激活参数36B。

2024年9月13日，OpenAI发布推理思考模型o1系列，其中o1-mini和o1-Preview已上线。

2024年9月12日，Mistral发布多模态开源模型Pixtral 12B。

2024年9月8日，Replit推出编程智能体Replit Agent。开发环境/编写代码/安装软件包/配置数据库/部署等，都自动化。

2024年9月6日，OthersideAI发布开源模型Reflection系列。

2024年8月30日，阿里巴巴发布开源多模态模型通义Qwen2-VL。

2024年8月14日，xAI发布多模态模型Grok-2。

2024年7月24日，Mate发布开源模型LIama 3.1。

2024年7月19日，OpenAI推出模型GPT4o mini。

2024年6月27日，讯飞星火发布星火4.0。

2024年6月24日，老板电器发布烹饪模型“食神”。

2024年6月21日，Anthropic发布模型Claude3.5 Sonnet。

2024年5月14日，OpenAI发布GPT-4o(Omini)。

2024年4月10日，OpenAI发布GPT-4 Turbo with Vision版本，即GPT-4V。

2024年3月17日，xAI发布Grok-1。

2024年3月4日，Anthropic发布上线多模态模型Claude 3系列。

2024年2月16日，Meta 发布开源世界模型 V-JEPA(Video Joint Embedding Predictive Architecture)，通过视频数据理解物理世界的动态关系。

2024年1月16日，智谱清言发布多模态模型GLM4.0。

2024年1月16日，MinMax发布MoE语言模型abab6。

2023年12月6日，谷歌Google的DeepMind发布Gemini 1.0，原生多模态架构。

2023年11月16日，微软将BingChat(NewBing)全线更名新品牌为Copilot，拥有专属网站，其GPT-4及Dall·E 3等功能用户可免费使用。

2023年10月17日，百度发布多模态模型文心一言4.0。

2023年09月25日，OpenAI发布ChatGPT Voice，可与用户实时对话交流，语气流畅自然十分逼近真人，拍照对图片进行问答交互。

2023年09月21日，OpenAI发布DALL·E3。

2023年7月18日，Meta发布开源模型Llama 2.0。

2023年7月11日，Anthropic发布Claude 2.0。

2023年03月17日，微软宣布Microsoff 365 Copilot，将GPT-4全面接入微软Office全家桶。

2023年3月15日，Anthropic发布Claude 1.0。

2023年03月15日，OpenAI发布多模态模型GPT-4。

2023年2月25日，Meta发布开源模型Llama 1.0。

2023年02月08日，微软上线基于GPT-4的NewBing搜索引擎和Edge浏览器，支持Dall·E文生图。

2022年11月30日，OpenAI通过GPT-3微调得到GPT-3.5，全新对话式AI应用ChatGPT正式发布，用户免费使用。

2022年04月06日，OpenAI发布DALL·E2。

2021年08月10日，OpenAI发布Codex模型，基于GPT3，即Github Coplilot背后的模型。

2021年01月05日，OpenAI发布DALL·E模型，基于GPT3。

2019年06月10日，OpenAI发布GPT-3模型，1750亿参数。

2018年11月，OpenAI发布GPT-2模型，15亿参数，不向公众开放源码。

2018年10月，谷歌Google发布BERT模型。

2018年06月，OpenAI发布GPT-1模型，1.1亿参数。

欢迎评论区补充遗漏的发布事件，本文持续不定时更新中……

AI模型使用直达网址文档

https://docs.qq.com/smartsheet/DUXVObEpMaW5qelB2