OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)在周五发布于其博客的文章中写道,这家人工智能领军者即将为权利人(即版权所有者)提供“对角色生成更加精细化的控制选项”,也就是说OpenAI近日重磅…...
在预算感知协议下,研究者将顺序精炼(SR)和并行 - 蒸馏 - 精炼(PDR)操作符与长思维链(CoT)基准进行了比较。 表 2研究了在固定轮次(每轮生成次数为 g = [16, 8, 4])和每轮 k …...
看到这,你或许会认为 AI修复这张老照片,狠狠刷了一波存在感,但这股热闹背后,其实也有不少穿帮的细节,最典型的,便是照片中央那块模糊的三角形高亮区域,让 AI们集体翻车。 有趣的是,他们发现,在 19 …...
这是一个关键的区别,因为它表明 QuestA 使得模型能够持续进行探索和推理,而不像其他方法,在优化 Pass@1 时 Pass@k性能会下降。 图 1: QuestA 是一种数据增强方法,通过注入部分解决…...
研究团队指出,目前的 AI 模型存在明显的功能鸿沟,以游戏为取向的 AI能正常游玩但无法理解自己所做的决策,而语言模型虽然可以推理策略,但很难真正执行操作,为此他们研发了全新 TiG 框架,让模型在游戏中…...
2025年,随着技术迭代与应用深化,AI领域不仅在大模型发展、算力硬件、数据要素化等核心层面迎来突破性进展,更在智能体开发、垂直行业落地等领域展现出强劲的商业化潜力,为各行业数字化转型注入新动能。大模型的分化…...
在医疗领域中,由贵阳朗玛信息技术股份有限公司开发的“39AI医生”有效提升了基层诊疗水平,并不断推动大模型在复杂医疗环境中的深度集成与创新应用,勾勒出人工智能技术与医疗健康产业深度融合的新图景。 如果说开阳县…...
原生多模态:“混元图像3.0以Hunyuan-A13B为基础,基于50亿量级的图文对,视频帧,图文交织数据和6T的语料数据进行了多模态生成、理解和LLM的混合训练,使得模型能够充分融合多任务效果,实现超强的…...
随着应用需求的日益复杂化,如何实现含上千个调控单元的大规模可编程PICs快速优化重构已成为制约领域发展的关键瓶颈,”中国科学院半导体研究所李明研究员表示,“本研究提出的伊辛智能计算光子芯片创新性地建立了MZI…...
未来研究中,深入探索文本与视觉token之间的关联,可能为提升多模态大模型的理解和分割能力带来新的启发。 总体而言,LIRA实现了理解与分割任务性能的协同提升,提出了在细粒度多模态大模型中缓解幻觉的新视角,…...
电影中泰坦尼克号的远景镜头,包括它在海洋上航行和最终沉没的场面,都是通过一个巨大的微缩模型拍摄的。 这部电影中的哥斯拉,尤其是在城市中穿行的镜头,很多都是通过一个巨大的哥斯拉模型或道具服,在一个微缩的纽约城…...
最近,谷歌的研究团队在NeurIPS 2024发布了一个新方法叫SLED(Self Logits Evolution Decoding),目标是:不依赖外部知识,不再额外微调,而是让模型自己用好内部的知识,…...
我相信未来机器人的终极想象是每一个手臂上就只有一根线缆,别的都没有了,多干净整洁,想要实现这个目标还有非常多工作要做,但这非常值得做。 另外在应用侧,他认为现在只有MCP这一种智能体协作方式肯定是不够的,…...
Sora 使用 OpenAI最新的视频与音频生成模型 Sora 2。OpenAI 在博客中称,这一模型能够高度逼真地生成画面和声音。IT之家注:OpenAI 的首个视频与音频生成模型 Sora 于 202…...
工业动画是指通过三维动画技术模拟工业产品、生产流程或机械原理的视觉表现形式。(3)成本控制能力较强,部分企业提出“致力于让我们的客户花更少的钱做好的动画”的理念,通过标准化流程降低制作费用。 (3)投标辅…...
截至2025年9月,我国已有超过5300家人工智能企业形成了覆盖基础底座、模型框架、行业应用的完整产业体系。 中国信通院副总工程师王爱华在2025人工智能产业及赋能新型工业化大会上的发言指出,人工智能产业的…...
前者可以在生成打斗场面时,让AI参考给出的动作分镜来生成视频,首尾帧则是确定了视频的开头和结尾,让AI在这个过程中发挥更多创作性。 一个是我们上文提及的——将行业需要的基础功能融入到视频大模型的生成思路中,另…...