[db:摘要]...
IT之家 12 月 20 日新闻,Meta 公司联袂华盛顿年夜学跟卡内基梅隆年夜学,组建科研团队,配合开辟了 ExploreToM 框架,旨在更无效地评价跟练习年夜言语模子(LLM)的心智实践(Theory of Mind,ToM)才能。心智实践心智实践(Theory of Mind,ToM)是人类社会智能的基本之一,能让咱们可能懂得别人的主意、用意跟信心。这种认知才能对无效的相同跟合作至关主要,是庞杂交际互动的支柱。让 AI 也具有 ToM 才能,对创立能与人类无缝互动的智能体至关主要,只是以后年夜型言语模子(LLM)在 ToM 方面仍面对宏大挑衅。现有的基准平日缺少庞杂性跟多样性,招致高估模子才能。比方,很多基准测试基于简略的预约义场景,无奈复制人类用来揣摸心思状况的庞杂推理。ExploreToM 框架ExploreToM 经由过程天生多样化、可扩大的抗衡性数据集,为晋升 AI 的 ToM 才能奠基了坚固基本。该研讨夸大了以后模子的范围性,以及高品质练习数据对弥合这些差距的潜力。在数据集方面,ExploreToM 应用 A* 搜寻算法跟特定范畴言语天生多样化、高难度的测试数据集,模仿庞杂的社会情景,挑衅 LLM 的认知极限。ExploreToM 与现有基准测试差别,经由过程创立抗衡性故事场景,旨在提醒 LLM 在 ToM 推理中的盲点。别的该框架还引入了非对称信心更新机制,能够模仿差别脚色对统一情形持有差别观念的庞杂交际互动。主流模子测试后果GPT-4o 跟 Llama-3.1-70B 模子在 ExploreToM 数据集上的正确率分辨只有 9% 跟 0%,凸显了现有 LLM 在处置庞杂 ToM 推理方面的缺乏。在 ExploreToM 数据长进行微调后,模子在经典 ToMi 基准测试中的正确率进步了 27 个百分点,证实了该框架的无效性。IT之家附上参考地点Meta AI Introduces ExploreToM: A Program-Guided Adversarial Data Generation Approach for Theory of Mind ReasoningExplore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind ReasoningGitHubhuggingface
]article_adlist-->告白申明:文内含有的对外跳转链接(包含不限于超链接、二维码、口令等情势),用于通报更多信息,节俭甄选时光,成果仅供参考,IT之家全部文章均包括本申明。
]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->