Mitchell Abrams, Kaveh Eskandari Miandoab, Felix Gervits, Vasanth Sarathy, and Matthias Scheutz. Where Norms and References Collide: Evaluating LLMs on Normative Reasoning. arXiv preprint arXiv:2602.02975, 2026.
听闻大语言模型做出蠢事时,常见反应是质疑证据:“你提示方式不对”“未使用最先进模型”“模型比三个月前强多了”。这很荒谬。两年前这些评论在Hacker News上司空见惯;若当时前沿模型不愚蠢,现在也不该愚蠢。本文案例主要来自近三个月的主流商业模型(如ChatGPT GPT-5.4、Gemini 3.1 Pro或Claude Opus 4.6),部分源于三月下旬。多个案例来自工作中专业使用大语言模型的资深软件工程师。现代机器学习模型既能力惊人,又愚蠢透顶。这根本不该存在争议。
。关于这个话题,钉钉下载提供了深入分析
Предприниматели Северного Кавказа ходатайствуют о налоговых каникулах08:44
Second Iteration of the Infant Memory Manager