该研究档案提供了对过去问题发表的所有研究文章的访问。
“Winogrande”探讨了DataSet开发和对冲滤波的新方法,明确旨在防止AI系统通过基准的索赔而不进行实际进展。
“Planalyzer,”由Emma Tosch等等。,详细说明Planalyzer软件,第一个静态检查在线实验的有效性。
我们介绍了静态检查在线实验的内部有效性的方法,即来自代码。
我们介绍了Winogrande,一个44k问题的大规模数据集,灵感来自原始的Winograd架构挑战,但调整为改善数据集的规模和硬度。