ACM通信gydF4y2Ba

首页gydF4y2Ba /gydF4y2Ba 杂志存档gydF4y2Ba /gydF4y2Ba 2021年8月(第64卷第8期)gydF4y2Ba /gydF4y2Ba 通过深度学习实现最优拍卖gydF4y2Ba /gydF4y2Ba全文gydF4y2Ba

研究突出了gydF4y2Ba

通过深度学习实现最优拍卖gydF4y2Ba

作者:保罗Dütting，冯哲，Harikrishna Narasimhan, David C. Parkes, Sai S. RavindranathgydF4y2Ba
ACM通信，2021年8月，第64卷第8期，109-116页gydF4y2Ba
10.1145 / 3470442gydF4y2Ba
评论gydF4y2Ba

认为:gydF4y2Ba 打印gydF4y2Ba 手机应用程序gydF4y2Ba ACM数字图书馆gydF4y2Ba 全文(PDF)gydF4y2Ba 数码版gydF4y2Ba 分享:gydF4y2Ba 通过电子邮件发送gydF4y2Ba 在reddit分享gydF4y2Ba 在StumbleUpon分享gydF4y2Ba 在黑客新闻上分享gydF4y2Ba 在推特上分享gydF4y2Ba 在Facebook上分享gydF4y2Ba

分享gydF4y2Ba

设计一种激励兼容拍卖，使预期收益最大化是一项复杂的任务。1981年，迈尔森在一项开创性的工作中解决了单一物品的问题。即使经过30-40年的深入研究，这个问题仍然没有解决，设置两个或两个以上的项目。我们概述了近期的研究结果，这些研究结果表明，深度学习工具正在成为自动化设计接近最优拍卖的强大工具。在这种方法中，拍卖被建模为一个多层神经网络，最优拍卖设计被框定为一个约束学习问题，可以用标准的机器学习管道解决。通过这种方法，基本上可以恢复多项目设置的所有已知解析导出解的高度精度，并获得未知最优机制的设置的新机制。gydF4y2Ba

回到顶部gydF4y2Ba

1.简介gydF4y2Ba

最优拍卖设计是经济学理论的基石之一。它具有非常重要的现实意义，因为拍卖是跨行业和公共部门用来组织其产品和服务的销售。具体的例子有:美国联邦通信委员会(FCC)激励拍卖(Incentive Auction)、由网络搜索引擎(如谷歌)进行的赞助搜索拍卖、以及在eBay等平台上运行的拍卖。在标准gydF4y2Ba独立私人价值gydF4y2Ba模型中，每个投标人都有一个对项目子集的评估函数，从不一定相同的分布中独立得出。拍卖商知道价值分布，但不知道投标人的实际估值(支付意愿)。如果这对投标人有利，他们可以采取战略行动，不如实报告。规避这种情况的一种方法是，要求每个代理人如实报告其价值符合其最佳利益。然后，我们的目标是学习一种激励兼容拍卖，使收益最大化。gydF4y2Ba

在一项开创性的工作中，迈尔森解决了只有一件物品出售时的最优拍卖设计问题。gydF4y2Ba^17gydF4y2Ba令人惊讶的是，即使经过30-40年的深入研究，即使是在两个投标人和两件物品的简单设置中，这个问题也没有完全解决。我们的重点是设计令人满意的拍卖gydF4y2Ba显性策略激励相容性(DSIC)gydF4y2Ba这是一个强有力的、令人满意的激励一致性概念。虽然有一些很好的部分表征结果，gydF4y2Ba^{6gydF4y2Ba,gydF4y2Ba10gydF4y2Ba,gydF4y2Ba15gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba}以及一系列令人印象深刻的算法结果，例如Babaioff等人。gydF4y2Ba^1gydF4y2Ba和蔡等人，gydF4y2Ba^2gydF4y2Ba这些适用于较弱的概念gydF4y2Ba贝叶斯激励相容性(BIC)gydF4y2Ba除了DSIC和BIC重合时，只有一个投标人。gydF4y2Ba

在Dütting等，gydF4y2Ba^7gydF4y2Ba我们引入了一种新的、基于深度学习的方法来解决最优的多物品拍卖设计问题。特别是，我们使用多层神经网络对拍卖机制进行编码，投标人的估值形成输入，分配和支付决策形成输出。利用价值分布中的样本对网络进行训练，以便在激励相容约束下实现预期收益最大化。早期的工作建议使用算法来自动化机制的设计，gydF4y2Ba^3.gydF4y2Ba但在可伸缩的情况下，这一早期工作必须将搜索空间限制为已知的激励兼容的拍卖设计。gydF4y2Ba^{13gydF4y2Ba,gydF4y2Ba23gydF4y2Ba}相比之下，深度学习方法能够在广泛的不一定真实的机制类别中进行搜索。另一个相关的工作是利用机器学习来优化机制的不同方面，gydF4y2Ba^{8gydF4y2Ba,gydF4y2Ba18gydF4y2Ba}但这些方法都不能提供我们方法的通用性和灵活性。gydF4y2Ba

我们的框架提供了两种不同的方法来处理DSIC约束。首先，我们利用了描述DSIC机制的经济理论的结果，并适当地对网络架构建模。这种方法，我们称为RochetNet，适用于单投标人多项目设置，并提供精确的DSIC机制。gydF4y2Ba^22gydF4y2Ba第二，我们将DSIC约束提升到目标中gydF4y2Ba增广拉格朗日gydF4y2Ba该方法具有引入DSIC违规处罚期限的效果。这种方法，我们称之为gydF4y2BaRegretNetgydF4y2Ba，也适用于多投标人多项目设置，我们没有DSIC机制的易于处理的特征，但通常只能找到近似激励兼容的机制。gydF4y2Ba

在本研究重点中，我们描述了一般方法，并提出了一些实验结果，以支持我们的一般发现:这些方法能够从过去30-40年获得的所有分析结果中，以高准确度恢复最优拍卖，深度学习也是确认或反驳有关最优拍卖形式的假设的强大工具，并可用于发现新的设计。在论文的全文中，我们也进行了证明gydF4y2Ba推广范围gydF4y2Ba根据训练过程中获得的经验属性、用于编码分配和支付规则的神经网络的复杂性以及用于训练网络的样本数量，提供预期收入和预期违反DSIC的置信区间。另一些则为在更简单的设置中训练收益最大化拍卖提供了泛化边界;比如，摩根斯顿和拉夫加登。gydF4y2Ba^16gydF4y2Ba

后续工作拓展了我们的处理方式gydF4y2Ba预算限制gydF4y2Ba,gydF4y2Ba^9gydF4y2Ba以及社会选择中的一个问题，所谓gydF4y2Ba设施选址问题gydF4y2Ba,gydF4y2Ba^12gydF4y2Ba研究了单一投标人设置的专门架构，gydF4y2Ba^24gydF4y2Ba引入了对称编码网络，gydF4y2Ba^21gydF4y2Ba并提供了验证学习机制的抗策略性的方法。gydF4y2Ba^4gydF4y2Ba

回到顶部gydF4y2Ba

2.最优拍卖设计gydF4y2Ba

我们首先阐述最优拍卖设计问题，并提供一些说明性的例子。gydF4y2Ba

在这个问题的一般版本中，我们得到gydF4y2BangydF4y2Ba投标人gydF4y2BaNgydF4y2Ba={1,…,gydF4y2BangydF4y2Ba},gydF4y2Ba米gydF4y2Ba项目gydF4y2Ba米gydF4y2Ba={1,…,gydF4y2Ba米gydF4y2Ba}。每一个投标人gydF4y2Ba我gydF4y2Ba具有价值功能gydF4y2BavgydF4y2Ba_我gydF4y2Ba: 2gydF4y2Ba^米gydF4y2Ba→ℝgydF4y2Ba_{≥0gydF4y2Ba},在那里gydF4y2BavgydF4y2Ba_我gydF4y2Ba（gydF4y2Ba年代gydF4y2Ba)表示竞标者对项目子集的估价gydF4y2Ba年代gydF4y2Ba⊆gydF4y2BaM。gydF4y2Ba在最简单的情况下，竞标者可能有gydF4y2Ba添加剂gydF4y2Ba估值。在这种情况下，她有一个值gydF4y2BavgydF4y2Ba_我gydF4y2Ba({gydF4y2BajgydF4y2Ba})gydF4y2BajgydF4y2Ba∈gydF4y2Ba米gydF4y2Ba，以及她对项目子集的值gydF4y2Ba年代gydF4y2Ba⊆gydF4y2Ba米gydF4y2Ba是gydF4y2BavgydF4y2Ba_我gydF4y2Ba（gydF4y2Ba年代gydF4y2Ba) =∑gydF4y2Ba_{jgydF4y2Ba∈gydF4y2Ba年代gydF4y2Ba}vgydF4y2Ba_我gydF4y2Ba({gydF4y2BajgydF4y2Ba})。如果一个投标人的价值的一个子集的项目gydF4y2Ba年代gydF4y2Ba⊆gydF4y2Ba米gydF4y2Ba是gydF4y2BavgydF4y2Ba_我gydF4y2Ba（gydF4y2Ba年代gydF4y2Ba) = maxgydF4y2Ba_{jgydF4y2Ba∈gydF4y2Ba年代gydF4y2Ba}VgydF4y2Ba_我gydF4y2Ba({gydF4y2BajgydF4y2Ba})，我们说这个出价人有一个gydF4y2Baunit-demandgydF4y2Ba估值。我们也考虑具有特定组合估值的投标人，但将细节推迟到我们的完整版本。gydF4y2Ba

投标人gydF4y2Ba我gydF4y2Ba的估值函数是独立于分布得出的gydF4y2BaFgydF4y2Ba_我gydF4y2Ba除以可能的估值函数gydF4y2BaVgydF4y2Ba_我gydF4y2Ba．我们写gydF4y2BavgydF4y2Ba= (gydF4y2BavgydF4y2Ba_1gydF4y2Ba、……gydF4y2BavgydF4y2Ba_ngydF4y2Ba)，以浏览有关值及表示的简介gydF4y2Ba cacm6408_g.gifgydF4y2Ba ．拍卖师知道分布情况gydF4y2BaFgydF4y2Ba= (gydF4y2BaFgydF4y2Ba_1gydF4y2Ba、……gydF4y2BaFgydF4y2Ba_ngydF4y2Ba)，但不知道竞标者的实际估值gydF4y2Bav。gydF4y2Ba竞标者报告他们的估价(可能是不真实的)，拍卖决定将物品分配给竞标者并向他们收取费用。我们表示拍卖(gydF4y2BaggydF4y2Ba,gydF4y2BapgydF4y2Ba)作为一对分配规则gydF4y2BaggydF4y2Ba_我gydF4y2Ba：gydF4y2BaVgydF4y2Ba→2gydF4y2Ba^米gydF4y2Ba和支付规则gydF4y2BapgydF4y2Ba_我gydF4y2Ba：gydF4y2BaVgydF4y2Ba→gydF4y2Ba_{≥0gydF4y2Ba}(这些规则可以是随机的)。给出报价gydF4y2BabgydF4y2Ba= (gydF4y2BabgydF4y2Ba_1gydF4y2Ba、……gydF4y2BabgydF4y2Ba_ngydF4y2Ba)∈gydF4y2BaVgydF4y2Ba，拍卖计算分配gydF4y2BaggydF4y2Ba（gydF4y2BabgydF4y2Ba)和支付gydF4y2BapgydF4y2Ba（gydF4y2BabgydF4y2Ba)．gydF4y2Ba

有估价的投标人gydF4y2BavgydF4y2Ba_我gydF4y2Ba收到一个实用程序gydF4y2BaugydF4y2Ba_我gydF4y2Ba（gydF4y2BavgydF4y2Ba_我gydF4y2Ba；gydF4y2BabgydF4y2Ba) =gydF4y2BavgydF4y2Ba_我gydF4y2Ba（gydF4y2BaggydF4y2Ba_我gydF4y2Ba（gydF4y2BabgydF4y2Ba)) -gydF4y2BapgydF4y2Ba_我gydF4y2Ba（gydF4y2BabgydF4y2Ba)以阅览投标资料gydF4y2Bab。gydF4y2Ba让gydF4y2BavgydF4y2Ba_{-我gydF4y2Ba}标明估价概况gydF4y2BavgydF4y2Ba= (gydF4y2BavgydF4y2Ba_1gydF4y2Ba、……gydF4y2BavgydF4y2Ba_ngydF4y2Ba)没有元素gydF4y2BavgydF4y2Ba_我gydF4y2Ba类似地,gydF4y2BabgydF4y2Ba_{-我gydF4y2Ba},让gydF4y2Ba cacm6408_h.gifgydF4y2Ba 注明投标人以外的投标人可能的估值概况gydF4y2Ba我。gydF4y2Ba拍卖是gydF4y2Ba主导策略激励兼容gydF4y2Ba(DSIC)，即无论其他竞标者报告什么，每个竞标者的效用都通过如实报告而最大化。换句话说,gydF4y2BaugydF4y2Ba_我gydF4y2Ba（gydF4y2BavgydF4y2Ba_我gydF4y2Ba；（gydF4y2BavgydF4y2Ba_我gydF4y2Ba,gydF4y2BabgydF4y2Ba_{-我gydF4y2Ba})≥gydF4y2BaugydF4y2Ba_我gydF4y2Ba（gydF4y2BavgydF4y2Ba_我gydF4y2Ba；（gydF4y2BabgydF4y2Ba_我gydF4y2Ba,gydF4y2BabgydF4y2Ba_{-我gydF4y2Ba}))gydF4y2Ba我gydF4y2Ba,每一个估价gydF4y2BavgydF4y2Ba_我gydF4y2Ba∈gydF4y2BaVgydF4y2Ba_我gydF4y2Ba,每一个报价gydF4y2BabgydF4y2Ba_我gydF4y2Ba∈gydF4y2BaVgydF4y2Ba_我gydF4y2Ba，以及所有出价gydF4y2BabgydF4y2Ba_{-我gydF4y2Ba}∈gydF4y2BaVgydF4y2Ba_{-我gydF4y2Ba}从别人。拍卖是事后的gydF4y2Ba个人理性gydF4y2Ba(IR)，如果每个投标人都获得非零效用，即gydF4y2BaugydF4y2Ba_我gydF4y2Ba(vgydF4y2Ba_我gydF4y2Ba；(vgydF4y2Ba_我gydF4y2BabgydF4y2Ba_{-我gydF4y2Ba}))≥0∀i∈N, vgydF4y2Ba_我gydF4y2Ba∈VgydF4y2Ba_我gydF4y2Ba,gydF4y2BabgydF4y2Ba_{-我gydF4y2Ba}∈gydF4y2BaVgydF4y2Ba_{-我gydF4y2Ba}．gydF4y2Ba

在DSIC拍卖中，如实报告对每个投标人都是最有利的，因此在估价资料中也要如实报告收入gydF4y2BavgydF4y2Ba是∑gydF4y2Ba_我gydF4y2BapgydF4y2Ba_我gydF4y2Ba（gydF4y2BavgydF4y2Ba)．最优拍卖设计寻求确定一个DSIC拍卖，使预期收入最大化。gydF4y2Ba

例1(维克瑞拍卖gydF4y2Ba^26gydF4y2Ba)．gydF4y2Ba拍卖理论中的一个经典结果是将一件物品卖给n个竞标者。它指出，以下拍卖——所谓的维克瑞或二次价格拍卖——是DSIC，并使社会福利最大化gydF4y2Ba_我gydF4y2Ba从每个投标人中，将项目分配给出价最高的投标人(以一种随意但固定的方式打破僵局)，并让投标人支付第二高的出价。gydF4y2Ba

例2 (myerson拍卖gydF4y2Ba^17gydF4y2Ba)．gydF4y2Ba一个简单的例子表明，Vickrey拍卖并不能使收入最大化:假设有两个出价人以vgydF4y2Ba_我gydF4y2Ba∈gydF4y2BaUgydF4y2Ba[0, 1],gydF4y2Ba那么它的期望收入是gydF4y2Ba1/3。gydF4y2Ba通过保留价r的二次拍卖可以获得更高的收入:和前面一样，收集出价bgydF4y2Ba_我gydF4y2Ba，分配给最高的出价，但只有当这个出价至少是r，并让中标者(如果有的话)支付第二名出价和r的最大值。验证这个拍卖是DSIC和选择r是很简单的gydF4y2Ba= 1/2gydF4y2Ba导致预期收入为gydF4y2Ba5/12 > 1/3。gydF4y2Ba

在单一物品和统一估值的简单例子中，保留1/2的二次价格拍卖实际上是最优拍卖。这次拍卖展示了Myerson关于设计收益最优的单品拍卖理论的一个特例。gydF4y2Ba^17gydF4y2Ba可比较的结果是不能出售多个项目，即使当我们试图把他们卖给一个投标人!gydF4y2Ba

回到顶部gydF4y2Ba

3.学习问题gydF4y2Ba

我们的方法的核心是将最优拍卖设计问题重新解释为一个学习问题，在这个问题中，我们采用了针对目标标签测量误差的损失函数，我们采用了从估值中得到的否定的预期收益gydF4y2BaF。gydF4y2Ba

更具体地说，我们要解决的问题如下:我们给定一个拍卖的参数类，(gydF4y2BaggydF4y2Ba^wgydF4y2Ba,gydF4y2BapgydF4y2Ba^wgydF4y2Ba)∈gydF4y2Ba米gydF4y2Ba为参数gydF4y2BawgydF4y2Ba∈gydF4y2BaRgydF4y2Ba^dgydF4y2Ba对于一些gydF4y2BadgydF4y2Ba∈gydF4y2BaNgydF4y2Ba，以及投标人估价资料样本gydF4y2Ba年代gydF4y2Ba= {gydF4y2BavgydF4y2Ba^{(1）gydF4y2Ba}、……gydF4y2BavgydF4y2Ba^{（gydF4y2BalgydF4y2Ba）gydF4y2Ba}画出的I.I.D.gydF4y2BaF。gydF4y2Ba我们的目标是找到一种能将否定的预期收益最小化的拍卖gydF4y2Ba cacm6408_i.gifgydF4y2Ba 在所有拍卖中gydF4y2Ba米gydF4y2Ba满足激励相容性。gydF4y2Ba

我们考虑了实现DSIC的两种不同的方法。在第一种方法中，我们利用了表征结果。当可以在神经网络体系结构中对它们进行编码时，这些来自经济理论的特征有效地限制了搜索空间，并提供了精确的DSIC。与此同时，我们使用的特定特性是有限的，因为它只适用于单一投标人设置。我们采用的第二种方法更为通用，适用于多投标人设置，并且不依赖于合适的表征结果的可用性。另一方面，该方法需要在更大的参数空间中进行搜索，只能获得近似的DSIC。gydF4y2Ba

我们将在第4节中描述第一种方法，并在第5节中返回第二种方法。gydF4y2Ba

回到顶部gydF4y2Ba

4.Rochetnet框架gydF4y2Ba

我们开发了两个不同的框架，通过将适当的结构应用到神经网络体系结构中来实现精确的DSIC。一个框架，称为gydF4y2BaMyersonNetgydF4y2Ba，是受到了迈尔森引理的启发gydF4y2Ba^17gydF4y2Ba并可用于研究多竞标者、单品拍卖(见本文完整版)。第二个框架，称为gydF4y2BaRochetNetgydF4y2Ba，其灵感来自于Rochet针对DSIC拍卖在单一竞买人设置下的表征定理。gydF4y2Ba^22gydF4y2Ba我们给出了用于附加偏好的RochetNet结构，但这可以很容易地扩展到单位需求估值。gydF4y2Ba

4.1.RochetNet架构gydF4y2Ba

对于这个单投标人，多项目设置，让gydF4y2Ba cacm6408_j.gifgydF4y2Ba 表示投标人的附加价值，使gydF4y2BavgydF4y2Ba_jgydF4y2Ba它的价值为项目吗gydF4y2BajgydF4y2Ba．让gydF4y2Ba cacm6408_k.gifgydF4y2Ba 表示出价，不必是真实的。分配规则gydF4y2Ba cacm6408_l.gifgydF4y2Ba 为参数gydF4y2BawgydF4y2Ba，为每个项定义gydF4y2BajgydF4y2Ba∈(gydF4y2BaJgydF4y2Ba)的概率gydF4y2Ba cacm6408_m.gifgydF4y2Ba 将该物品分配给投标人。支付规则gydF4y2Ba cacm6408_n.gifgydF4y2Ba 定义了付款gydF4y2BapgydF4y2Ba^wgydF4y2Ba（gydF4y2BabgydF4y2Ba)。gydF4y2Ba

机制(gydF4y2BaggydF4y2Ba^wgydF4y2Ba,gydF4y2BapgydF4y2Ba^wgydF4y2Ba)引发gydF4y2Ba效用函数gydF4y2Ba cacm6408_o.gifgydF4y2Ba ．真实的报价,gydF4y2BavgydF4y2Ba，该机理诱导的效用函数为gydF4y2Ba

eq01.gifgydF4y2Ba

RochetNet体系结构通过gydF4y2Ba菜单。gydF4y2Ba菜单编码了一套gydF4y2BaKgydF4y2Ba选择，每个选择都包含一个随机分配和一个价格。网络为竞标者选择能使竞标者的报告效用最大化的选择，或者选择gydF4y2Ba零结果gydF4y2Ba(不分配，不支付)当这是首选。这将产生以下效用函数:gydF4y2Ba

eq02.gifgydF4y2Ba

与参数gydF4y2BawgydF4y2Ba=(α,gydF4y2BaβgydF4y2Ba)，其中α∈[0,1]gydF4y2Ba^可gydF4y2Ba而且gydF4y2BaβgydF4y2Ba∈ℝgydF4y2Ba^KgydF4y2Ba．对的选择gydF4y2BakgydF4y2Ba∈(gydF4y2BaKgydF4y2Ba， α处的参数gydF4y2Ba_kgydF4y2Ba∈[0,1]gydF4y2Ba^米gydF4y2Ba指定随机分配和参数gydF4y2BaβgydF4y2Ba_kgydF4y2Ba∈ℝ为否定价格(gydF4y2BaβgydF4y2Ba_kgydF4y2BaS为负，的值越小gydF4y2BaβgydF4y2Ba_kgydF4y2Ba，支付越多)。gydF4y2Ba

输入gydF4y2BabgydF4y2Ba,让gydF4y2BakgydF4y2Ba^＊gydF4y2Ba（gydF4y2BabgydF4y2Ba)∈argmaxgydF4y2Ba_{kgydF4y2Ba∈(gydF4y2BaKgydF4y2Ba]∪{0}gydF4y2Ba}{αgydF4y2Ba_kgydF4y2Ba·gydF4y2BabgydF4y2Ba+gydF4y2BaβgydF4y2Ba_kgydF4y2Ba}表示投标人的最佳选择，其中选项0对应于αgydF4y2Ba_0gydF4y2Ba= 0和gydF4y2BaβgydF4y2Ba_0gydF4y2Ba= 0和null结果。这个最佳选择确定了投标的分配和支付规则gydF4y2BabgydF4y2Ba，分配为gydF4y2BaggydF4y2Ba^wgydF4y2Ba（gydF4y2BabgydF4y2Ba) =αgydF4y2Ba_{kgydF4y2Ba^＊gydF4y2Ba（gydF4y2BabgydF4y2Ba）gydF4y2Ba}支付是gydF4y2BapgydF4y2Ba^wgydF4y2Ba（gydF4y2BabgydF4y2Ba) = -gydF4y2BaβgydF4y2Ba_{kgydF4y2Ba^＊gydF4y2Ba（gydF4y2BabgydF4y2Ba）gydF4y2Ba}．gydF4y2Ba

RochetNet将这种诱导效用函数表示为单层神经网络，如gydF4y2Ba图1 (a)gydF4y2Ba．输入层接受出价gydF4y2Ba cacm6408_k.gifgydF4y2Ba 网络的输出是诱导效用。gydF4y2Ba图1 (b)gydF4y2Ba显示单个项目的诱导效用函数示例(gydF4y2Ba米gydF4y2Ba= 1)和一个包含四个选项的网络(gydF4y2BaKgydF4y2Ba= 4)。gydF4y2Ba

图1。RochetNet:菜单的神经网络表示，如图所示gydF4y2BaKgydF4y2Ba选择以及空结果(0);在这里,gydF4y2BahgydF4y2Ba_kgydF4y2Ba（gydF4y2BabgydF4y2Ba) =αgydF4y2Ba_kgydF4y2Ba·gydF4y2BabgydF4y2Ba+gydF4y2BaβgydF4y2Ba_kgydF4y2Ba为gydF4y2BabgydF4y2Ba∈ℝgydF4y2Ba^米gydF4y2Ba,αgydF4y2Ba_kgydF4y2Ba∈[0,1]gydF4y2Ba^米gydF4y2Ba,gydF4y2BaβgydF4y2Ba_kgydF4y2Ba∈ℝ。(b)以RochetNet为代表的单个项目的诱导效用函数(gydF4y2Ba米gydF4y2Ba= 1)和一个有四个选项菜单的网络(gydF4y2BaKgydF4y2Ba= 4)。gydF4y2Ba

该网络结构保证了效用函数是单调非递减的、凸的、1-Lipschitz的，符合Rochet的刻画。gydF4y2Ba^22gydF4y2Ba它还很容易提供以下理论性质。gydF4y2Ba

定理4.1。gydF4y2Ba对于任何参数化w，机理gydF4y2Ba（gydF4y2BaggydF4y2Ba^wgydF4y2Ba,gydF4y2BapgydF4y2Ba^wgydF4y2Ba）gydF4y2Ba与RochetNet对应的是DSIC和IR。gydF4y2Ba

证明。对于DSIC，注意:(1)可用的选择是固定的，并且独立于报告;(2)对于真实的报告，RochetNet的“max”结构保证了投标人得到的选择能使其真实期望效用最大化，因此，投标人不能做得比这更好。对于IR，请注意，由于空结果的可用性，真正报告的预期实用程序至少为零。gydF4y2Ba

4.2.培训gydF4y2Ba

在培训期间，我们寻求最小化否定的，预期的收入。让gydF4y2BaFgydF4y2Ba表示估值上的分布gydF4y2Bav。gydF4y2Ba确保目标是α和的连续函数gydF4y2BaβgydF4y2Ba(使参数可以通过梯度下降进行优化)，是最佳选择gydF4y2BakgydF4y2Ba^＊gydF4y2Ba（gydF4y2BavgydF4y2Ba)输入gydF4y2BavgydF4y2Ba在训练过程中通过gydF4y2BasoftmaxgydF4y2Ba替换argmax的操作。据此，我们寻求使以下损失函数最小化，它对应于近似的负收益:gydF4y2Ba

eq03.gifgydF4y2Ba

在哪里gydF4y2Ba

eq04.gifgydF4y2Ba

而且gydF4y2BacgydF4y2Ba> 0是一个常数，它控制近似的质量。softmax函数为softmaxgydF4y2Ba_kgydF4y2Ba（gydF4y2BaczgydF4y2Ba_0gydF4y2Ba,gydF4y2BaczgydF4y2Ba_1gydF4y2Ba、……gydF4y2BaczgydF4y2Ba_kgydF4y2Ba) =gydF4y2BaegydF4y2Ba^{czgydF4y2Ba_kgydF4y2Ba}/∑gydF4y2Ba_{k”gydF4y2Ba}egydF4y2Ba^{czgydF4y2Ba_{k”gydF4y2Ba}}并将其作为输入gydF4y2BaKgydF4y2Ba+ 1个实数，并返回一个概率分布，每个条目与相应输入的指数成正比。一旦训练，RochetNet在测试时使用硬最大值代替软最大值，以确保准确的DSIC和IR。gydF4y2Ba

我们使用从投标人的价值分布中提取的样本来训练RochetNet。给定一个样本gydF4y2Ba年代gydF4y2Ba= {gydF4y2BavgydF4y2Ba^{(1）gydF4y2Ba}、……gydF4y2BavgydF4y2Ba^{（gydF4y2BalgydF4y2Ba）gydF4y2Ba}}，我们将经验损失最小化，即gydF4y2Ba

eq05.gifgydF4y2Ba

我们使用投影随机梯度下降(SGD)来最小化(5)。我们使用大小为2的小批次来估计损失的梯度gydF4y2Ba^15gydF4y2Ba每个迭代中的评估样本。在投影步骤中，我们投影每个参数αgydF4y2Ba_jkgydF4y2Ba(项gydF4y2BajgydF4y2Ba,选择gydF4y2BakgydF4y2Ba)到[0,1]提供定义良好的概率。gydF4y2Ba

回到顶部gydF4y2Ba

5.Regretnet框架gydF4y2Ba

接下来，我们将描述处理DSIC约束的第二种方法和相应的框架，我们称之为gydF4y2BaRegretNet。gydF4y2Ba与第一种方法不同，第二种方法不依赖于DSIC机制的特征。相反，我们用一个可微近似替换DSIC约束，并通过用一个解释违反DSIC约束程度的术语来增加目标，从而将DSIC约束提升到目标中。在这里，我们提供了一个特殊情况的概述，在这种情况下，竞拍者对项目具有附加值，但该框架还处理更一般的设置。gydF4y2Ba

5.1.预期事后后悔gydF4y2Ba

我们可以通过一个特定的变化来衡量拍卖违反激励兼容性的程度gydF4y2Ba事后gydF4y2Ba在Dütting等人介绍的遗憾。gydF4y2Ba^8gydF4y2Ba在考虑到所有可能的不真实出价的情况下，操纵他人的出价，对投标人来说事后后悔是其效用的最大增加。gydF4y2Ba

机制(gydF4y2BaggydF4y2Ba^wgydF4y2Ba,gydF4y2BapgydF4y2Ba^wgydF4y2Ba)，我们会感兴趣的gydF4y2Ba预期事后对投标人I的遗憾gydF4y2Ba：gydF4y2Ba

ueq01.gifgydF4y2Ba

期待在哪里结束gydF4y2BavgydF4y2Ba～gydF4y2BaFgydF4y2Ba而且gydF4y2Ba cacm6408_p.gifgydF4y2Ba 对模型参数gydF4y2Baw。gydF4y2Ba我们假设gydF4y2BaFgydF4y2Ba是否完全支持估值配置文件的空间gydF4y2BaVgydF4y2Ba，并且认识到遗憾是非负的，拍卖满足DSIC当且仅当gydF4y2BargtgydF4y2Ba_我gydF4y2Ba（gydF4y2BawgydF4y2Ba) = 0，∀gydF4y2Ba我gydF4y2Ba∈gydF4y2BaNgydF4y2Ba，除了度量零事件。gydF4y2Ba

鉴于此，我们将学习问题重新表述为，在每个投标人的预期事后遗憾为零的情况下，最小化预期负收益:gydF4y2Ba

ueq02.gifgydF4y2Ba

给定一个样本gydF4y2Ba年代gydF4y2Ba的gydF4y2BalgydF4y2Ba估价资料从gydF4y2BaFgydF4y2Ba，我们估计了投标人的经验事后后悔gydF4y2Ba我gydF4y2Ba为:gydF4y2Ba

eq06.gifgydF4y2Ba

并在所有投标人的经验遗憾为零的情况下，寻求最小化经验损失(否定的收入):gydF4y2Ba

eq07.gifgydF4y2Ba

此外，我们还要求设计的拍卖满足IR，这可以通过将搜索空间限制为一类参数化拍卖来保证，这些参数化拍卖不会向竞价者收取高于其对分配的估值的费用。gydF4y2Ba

5.2.RegretNet架构gydF4y2Ba

在这种情况下，目标是训练神经网络，显式编码机制的分配和支付规则。体系结构通常由两个逻辑上不同的组件组成:分配和支付网络。这些组件被一起训练，这些网络的输出被用来计算拍卖的遗憾和收益。gydF4y2Ba

文中给出了用于附加估值的悔恨网体系结构的概述gydF4y2Ba图2gydF4y2Ba．gydF4y2Ba

图2。悔恨网:分配和支付网络的设置gydF4y2BangydF4y2Ba添加剂投标人,gydF4y2Ba米gydF4y2Ba物品。输入是每个投标人对每个项目的出价。的收入gydF4y2Ba牧师gydF4y2Ba和预期的事后gydF4y2BargtgydF4y2Ba_我gydF4y2Ba被定义为分配和支付网络参数的函数gydF4y2BawgydF4y2Ba= (gydF4y2BawgydF4y2Ba_ggydF4y2Ba,gydF4y2BawgydF4y2Ba_pgydF4y2Ba)．gydF4y2Ba

分配网络编码一个随机分配规则gydF4y2BaggydF4y2Ba^wgydF4y2Ba:ℝgydF4y2Ba^{纳米gydF4y2Ba}→[0,1]gydF4y2Ba^{纳米gydF4y2Ba}支付网络编码了一个支付规则gydF4y2Ba cacm6408_q.gifgydF4y2Ba ，两者都被建模为前馈全连接网络，在每个隐藏节点中都有一个tanh激活函数。网络的输入层由竞价组成gydF4y2BabgydF4y2Ba_ijgydF4y2Ba≥0表示投标人的估价gydF4y2Ba我gydF4y2Ba为项目gydF4y2Baj。gydF4y2Ba

分配网络输出分配概率向量gydF4y2BazgydF4y2Ba_{1gydF4y2BajgydF4y2Ba}＝gydF4y2BaggydF4y2Ba_{1gydF4y2BajgydF4y2Ba}（gydF4y2BabgydF4y2Ba),…gydF4y2BazgydF4y2Ba_{新泽西gydF4y2Ba}＝gydF4y2BaggydF4y2Ba_{新泽西gydF4y2Ba}（gydF4y2BabgydF4y2Ba)，浏览每项资料gydF4y2BajgydF4y2Ba∈(gydF4y2Ba米gydF4y2Ba］．为了保证可行性，即一个项目被分配的概率不超过1，使用softmax激活函数计算分配，因此对于所有项目gydF4y2BajgydF4y2Ba,我们有gydF4y2Ba cacm6408_r.gifgydF4y2Ba ．为了适应项目不被分配的可能性，我们在softmax计算中包含一个虚拟节点来保持剩余分配概率。支付网络为每个投标者输出支付，表示投标者应该为特定的投标概况预期支付的金额。gydF4y2Ba

以确保拍卖满足gydF4y2Ba红外gydF4y2Ba，也就是说，不向出价人收取高于她的期望值的分配，网络首先计算一个规范化的支付gydF4y2Ba cacm6408_s.gifgydF4y2Ba 为每一个投标人gydF4y2Ba我gydF4y2Ba使用s型单位，然后输出支付gydF4y2Ba cacm6408_t.gifgydF4y2Ba ,那里的gydF4y2BazgydF4y2Ba_ijgydF4y2Ba的是分配网络的输出。gydF4y2Ba

5.3.培训gydF4y2Ba

对于懊悔网，我们使用了gydF4y2Ba增广拉格朗日方法gydF4y2Ba求解神经网络参数空间(7)上的约束训练问题gydF4y2Baw。gydF4y2Ba

算法1gydF4y2BaRegretNet培训gydF4y2Ba

输入:gydF4y2BaMinibatchesgydF4y2Ba年代gydF4y2Ba_1gydF4y2Ba、……gydF4y2Ba年代gydF4y2Ba_TgydF4y2Ba的大小gydF4y2BaBgydF4y2Ba
参数:gydF4y2Ba∀gydF4y2BatgydF4y2Ba,gydF4y2BaρgydF4y2Ba_tgydF4y2Ba> 0， γ > 0， η > 0， Γ∈n，gydF4y2BaKgydF4y2Ba∈NgydF4y2Ba
初始化:gydF4y2BawgydF4y2Ba^0gydF4y2Ba∈ℝgydF4y2Ba^dgydF4y2Ba,λgydF4y2Ba^0gydF4y2Ba∈ℝgydF4y2Ba^ngydF4y2Ba
为gydF4y2BatgydF4y2Ba= 0gydF4y2Ba来gydF4y2BaTgydF4y2Ba做gydF4y2Ba
收到minibatchgydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba= {gydF4y2BavgydF4y2Ba^{(1）gydF4y2Ba}、……gydF4y2BavgydF4y2Ba^(B)gydF4y2Ba}gydF4y2Ba
初始化错误的报道gydF4y2Ba
为gydF4y2BargydF4y2Ba= 0gydF4y2Ba来gydF4y2BaΓgydF4y2Ba做gydF4y2Ba
∀ℓ∈[gydF4y2BaBgydF4y2Ba),gydF4y2Ba我gydF4y2Ba∈gydF4y2BaNgydF4y2Ba：gydF4y2Ba
结束了gydF4y2Ba
计算遗憾梯度:∀ℓ∈[gydF4y2BaBgydF4y2Ba),gydF4y2Ba我gydF4y2Ba∈gydF4y2BaNgydF4y2Ba：gydF4y2Ba
计算拉格朗日梯度(8)gydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba和更新:gydF4y2Ba
wgydF4y2Ba^{tgydF4y2Ba＋1gydF4y2Ba}←gydF4y2BawgydF4y2Ba^tgydF4y2Ba- - - - - -η∇gydF4y2Ba_wgydF4y2BaCgydF4y2Ba_ρtgydF4y2Ba（gydF4y2BawgydF4y2Ba^tgydF4y2Ba,λgydF4y2Ba^tgydF4y2Ba）gydF4y2Ba
更新一次拉格朗日乘数gydF4y2Ba问gydF4y2Ba迭代:gydF4y2Ba
如果gydF4y2BatgydF4y2Ba是的倍数gydF4y2Ba问gydF4y2Ba
计算gydF4y2Ba在gydF4y2Ba年代gydF4y2Ba_tgydF4y2Ba
其他的gydF4y2Ba
λgydF4y2Ba^{tgydF4y2Ba＋1gydF4y2Ba}←λgydF4y2Ba^tgydF4y2Ba
结束了gydF4y2Ba

我们首先定义优化问题的拉格朗日函数，并为违反约束增加一个二次惩罚项:gydF4y2Ba

ueq03.gifgydF4y2Ba

其中λ∈ℝgydF4y2Ba^ngydF4y2Ba是拉格朗日乘子的一个向量，ρ > 0是一个固定的参数，它控制二次惩罚上的权重。求解器在以下更新的模型参数和拉格朗日乘子之间交替进行:(a)gydF4y2Ba cacm6408_aa.gifgydF4y2Ba ．gydF4y2Ba

该求解器在算法1中描述。我们对训练样本进行分割gydF4y2Ba年代gydF4y2Ba分成小批量gydF4y2BaBgydF4y2Ba，估计小批次上的梯度，并在训练样本上执行几次传递。模型参数的更新(a)涉及到的无约束优化gydF4y2BaCgydF4y2Ba_ρgydF4y2Ba在gydF4y2BawgydF4y2Ba并使用基于梯度的优化器执行。梯度gydF4y2BaCgydF4y2Ba_ρgydF4y2Ba的关于gydF4y2BawgydF4y2Ba固定λgydF4y2Ba^tgydF4y2Ba是由:gydF4y2Ba

eq08.gifgydF4y2Ba

在哪里gydF4y2Ba

ueq04.gifgydF4y2Ba

条款gydF4y2Ba cacm6408_ab.gifgydF4y2Ba 而且gydF4y2BaggydF4y2Ba_{ℓ,我gydF4y2Ba}进而涉及到每个投标人的误报“最大值”gydF4y2Ba我gydF4y2Ba和估值概要gydF4y2BaℓgydF4y2Ba．我们使用另一个基于梯度的优化器(第6-10行)解决了错误报告的内部最大化问题。gydF4y2Ba

由于优化问题是非凸的，求解器不能保证得到全局最优解。然而，这种方法在我们的实验中被证明是非常有效的，我们发现学习到的拍卖产生非常低的遗憾，并且在已知的设置中与最优拍卖的结构非常匹配。gydF4y2Ba

回到顶部gydF4y2Ba

6.实验gydF4y2Ba

我们提出并讨论了我们已经进行的一系列实验中的一些实验，我们在Düetting等人中对这些实验进行了更详细的描述。gydF4y2Ba^7gydF4y2Ba还有完整版。实验证明，我们的方法可以在分析已知最优设计的基本所有设置下恢复接近最优的拍卖，它是确认或反驳关于最优设计假设的有效工具，并且它可以在不存在已知分析解的设置下找到新的拍卖。gydF4y2Ba

6.1.设置gydF4y2Ba

我们使用TensorFlow深度学习库实现了我们的框架。gydF4y2Ba

对于RochetNet，我们初始化参数α和gydF4y2BaβgydF4y2Ba在式(2)中分别使用区间[0,1]上的随机均匀初始化式和零初始化式。对于悔恨网，我们在隐藏节点上使用tanh激活函数，并使用gloot统一初始化。gydF4y2Ba^11gydF4y2Ba我们执行交叉验证来决定隐藏层的数量和每个隐藏层的节点数量。我们在第6.6节中包含了演示权衡的示例数字。gydF4y2Ba

我们用2训练RochetNetgydF4y2Ba^15gydF4y2Ba评估概要文件，并以在线方式对每个迭代进行抽样。我们使用Adam优化器进行更新，迭代2万次，学习率为0.1。的参数gydF4y2BakgydF4y2Ba设为1000。除非另有说明，我们使用了超过1000个线性函数的最大网络来建模诱导效用函数，并报告了我们在10,000个剖面样本上的结果。gydF4y2Ba

对于懊悔网，我们使用了640,000份评估概要文件样本进行培训，使用10,000份概要文件样本进行测试。增广拉格朗日求解器最多运行80个周期(训练集全部通过)，小批大小为128。增广拉格朗日中的ρ值被设为1.0，并每两个周期增加一次。一个更新gydF4y2BawgydF4y2Ba^tgydF4y2Ba使用学习率0.001的亚当优化器对每个小批执行。对于每一次更新gydF4y2BawgydF4y2Ba^tgydF4y2Ba，我们运行Γ = 25个误报更新步骤，学习率为0.1。在25次更新结束时，当前小批优化的误报被缓存，并用于在下一个纪元中初始化同一小批的误报。λ的更新gydF4y2Ba^tgydF4y2Ba每100个小批次(即，gydF4y2Ba问gydF4y2Ba= 100)。gydF4y2Ba

我们在一个使用NVDIA图形处理单元(GPU)内核的计算集群上运行了所有的实验。gydF4y2Ba

6.2.评价gydF4y2Ba

除了在测试集上学习拍卖的收益外，我们还评估了由后悔网实现的后悔，在所有投标人和测试估值剖面上取平均值，即:gydF4y2Ba cacm6408_ac.gifgydF4y2Ba ．每一个gydF4y2Ba cacm6408_ad.gifgydF4y2Ba 是否有一个内部的“最大”的效用函数超过投标人的估值gydF4y2Bav 'gydF4y2Ba_我gydF4y2Ba∈gydF4y2BaVgydF4y2Ba_我gydF4y2Ba(见(6))。我们通过运行梯度上升来计算这些项gydF4y2Bav 'gydF4y2Ba_我gydF4y2Ba2000次迭代的步长为0.1(我们测试了1000个不同的随机初始值gydF4y2Bav 'gydF4y2Ba_我gydF4y2Ba并报告实现了最大的遗憾)。对于一些实验，我们还报告了训练网络所花费的总时间。这个时间是在离线训练期间产生的，而分配和支付可以在几毫秒内计算，一旦训练网络。gydF4y2Ba

6.3.Manelli-Vincent拍卖gydF4y2Ba

我们讨论了马尼利-文森特拍卖，作为经济理论中最优设计的一个代表性例子，我们可以用我们的方法几乎完全恢复。gydF4y2Ba^15gydF4y2Ba

单个投标人与附加估值超过两个项目，其中项目的价值是独立的从gydF4y2BaUgydF4y2Ba[0,1]。gydF4y2Ba

Manelli和Vincent给出了这个设定的最佳拍卖。gydF4y2Ba^15gydF4y2Ba在这个设置中，我们使用了两个隐藏层和100个隐藏节点。给出了RochetNet和后悔网学习到的最优分配规则的可视化结果gydF4y2Ba图3gydF4y2Ba．gydF4y2Ba图4 (a)gydF4y2Ba给出了最优收益，由悔恨网获得的收益和遗憾，以及由RochetNet获得的收益。gydF4y2Ba图4 (b)gydF4y2Ba展示了这些术语是如何在悔意网的训练中随着时间的推移而演变的。gydF4y2Ba

图3。并排比较RochetNet(面板(a))和悔网(面板(b))在设置a中学习到的分配规则。面板描述了对于不同的估值输入，投标人被分配到项目1(左)和项目2(右)的概率。最优拍卖由黑色虚线分隔的区域描述，黑色的数字表示该区域的最优分配概率。gydF4y2Ba

图4。(a)针对设置a的悔恨网和RochetNet的测试收入和遗憾量，以及针对设置a的RochetNet的收入。(b)针对使用悔恨网设置a的测试收入和遗憾量作为训练时间函数的图。gydF4y2Ba

这两种方法基本上都恢复了最优设计，不仅是在收入方面，而且在分配规则和转移方面。RochetNet学习到的拍卖正是DSIC，精确匹配最优收益，在分配和支付规则中具有清晰的决策边界。后悔网的决策边界更加流畅，但仍然非常准确。在误差小于1%的情况下，悔意值小于0.001的情况下，悔意值与最优收益相匹配。测试收益和测试遗憾的曲线表明，增宽拉格朗日方法能有效地将测试收益和测试遗憾向最优水平驱动。gydF4y2Ba

附加的领域知识被整合到RochetNet体系结构中，从而形成了精确匹配优化设计的DSIC机制，并加快了计算速度(训练大约花了10分钟，而悔恨网则需要11小时)。另一方面，我们发现在没有任何领域知识的情况下，悔网的表现令人惊讶。gydF4y2Ba

6.4.紧身拍卖gydF4y2Ba

推广Manelli和Vincent的分析结果gydF4y2Ba^15gydF4y2Ba对于单个投标人和任意数量的项目(即使有附加偏好，所有的一致在[0,1])已经被证明是难以实现的。甚至不清楚最优机制是确定的还是需要随机化。gydF4y2Ba

Giannakopoulos和KoutsoupiasgydF4y2Ba^10gydF4y2Ba提出了一种直套拍卖(SJA)，给出了一种寻找细分和价格的递归算法，并利用LP对偶性证明了SJA对物品是最优的。这些作者还推测SJA仍然是最佳的gydF4y2Ba米gydF4y2Ba≤6一般gydF4y2Ba米gydF4y2Ba但他们无法证明这一点。gydF4y2Ba

图5gydF4y2Ba给出了SJA的收入，并由RochetNet发现gydF4y2Ba米gydF4y2Ba≤10项。我们使用了2个测试样本gydF4y2Ba^30.gydF4y2Ba估值配置文件(而不是10,000)来计算这些数字，以获得更高的精度。它表明RochetNet找到了最优的收入gydF4y2Ba米gydF4y2Ba≤6个项目，并且找到收入与SJA相匹配的DSIC拍卖gydF4y2Ba米gydF4y2Ba= 7、8、9和10项。仔细观察发现，RochetNet学习到的分配和支付规则基本上与Giannakopoulos和Koutsoupias预测的一致gydF4y2Ba^10gydF4y2Ba对所有gydF4y2Ba米gydF4y2Ba≤10。我们将此作为Giannakopoulos和Koutsoupias猜想的有力补充证据gydF4y2Ba^10gydF4y2Ba是正确的。gydF4y2Ba

f5.jpggydF4y2Ba
图5。用Giannakopoulos和Koutsoupias的递归公式计算直套拍卖(SJA)的收益gydF4y2Ba^10gydF4y2Ba以及RochetNet了解到的针对不同数量物品的拍卖gydF4y2Bam。gydF4y2Ba已知SJA对最多6个项目是最优的，并且推测对任何数量的项目都是最优的。gydF4y2Ba

6.5.发现新的最佳设计gydF4y2Ba

RochetNet也可以用来帮助发现新的、可证明的最佳设计。为此，我们考虑一个单一的投标人，对两个项目具有相加但相关的估值如下:gydF4y2Ba

一个附加的投标人和两个项目，投标人的估值统一从三角形中绘制gydF4y2Ba在哪里gydF4y2BacgydF4y2Ba> 0为自由参数。gydF4y2Ba

对于这种情况下的最优拍卖设计没有分析结果。我们运行RochetNet得到不同的值gydF4y2BacgydF4y2Ba(例如，0.5,1,3,5)来发现最优拍卖。基于此，我们推测最优机制包含两个菜单项gydF4y2BacgydF4y2Ba≤1，即{(0,0)，0}和gydF4y2Ba cacm6408_af.gifgydF4y2Ba ，以及三个菜单项gydF4y2BacgydF4y2Ba> 1，即{(0,0)，0}，{(1/ .gydF4y2BacgydF4y2Ba， 1)， 4/3}，和{(1,1)，1 +gydF4y2BacgydF4y2Ba/3}，给出每个区域的最优分配和支付。特别是,作为gydF4y2BacgydF4y2Ba从小于或等于1的值到大于1的值的转换，最佳机制从确定性转换为随机化。我们用过对偶理论gydF4y2Ba^5gydF4y2Ba证明该设计的最优性，如定理6.1所示。gydF4y2Ba

定理6.1。gydF4y2Ba对于任何cgydF4y2Ba> 0,gydF4y2Ba假设投标人的估值在集合上是均匀分布的gydF4y2Ba cacm6408_ag.gifgydF4y2Ba ．gydF4y2Ba然后，最优拍卖包含两个菜单项gydF4y2Ba{(0, 0), 0}gydF4y2Ba而且gydF4y2Ba cacm6408_af.gifgydF4y2Ba 当cgydF4y2Ba≤1,gydF4y2Ba还有三个菜单项gydF4y2Ba{(0, 0)， 0}， {(1/ .gydF4y2BacgydF4y2Ba1) 4/3},gydF4y2Ba而且gydF4y2Ba{(1,1), 1 +gydF4y2BacgydF4y2Ba/ 3}gydF4y2Ba否则。gydF4y2Ba

6.6.扩大gydF4y2Ba

我们还考虑设置多达五个投标人和多达十个项目。这比通过DSIC拍卖设计的其他计算方法可以处理的设置要复杂好几个数量级。它也是悔恨网的天然游乐场，因为对于这些设置，没有已知的DSIC机制的可处理的特性。gydF4y2Ba

以下两个设定概括了Manelli和Vincent所考虑的基本设定gydF4y2Ba^15gydF4y2Ba以及詹纳科波洛斯和库特苏皮亚斯gydF4y2Ba^10gydF4y2Ba对多于一个投标者:gydF4y2Ba

三个相加的投标人和十个项目，其中投标人对每个项目的价值独立于统一分布gydF4y2BaUgydF4y2Ba[0,1]。gydF4y2Ba
五个附加投标人和十个项目，其中投标人对每个项目的价值独立于统一分布gydF4y2BaUgydF4y2Ba[0,1]。gydF4y2Ba

这些设置的最佳拍卖方式尚不清楚。然而，在竞标者数量的限制下，为每件物品单独进行Myerson拍卖是最优的。gydF4y2Ba^19gydF4y2Ba对于一个投标人数量较少的政权来说，这提供了一个强有力的基准。我们还将其与通过Myerson拍卖出售大型捆绑包进行比较。gydF4y2Ba

对于设置C，我们显示在gydF4y2Ba图6 (a)gydF4y2Ba在10,000个概要文件的验证样本上学习拍卖的收益和遗憾，通过不同的体系结构获得。在这里,(gydF4y2BaRgydF4y2Ba,gydF4y2BaKgydF4y2Ba)表示具有的体系结构gydF4y2BaRgydF4y2Ba隐藏层和gydF4y2BaKgydF4y2Ba每层节点。对于设置C和设置D，(5,100)体系结构在所有100个节点网络中遗憾度最低。gydF4y2Ba图6 (b)gydF4y2Ba表明，与基线相比，学习拍卖产生了更高的收入，并且很少有遗憾。gydF4y2Ba

图6。(a)在使用不同体系结构的设置C中学习到的拍卖验证集上，悔恨网的收益和遗憾，其中(gydF4y2BaRgydF4y2Ba,gydF4y2BaKgydF4y2Ba)表示gydF4y2BaRgydF4y2Ba隐藏层和gydF4y2BaKgydF4y2Ba每层节点。(b)对于(5,100)体系结构，测试设置C和D的收益和遗憾。gydF4y2Ba

回到顶部gydF4y2Ba

7.结论gydF4y2Ba

研究结果表明，深度学习方法可以用于从已知的拍卖理论中寻找最优设计的接近近似，以帮助发现新的最优设计，并扩大计算方法的最优DSIC拍卖设计。尽管我们的方法可以应用于比通过其他方法优化DSIC设计所能达到的更复杂数量级的设置，但下一步自然是将该方法进一步扩展到行业规模(例如，通过标准化的基准测试套件和网络架构创新)。我们也看到了这个框架在推进经济理论方面的前景，例如支持或驳斥猜想，并作为指导新的经济发现的助手。gydF4y2Ba

更普遍地说，我们相信我们的工作(连同少数当代的工作，如哈特福德等人)，gydF4y2Ba^14gydF4y2Ba汤普森等。gydF4y2Ba^25gydF4y2Ba)打开了由马克思主义辅助的经济理论和实践的大门，我们期待着这一议程将带来的进步。gydF4y2Ba

回到顶部gydF4y2Ba

参考文献gydF4y2Ba

1.Babaioff, M.， Immorlica, N.， Lucier B.， Weinberg, S.M.一个简单的和近似最优的附加购买者机制。在gydF4y2Ba55届会议记录gydF4y2Ba^thgydF4y2BaIEEE计算机科学基础研讨会gydF4y2Ba, 2014, 21 - 30。gydF4y2Ba

2.蔡勇，Daskalakis, C. Weinberg, S.M.多维机制的算法表征。在gydF4y2Ba44人会议记录gydF4y2Ba^thgydF4y2BaACM计算理论研讨会gydF4y2Ba, 2012, 459 - 478。gydF4y2Ba

3.机制设计的复杂性。在gydF4y2Ba十八人会议记录gydF4y2Ba^thgydF4y2Ba人工智能中的不确定性会议gydF4y2Ba, 2002, 103 - 110。gydF4y2Ba

4.库里，m。j。蒋，p。y。,去ldstein, T., Dickerson, J.P. Certifying strategyproof auction network. In34人会议记录gydF4y2Ba^thgydF4y2Ba神经信息处理系统会议gydF4y2Ba(NeurIPS 2020)。gydF4y2Ba

5.C. Daskalakis, Deckelbaum, A. Tzamos, C.通过最优运输的机制设计。在gydF4y2Ba14国会议记录gydF4y2Ba^thgydF4y2BaACM电子商务会议gydF4y2Ba, 2013, 269 - 286。gydF4y2Ba

6.C. Daskalakis, A. Deckelbaum, C. Tzamos, C.多重商品垄断者的强对偶性。gydF4y2Ba费雪gydF4y2Ba， 85(2017)， 735-767。gydF4y2Ba

7.Dütting, P.， Feng, Z.， Narasimhan, H.， Parkes, d.c.， Ravindranath, S.S.通过深度学习优化拍卖。在gydF4y2Ba36人会议记录gydF4y2Ba^thgydF4y2Ba机器学习国际会议gydF4y2Ba, 2019, 1706 - 1715。gydF4y2Ba

8.Dütting, P, Fischer, F.， Jirapinyo, P.， Lai, J.， Lubin, B.， Parkes, D.C.通过基于判别的分类器的支付规则。gydF4y2BaACM反式。经济学。第一版。1gydF4y2Ba， 3(2014)， 5。gydF4y2Ba

9.Feng, Z.， Narasimhan, H.， Parkes, D.C.深度学习的收入最优拍卖预算。在gydF4y2Ba第十七届会议的会议记录gydF4y2Ba^thgydF4y2Ba自主代理和多代理系统国际会议gydF4y2Ba, 2018, 354 - 362。gydF4y2Ba

10.Giannakopoulos, Y.， Koutsoupias, E.均匀分布拍卖的对偶性和最优性。在gydF4y2Ba暹罗j .第一版。gydF4y2Ba， 47(2018)， 121-165。gydF4y2Ba

11.gloria, X.， Bengio, Y.理解训练深度前馈神经网络的困难。在gydF4y2Ba十三届会议的议事录gydF4y2Ba^thgydF4y2Ba人工智能与统计国际会议gydF4y2Ba, 2010年。gydF4y2Ba

12.Golowich, N, Narasimhan, H, Parkes, D.C.。多设施选址机制设计的深度学习。在gydF4y2Ba27国会议记录gydF4y2Ba^thgydF4y2Ba人工智能国际联合会议gydF4y2Ba, 2018, 261 - 267。gydF4y2Ba

13.郭，M, Conitzer, V.计算可行的自动化机构设计:一般方法和案例研究。在gydF4y2Ba二十四人会议记录gydF4y2Ba^thgydF4y2Ba人工智能AAAI会议gydF4y2Ba, 2010年。gydF4y2Ba

14.哈特福德，j.s.，赖特，j.r.，莱顿-布朗，K.深度学习预测人类战略行为。在gydF4y2Ba29人会议记录gydF4y2Ba^thgydF4y2Ba神经信息处理系统会议gydF4y2Ba, 2016, 2424 - 2432。gydF4y2Ba

15.捆绑销售作为多商品垄断者的最优销售机制。gydF4y2Baj .经济学。理论1gydF4y2Ba， 127(2006)， 1-35。gydF4y2Ba

16.Morgenstern, J. Roughgarden, T.近似最优拍卖的伪维数。在gydF4y2Ba28人会议记录gydF4y2Ba^thgydF4y2Ba神经信息处理系统会议gydF4y2Ba, 2015, 136 - 144。gydF4y2Ba

17.最佳拍卖设计。gydF4y2Ba数学。经营管理。Res。gydF4y2Ba， 6(1981)， 58-73。gydF4y2Ba

18.Narasimhan, H, Agarwal, S, Parkes, D.C.通过机器学习进行不花钱的自动化机构设计。在gydF4y2Ba二十五次会议的会议记录gydF4y2Ba^thgydF4y2Ba人工智能国际联合会议gydF4y2Ba, 2016, 433 - 439。gydF4y2Ba

19.信息不完全的多产品垄断者的捆绑决策。gydF4y2Ba费雪2gydF4y2Ba， 51(1983)， 463-483。gydF4y2Ba

20.巴甫洛夫。出售两种商品的最优机制。gydF4y2BaB.E. j .定理。经济学。gydF4y2Ba， 11(2011)， 1-35。gydF4y2Ba

21.Rahme, Jelassi, S.， Bruna, J.， Weinberg, S.M.拍卖设计的置换-等变神经网络体系结构。在gydF4y2Ba35届会议记录gydF4y2Ba^thgydF4y2Ba人工智能AAAI会议gydF4y2Ba(2021)。gydF4y2Ba

22.白色法衣,J.-C。拟线性环境中合理化的充要条件。gydF4y2Baj .数学。经济学。gydF4y2Ba， 16(1987)， 191-200。gydF4y2Ba

23.桑德霍姆，利霍德多夫，收益最大化组合拍卖的自动化设计。gydF4y2Ba③。> 5gydF4y2Ba， 63(2015)， 1000-1025。gydF4y2Ba

24.沈伟，唐鹏，左松。基于神经网络的自动化机构设计。在gydF4y2Ba十八人会议记录gydF4y2Ba^thgydF4y2Ba自主代理和多代理系统国际会议gydF4y2Ba,2019年。即将到来的。gydF4y2Ba

25.D.汤普森，N.纽曼，K.莱顿-布朗。正电子经济学家:分析经济机制的计算系统。在gydF4y2Ba31人的议事录gydF4y2Ba^圣gydF4y2Ba人工智能AAAI会议gydF4y2Ba, 2017, 720 - 727。gydF4y2Ba

26.反投机、拍卖和竞争性密封投标。gydF4y2Baj .金融gydF4y2Ba， 16(1961)， 8-37。gydF4y2Ba

回到顶部gydF4y2Ba

作者gydF4y2Ba

保罗dutgydF4y2Ba（gydF4y2Baduetting@google.comgydF4y2Ba，谷歌Research, Zürich，瑞士。gydF4y2Ba

哲冯gydF4y2Ba（gydF4y2Bazhe_feng@g.harvard.edugydF4y2Ba)，哈佛大学工程与应用科学学院，美国剑桥。这项工作部分由谷歌博士奖学金支持。gydF4y2Ba

Harikrishna纳史木汗gydF4y2Ba（gydF4y2Bahnarasimhan@google.comgydF4y2Ba)，谷歌研究，山景城，加利福尼亚州，美国。gydF4y2Ba

David c . ParkesgydF4y2Ba（gydF4y2Baparkes@eecs.harvard.edugydF4y2Ba)，美国哈佛大学MA。这项工作部分由国家科学基金会CCF-1841550奖支持。gydF4y2Ba

赛s RavindranathgydF4y2Ba（gydF4y2Basaisr@g.harvard.edugydF4y2Ba)，哈佛大学工程与应用科学学院，美国剑桥MA。gydF4y2Ba

回到顶部gydF4y2Ba

脚注gydF4y2Ba

摘要的扩充发表在gydF4y2Ba36人会议记录gydF4y2Ba^thgydF4y2Ba2019年国际机器学习会议。gydF4y2Ba这篇论文的完整版本可在以下网站获得gydF4y2Bahttps://arxiv.org/abs/1706.03459gydF4y2Ba．所有的代码都可以通过GitHub仓库在gydF4y2Bahttps://github.com/saisrivatsan/deep-opt-auctionsgydF4y2Ba．gydF4y2Ba

版权由作者/所有者持有。授权ACM出版权利。gydF4y2Ba
请求发布的权限gydF4y2Bapermissions@acm.orggydF4y2Ba

没有发现记录gydF4y2Ba

通过深度学习实现最优拍卖gydF4y2Ba

1.简介gydF4y2Ba

2.最优拍卖设计gydF4y2Ba

3.学习问题gydF4y2Ba

4.Rochetnet框架gydF4y2Ba

5.Regretnet框架gydF4y2Ba

6.实验gydF4y2Ba

7.结论gydF4y2Ba

参考文献gydF4y2Ba

作者gydF4y2Ba

脚注gydF4y2Ba

文章内容:gydF4y2Ba

YouTube更有可能向怀疑2020年大选的用户提供选举欺诈视频gydF4y2Ba

反思硅谷:斯图尔特·布兰德的《遗失的日记》gydF4y2Ba

innovatfpga:错误的策略导致最好的FPGA开发竞赛之一陷入危机gydF4y2Ba