<small id='4nZv1gB'></small> <noframes id='QA5ULeO'>

  • <tfoot id='5iJshQP'></tfoot>

      <legend id='dZcELa'><style id='zsnjAOyN'><dir id='2hKqC'><q id='JnZUkGFgdo'></q></dir></style></legend>
      <i id='xqhNciL'><tr id='uBgcSqJ'><dt id='mswkjL0c'><q id='RmYC5xkwSU'><span id='gBGrFDHLm'><b id='vPBLm'><form id='sDPwc'><ins id='DCT4qoM'></ins><ul id='JoYXu8FNiP'></ul><sub id='hOZDu1'></sub></form><legend id='sSrK'></legend><bdo id='o0gAIKlhrb'><pre id='q3Q2'><center id='fiROx8J'></center></pre></bdo></b><th id='iSzPQMItE'></th></span></q></dt></tr></i><div id='4AKo'><tfoot id='tyA9g'></tfoot><dl id='3kUHO'><fieldset id='pcA3'></fieldset></dl></div>

          <bdo id='KaU0fno'></bdo><ul id='bpwk'></ul>

          1. <li id='nGJYVNj'></li>
            登陆

            章鱼网竟彩足球推荐-多精度:分类公平性的黑盒后处理

            admin 2019-11-05 240人围观 ,发现0个评论

            1 摘要

            机器学习猜测器已成功布置在从疾病确诊,信誉评分猜测到图画辨认的各种运用中。虽然全体精确性很高,但猜测也一般会发生体系性差错,然后危害特定的人群,特别是关于练习数据中少数集体的子群。咱们开发了一个严厉的多原则审计和后处理结构,以进步可辨认子集体的猜测精确性。咱们的算法MULTIACCURACY BOOST适用于咱们以黑盒办法拜访猜测器以及用于审计的数据集相对较小的布景。咱们证明了算法必定收敛,并证明它进步了每一步的全体精度。重要的是,假如初始模型在可辨认的子群上是精确的,那么后处理的模型也将是。咱们证明了这种办法在图画分类,金融和人口健康方面的多种运用的有用性。即便在算法不知道灵敏特征(例如种族,性别)时,MULTIACCURACY BOOST也能够改善子集体的精确性(例如关于“黑人女人”)。

            2 导言

            虽然机器学习在触及对人进行猜测的杂乱使命中取得了成功,但越来越多的依据标明,“最先进的”模型在少数人群中的体现要显着低于大大都人群。事实上,一项名为“性别暗影”项目针对三个商业人脸辨认体系的闻名研讨标明,在分类使命中,不同人群之间存在显着的功率距离。虽然一切体系在一个盛行的基准测验中在性别检测上达到了大约90%的精确度,但细心研讨发现,与男性比较,女人受试者精确度低,深色皮肤受试者的体系精确度显着低于淡色皮肤受试者。更糟糕的是,当将深色皮肤的女人与浅肤色男性进行比较时,这些组之间的分类精确度差异高达34%!

            处理这一严重问题的一种办法是更新练习数据的散布以反映人员的散布状况,确保在练习数据中充沛代表曾经代表性缺乏的人群。虽然这种办法或许被视为终究方针,但往往出于前史和社会原因,某些少数民族人口的数据比大大都人口的数据要少。特别是,咱们或许无法当即从这些代表性缺乏的集体取得满意的数据来练习杂乱的模型。别的,即便有满意的代表性数据可用,该进程也需求从头练习根底猜测模型。在将学习模型作为服务供给的布景中,如商业图画辨认体系,或许没有满意的动力(经济,社会等)使服务供给商从头练习模型。虽然如此,模型的用户或许期望进步整个集体中猜测成果的精确性,即便他们不了解猜测体系的内部作业状况。

            在高层次上,咱们的作业重点在这样一个布景下,这在实践中是常见的,但与其他许多关于分类公正性的文献不同。咱们对分类器f0进行黑盒拜访,以及从一些代表性散布D中抽取的符号样本的相对较小的“验证集”;咱们的方针是检查f0,以确认猜测器是否满意子群公正性和多精度的概念。多精度要求猜测公正,不仅仅是全体的,而是在每个可辨认的子集体上。假如检查显现猜测器不满意多精度,咱们的方针是对f0进行后处理,以发生一个多精度的新分类器f,但不会对f0现已精确猜测的子集体发生晦气影响。多精度检查不对原始分类器做出假定;特别是,它能够处理无意和歹意的轻视。

            咱们的奉献。 咱们为多精度开发了检查和后处理猜测模型的结构。咱们描绘了一种新算法MULTIACCURACY BOOST,其间一个简略的学习算法——检查员 ——用于辨认f0体系偏置的子群。然后,该信息用于迭代地后处理f0,直到满意多精度条件——每个可辨认子群中的无偏猜测。咱们的多精度概念不同于依据相等的公正概念,在性别检测等环境中是合理的,咱们期望进步分类器在子群中的精确性。咱们证明了MULTIACCURACY BOOST的收敛性,并标明多精度的后处理实践上能够进步全体分类精确性。咱们在第3节中描绘了后处理算法。

            依据经历,咱们在依据“性别暗影”的试验事例研讨中验证MULTIACCURACY BOOST。咱们练习初始猜测模型,完成杰出的全体分类差错,但体现出对少数集体的差错。在处理之后,这些少数集体的精确度得到了进步,虽然后处理算法没有清晰地将少数集体状况作为特征,但只需检查会集的特征与章鱼网竟彩足球推荐-多精度:分类公平性的黑盒后处理(未观察到的)人类类别相相关,则MULTIACCURACY BOOST可有用进步这些类别的分类精确性。

            正如理论所主张的那样,经过确认初始模型中犯错的子集体,施行多精度进步了全体精确性;此外,后处理不会显着影响现已有很高精确率集体的体现。咱们证明了MULTIACCURACY BOOST只能将f0作为一个黑盒子进行拜访,它有时乃至比具有f0悉数拜访权限的白盒更好。咱们还证明,检查进程或许有助于了解猜测模型犯错的原因。详细而言,多精度检查员可用于生成使猜测器显着过错的输入示例。

            3 设置和多精度

            高档设置。设X标明输入空间;令y:X→{0,1}是将输入映射到其标签的函数。设D代表X满意的的验证集数据散布;散布D能够被视为“实在”散布,咱们将在其上评价终究模型的精确性。特别地,咱们假定重要的子集体在D上充沛标明。咱们的后处理学习器接纳符号验证数据{(x,y(x))}的小样本作为输入,其间x

            D,以及黑盒拜访初始猜测模型f0:X→[0,1]。方针是输出满意多精度公正条件的新模型(对f0的调用)(如下所述)。

            重要的是,咱们对f0没有进一步的假定。一般,咱们会将f0视为学习算法的输出,在一些其他散布D0上练习(X也满意);在这种状况下,咱们的方针是减轻任何无意中学到的差错。也就是说,另一个重要的设定是假定f0被挑选用于对立对受维护的集体的轻视,一起使全体看起来精确和公正;在这里,咱们的方针是维护子群免受歹意过错分类。多精度为避免这两种轻视供给了有意义的维护。

            附加概念。关于子集S⊆X,咱们运用x~S来标明来自D的样本以S中的从属联络。假如x∈S则将S的特征函数取为S(x)= 1,不然为0。关于假定f:X→[0,1],咱们标明f相关于子集S⊆X的分类差错为erS(f; y)= Prx〜S [

            ],其间

            将f(x)舍入为{0,1}。关于函数z:X→[-1,1]和子集S⊆X,令zS是对S的约束,其间假如x∈S则zS(x)= z(x),不然zS(x)= 0。

            多精度。多精确度的方针是完成低分类差错,不仅在X全体上,而且在X的子集体上。该方针在以下界说中办法化。

            多精确度界说。设≥0,C⊆[-1,1]X为X上的一类函数。f:X→[0,1]是(C,)-多精度的,假如关于一切的c∈C:

            (C,)-多精度确保假定依据C界说的一类计算查验体现无偏。例如,咱们能够用子集S⊆X的调集来界说类,将C取为S(关于调会集的每个子集,它都是负的;在这种状况下,(C,)——多精度确保关于每个S,f的猜测最多是偏置的。

            抱负状况下,咱们期望将C作为一切计算测验的一类。但是,要求关于这样的章鱼网竟彩足球推荐-多精度:分类公平性的黑盒后处理C的多精度,需求精确地学习函数y(x),这在理论上是不或许从小样本中取得的。在实践中,假如咱们将C视为可学习的函数类,则(C,)-多精度确保了一切有用可辨认子集体的精确性。

            例如,假如咱们将C作为深度为4的决策树类,那么多精度确保了无偏性,不仅仅是对种族和性别所界说的边际种群,仍是种族、性别和种族组合所界说的亚集体。特别是,多精度维护的子集体能够堆叠而且包括超出传统维护集体规模的集体。

            检查多精度。跟着(C,)多精度界说的完善,一个天然要问的问题是怎么查验假定f是否满意界说;此外,假如f不满意(C,)-多精度,咱们能否有用地更新f以满意界说,一起坚持全体精度?咱们将运用学习算法A来检查分类器f的多精度。算法A从D接纳小样本而且旨在学习与剩余函数f-y相关的函数h。在第3节中,咱们描绘了怎么运用这样的审计来处理后处理问题。子群公正性和学习之间的这种联络也在中进行,虽然是针对不同的使命。

            为了完成(C,)-多精度,咱们能够运用一种循环学习算法进行检查,该算法迭代计算测验c∈C。给定一个有用学习C类的算法A,咱们能够加速审计进程;例如,假如咱们将C作为线性测验的类,咱们能够运用有用的线性回归算法进行检查。详细而言,在咱们的试验中,咱们运用脊回归和决策树回归进行审计;两个办法都能有用辨认模型体现欠安的子集体。

            多精度的分类精确性。多精度确保了分类器的猜测在丰厚的子集体上是无偏的;抱负状况下,咱们会在分类精确性方面声明一个确保,而不仅仅是差错。直观地说,当咱们用C来界说更丰厚的测验类时,多精度的确保就变得更强。这种直觉在以下出题中办法化。

            也就是说,假如C中有一个函数与一个重要的子集体S上的标签函数有强的相关,那么多精度就转化为对该子集体分类精度的确保。

            数据散布谈论。请注意,界说多精度时,咱们对验证集的散布D取期望。抱负状况下,D应反映实在的人口散布,添加受过轻视的人口的代表性;例如,出题1的分类过错跟着受维护的子群S的密度增大而改善。例如,在咱们关于性别检测的事例研讨中,咱们对很多不平衡数据集进行练习,然后运用为性别暗影研讨搜集的平衡多样性数据集进行评定。

            4 多精度的后处理

            在这里,咱们描绘了一种算法MULTIACCURACY BOOST,用于对预练习模型进行后处理以完成多精度。该算法被答应黑盒拜访初始假定f0:X→[0,1]和由C学习出的学习算法A:(X[-1,1])m→[-1,1]X,而且关于任何精度参数> 0,输出f:X→[0,1],即(C,)-多精度。后处理算法是类似于增强的迭代进程,其运用乘法权重结构来改善由检查者辨认的次佳猜测。这种办法类似于在公正性和伪随机布景下给出的算法。重要的是,咱们调整这些算法,以便MULTIACCURACY BOOST展现咱们所谓的“无害”确保;假如f0在由A标识的某个子群S⊆X上具有低分类差错,则S上发生的分类差错不会显着添加。从这个意义上牟平贾富林说,完成咱们不一定会对分类器的功效发生晦气影响。

            在高档别,MULTIACCURACY BOOST首先将依据初始分类器f0的输入空间X区分为X0 = {x∈X:f0(x)≤1/ 2}而且X1 = {x∈X:f0(x)>1/2};请注意,咱们只需调用f0即可对X进行分区。依据f0的猜测对查找空间X进行分区有助于确保输出的f坚持f0的初始精度;特别是,它答应咱们仅查找带有正面符号的示例来改善分类器。在区分输入空间之后,该进程迭代地运用学习算法A来查找X(而且在分区X0,X1内)以找到与猜测f-y中的当时残差显着相关的函数。假如A成功回来某个函数h:X→[-1,1],其标志当时假定不精确的重要子群,则算法依据h更新猜测。为了一起更新一切x∈X的猜测,在第t次迭代时,咱们经过将ht合并到从前的模型ft中来构建ft + 1。

            一算法关键是学习一个多精度的猜测器,而不会过度拟合验证集的小样本。理论上,咱们证明了样本杂乱度的边界,这是确保作为C类函数的杰出泛化所必需的,差错参数和咱们期望维护的子集体的巨细的函数。为了确保杰出的泛化,咱们假定A每次迭代运用一个新的样本Dt~Dm。在实践中,当咱们的样本很少时,咱们能够将一切样本放在一个批次中并经过添加噪声来削减过度拟合。在实践中,咱们需求平衡C的挑选和算法的迭代次数,以确保审计发实际在的特征,而不是验证数据中的噪声。实践上,假如检查算法A学会了满意表达的功用,那么咱们的算法将在某个时间开端过度拟合;咱们凭经历证明多精度后处理在过度拟合之前改善了泛化差错。


            从中止条件能够清楚地看出,当算法停止时,fT将是(C,)-多精度的。因而,在MULTIACCURACY BOOST停止之前,依然需求约束迭代次数T.别的,如上所述,算法评价Ex~D [h(x)(f(x)-y(x))]等计算量,咱们能够从一个小样本中精确有用地估量。

            无害。从MULTIACCURACY BOOST展现的“无害”特点中清楚地标明咱们的办法与以往大大都关于公正性的作业之间的差异,正式界说为定理2。简而言之,特点确保在A检查的任何子群S ⊆X上,分类差错不能从f0到后处理分类器显着添加。正如咱们假定A能够辨认十分丰厚的堆叠集类,总的来说,此特点为成果猜测变量的功效供给了强有力的确保。此外,定理2的证明标明,这种最坏状况的边界是十分失望的,而且能够经过更强的假定来改善。因而,假如咱们运用算法1对现已在验证散布上完成高精度的模型进行后处理,则得到的模型的精确性不该该以显着的办法恶化;依据经历,咱们观察到在多精度后处理之后,分类精度(在坚持测验集上)趋于改善。


            5 事例研讨:性别检测

            咱们的方针是仿制性别暗影研讨的条件以测验多精度审计和后处理对这个重要的实践比如的有用性.2关于咱们的初始模型,咱们练习一个运用CelebA数据集的resnet-v1性别分类模型,其间包括超越200,000张面部图画。CelebA对二元性别分类的测验成果精确率为98.4%。虽然这个f0的全体精确度很高,但与男性比较,女人的过错率要差得多,而与非黑人比较,黑人的过错率更差;这些成果十分类似于商业性别检测体系所观察到的成果。

            咱们运用PPB数据集运用在MULTIACCURACY BOOST,该数据集在性别和种族方面具有均衡的体现。详细来说,咱们运用脊回归进行检查咱们运用Facenet库在CelebA数据集上练习的变分主动编码器(VAE),而不是审阅原始输入像素。PPB数据集十分小;因而,这个试验能够被视为一个压力测验,以评价咱们的后处理技能的数据功率。测验集有415个人,检查集的巨细为855。PPB将每个面注释为暗(D)或浅肤色(L)。

            除了评价多精度办法的有用性之外,咱们还将咱们的后处理成果与强壮的白盒基线进行比较。在这里,咱们运用检查集从头练习f0的网络。详细来说,咱们从头练习网络的最终两层,这在再练习办法中发生了最佳的效果。咱们着重,这个基线需求白盒拜访f0,而检查员是“盲目的” - 没有清晰给出种族或性别,而且对f0的内部运作一窍不通。

            表1:PPB性别分类的成果D标明数据散布中每个集体的人口百分比;f0标明初始猜测值的分类差错(%);MA标明运用MULTIACCURACY BOOST进行后处理后模型的分类差错(%);RT标明在D上从头练习后模章鱼网竟彩足球推荐-多精度:分类公平性的黑盒后处理型的分类差错(%)。

            咱们评价了每个子群上初始f0、多精度后处理分章鱼网竟彩足球推荐-多精度:分类公平性的黑盒后处理类器和再练习分类器的测验精度。MULTIACCURACY BOOST在5次迭代中收敛,而且大大削减了子集体之间的差错。咱们陈述了全体分类精确度和不同子组的精确度。咱们陈述了表1中每个子组的全体百分比(D),初始模型的精确度,咱们的黑盒后处理模型和白盒基准 ——例如DF标明深色皮肤的女人。特别是,咱们着重DF和LM的子集体;DF的分类差错显着改善,但不会显着危害LM的精确性。

            多精度审计确诊。咱们现已证明,对不平衡数据进行练习的模型或许对少数民族集体体现出显着的成见。例如,黑人女人的初始分类过错很显着,而在白人男性,它挨近0%。重要的是,咱们能够陈述这些精确性差异的仅有办法是检查包括性别和种族标签的数据集。一般,这种人口计算信息无法取得;实践上,CelebA图画没有符号种族信息,因而,咱们无法评价此调集上的子集体分类精确性。因而,开发者或许面对一个问题:即便他们知道他们的模型正在犯下不良过错,也或许不清楚这些过错是否会集在特定的亚人群上。假如没有对模型体现欠安的子集体进行辨认,则搜集额定的练习数据实践上或许无法全面进步全体功能。

            咱们证明,多精度审计能够作为一种有用的确诊和解说东西,协章鱼网竟彩足球推荐-多精度:分类公平性的黑盒后处理助开发人员辨认模型中的体系差错。这个主意很简略:检查回来一个假定h,它基本上经过f0(x)猜测成果的过错来“评分”各个输入x。假如咱们考虑其得分|h(x)|的巨细,那么咱们能够更好地了解编码器发现的差错。咱们在PPB数据集上测验这个主意,用检查回来的假定评价测验图画。

            在图1中,咱们依据审计员回来的榜首个和第二个假定,在测验会集显现最高和最低效果(|h(x)|大而且|h(x)|≈0)的图画。在榜首轮审阅中,三个得分最高的图画(顶行)都是女人,黑人和白人。最不活泼的图画(第二行)是穿戴西装的男人,这标明依据原始分类器f0,西装或许是一个高度猜测的特征。全体而言,榜首轮审计好像将性别确认为f0中的差错轴。在第二轮中,在分类器经过MULTIACCURACY BOOST的一步改善之后,审计好像把“黑皮肤的女人”子集体作为成见的区域。


            图1:解说审计PPB测验审计检测到的榜首(第1-2行)和第二(第3-4行)轮审阅的最大和最小差错

            6 定论

            在这项作业中,咱们提出多精度结构用于进步黑盒猜测体系的公正性。多精度结构运用广泛;重要的是,仅对f0进行黑盒拜访和一小组符号的验证数据,咱们就能够对任何初始模型f0进行后期处理。咱们展现了在实际环境中多精度的后处理有助于减轻灵敏子群中猜测变量的体系差错,即便这些子集体的符号没有被清晰地检查。在咱们的试验中,咱们观察到规范监督学习对全体进行了优化,导致某些子集体的过错率显着下降。多精度经过进步可辨认子群的精确性,为分类的公正性供给了一个结构,不会在精确性和实用性之间权衡。咱们在理论和实践上证明,后处理能够作为进步重要子集体精确性的有用东西,而且不会对现已分类杰出的人群形成危害。

            多精度作业是使检查员能够辨认原始分类器f0简单犯错的特定子组。多精度的效果在于,在许多环境中,咱们能够从少数检查数据中辨认f0的问题。多精度审计是有限的:假如过错关于检查员来说过于杂乱,那么审计员将无法辨认这些过错。咱们的实证成果标明,分类器过错的子集体能够有用辨认。特别地,咱们的试验进步了在CelebA上对PPB测验集进行练习的模型的精确性,这提出了一种轻量级的黑盒代替了更杂乱的搬运学习技能,这或许值得进一步研讨。

            7 引证

            Kim, Michael P. et al. “Multiaccuracy: Black-Box Post-Processing for Fairness in Classification.” AIES (2018).

            称谢

            本文由南京大学软件工程系2019硕士生李卓阳翻译转述。

            感谢国家天然科学基金项目(重点项目)智能软件体系的数据驱动测验办法与技能(61932012)赞助

            请关注微信公众号
            微信二维码
            不容错过
            Powered By Z-BlogPHP