原标题:超好用的自信学习:1行代码查找标签错误,3行代码学习噪声标签
十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI
你知道吗?就连ImageNet中也可能至少存在10万个标签问题。
在大量的数据集中去描述或查找标签错误本身就是挑战性超高的任务,多少英雄豪杰为之头痛不已。
最近,MIT和谷歌的研究人员便提出了一种广义的自信学习(Confident Learning,CL)方法,可以直接估计给定标签和未知标签之间的联合分布。
这种广义的CL,也是一个开源的Clean Lab Python包,在ImageNet和CIFAR上的性能比其他前沿技术高出30%。
这种方法有多厉害?举个栗子。
上图是2012年ILSVRC ImageNet训练集中使用自信学习发现的标签错误示例。研究人员将CL发现的问题分为三类:
1、蓝色:图像中有多个标签;
2、绿色:数据集中应该包含一个类;
3、红色:标签错误。
通过自信学习,就可以在任何数据集中使用合适的模型来发现标签错误。下图是其他三个常见数据集中的例子。
△目前存在于Amazon Reviews、MNIST和Quickdraw数据集中的标签错误的例子,这些数据集使用自信学习来识别不同的数据模式和模型。
这么好的方法,还不速来尝鲜?
什么是自信学习?
自信学习已然成为监督学习的一个子领域。
从上图不难看出,CL需要2个输入:
1、样本外预测概率;
2、噪声标签;
对于弱监督而言,CL包括三个步骤:
1、估计给定的、有噪声的标签和潜在的(未知的)未损坏标签的联合分布,这样就可以充分描述类条件标签噪声;
2、查找并删除带有标签问题的噪声(noisy)示例;
3、进行消除错误的训练,然后根据估计的潜在先验重新加权示例。
那么CL的工作原理又是什么呢?
我们假设有一个数据集包含狗、狐狸和奶牛的图像。CL的工作原理就是估计噪声标签和真实标签的联合分布(下图中右侧的Q矩阵)。
△左:自信计数的示例;右:三类数据集的噪声标签和真实标签的联合分布示例。
接下来,CL计数了100张被标记为“狗”的图像,这些图像就很可能是“狗”类(class dog),如上图左侧的C矩阵所示。
CL还计数了56张标记为狗,但高概率属于狐狸的图像,以及32张标记为狗,但高概率属于奶牛的图像。
而后的中心思想就是,当一个样本的预测概率大于每个类的阈值时,我们就可以自信地认为这个样本是属于这个阈值的类。
此外,每个类的阈值是该类中样本的平均预测概率。
轻松上手Clean Lab
刚才也提到,本文所说的广义CL,其实是一个Clean Lab Python包。而它之所以叫Clean Lab,是因为它能“clean”标签。
Clean Lab具有以下优势:
速度快:单次、非迭代、并行算法(例如,不到1秒的时间就可以查找ImageNet中的标签错误);
鲁棒性:风险最小化保证,包括不完全概率估计;
通用性:适用于任何概率分类器,包括 PyTorch、Tensorflow、MxNet、Caffe2、scikit-learn等;
独特性:唯一用于带有噪声标签或查找任何数据集/分类器标签错误的多类学习的软件包。
1行代码就查找标签错误!
# Compute psx (n x m matrix of predicted probabilities) on your own, with any classifier.
# Be sure you compute probs in a holdout/out-of-sample manner (e.g. cross-validation)
# Now getting label errors is trivial with cleanlab... its one line of code.
# Label errors are ordered by likelihood of being an error. First index is most likely error.
fromcleanlab.pruning importget_noise_indices
ordered_label_errors = get_noise_indices(
s = numpy_array_of_noisy_labels,
psx = numpy_array_of_predicted_probabilities,
sorted_index_method= 'normalized_margin', # Orders label errors
)
3行代码学习噪声标签!
fromcleanlab.classification importLearningWithNoisyLabels
fromsklearn.linear_model importLogisticRegression
# Wrap around any classifier. Yup, you can use sklearn/pyTorch/Tensorflow/FastText/etc.
lnl = LearningWithNoisyLabels(clf=LogisticRegression)
lnl.fit(X = X_train_data, s = train_noisy_labels)
# Estimate the predictions you would have gotten by training with *no* label errors.
predicted_test_labels = lnl.predict(X_test)
接下来,是Clean Lab在MNIST上表现。可以在这个数据集上自动识别50个标签错误。
原始MNIST训练数据集的标签错误使用rankpruning算法进行识别。描述24个最不自信的标签,从左到右依次排列,自顶向下增加自信(属于给定标签的概率),在teal中表示为conf。预测概率最大的标签是绿色的。明显的错误用红色表示。
传送门
项目地址:
https://github.com/cgnorthcutt/cleanlab/
自信学习博客:
https://l7.curtisnorthcutt.com/confident-learning
Reddit讨论:
https://www.reddit.com/r/MachineLearning/comments/drhtkl/r_announcing_confident_learning_finding_and/
— 完—
问卷福利!人工智能行业白皮书即将发布
量子位&IDC中国将联合发布「2019中国人工智能行业白皮书」,并于12月6日MEET大会重磅发布,特请小伙伴们填写一下问卷,谢谢大家支持~
填写福利:发布后第一时间获得白皮书,AI内参、大会观众票3折优惠券。 点击下图即可填写问卷、领取问卷福利:
榜单征集!三大奖项,锁定AI Top玩家
2019中国人工智能年度评选启幕,将评选领航企业、商业突破人物、最具创新力产品3大奖项,并于MEET 2020大会揭榜,欢迎优秀的AI公司扫码报名!
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !游戏网
相关下载 |
原标题:Facebook开放人脸识别功能,取消“标签建议”功能 PingWest品玩9月4日讯,Facebook周二表示,该公司的人脸识别技术现将面向所有用户开放,但用户可详情>>
不管是你做营销,还是你管理自己的客户。个人微信中的标签是一个不错的小工具,这篇经验给大家仔细的分享下,个人微信中标签的用法(如果不是最新版本,最好升级为最新的微信6.0)。攻详情>>
原标题:吃鸡开挂成国内玩家的标签?这个国家的人连氪金手游都开挂! 哈喽大家好,这里是游戏日报二愣子。众所周知 详情>>
Game234问答中心有网友提出了一个比较有代表性的问题【前端面试题,a标签有哪些属性,a标签怎么做当前页...】,小编觉得可能对其他网友也有帮助,所以将此问答整理出来了,希望对您有帮助。小编为您搜罗详情>>
王者荣耀干将莫邪将推出两款全新皮肤,其中一款在今日正式官宣背景故事,冰霜恋舞曲会在近期上线正式服。值得留意的是,这款新皮肤给了一个限定标签,该皮肤预计定位史诗品质,首周折扣710点券,应该是冰雪节限定详情>>
大话西游手游空间标签怎么玩呢,在大话西游手游第二部资料片出现之后,空间上面就多了一个全新的内容了,那就是空间标签了,空间标签怎么玩呢,一起看下。空间标签:.xp6a65nmkuut4v详情>>
小编为您搜罗的答案:鹭源条码技术人员解答:设置标签纸的大小、打印速率以及打印的浓度的步骤如下:(1)点击“开始”-“打印机和传真”,进入后就可以看见打印机的图标了。(2)右击图标选择“打印首选项”,进详情>>
小编为您搜罗的答案:拉格瑞葡萄酒(中国)回答您:首先从国外瓶装酒是否有标签说起。在国外有些酒有标,有的除了英,其它国家语言的标也有;也有的没有标。但凡到了国内酒瓶必须贴上中文标,这是中国海关要求的。如详情>>
小编为您搜罗的答案:采纳哦详情>>
小编为您搜罗的答案:检查碳带和纸张安装有没有问题,标签纸的固定是否有松动,如一切正常,关掉打印机,按住FEED键打开电源,等待指示灯连续闪烁4次后松开按钮,机器会自动测纸,完成后关闭电源,在重新开启就详情>>
据说有很多小伙伴小伙伴都不知道模拟山羊学校如何给模版贴上标签,今天小编为大家带来模拟山羊学校地图第一个任务涂鸦的通过方法,不会的人赶快学学吧。 模拟山羊学校给 详情>>
小编为您搜罗的答案:芭比珍藏版根据产量不同分为粉红标签(不限量生产、入门级珍藏版)、银标签(全世界限量生产50000个以内)、金标签(限量25000个以内)、白金标签(限量1000个以内);黑标签是0详情>>
小编为您搜罗的答案:没必要写全地址吧,除非你有什么特殊需求。<br/>一般用虚拟路径就好了。<br/>比如ip为127.0.0.1,网站目录下有个index.html,还有详情>>
小编为您搜罗的答案:间距的css是line-height,值可以给像素值,也可以给百分比,你根据需要调<br>或者你也可以改h5,h6,就会自己变小了详情>>
标签:皮肤大全、背饰堡垒之夜手游标签袋怎么获得?标签袋(TagBag)多少钱?在堡垒之夜手游中,背饰分为3个等级:稀有(蓝色)、史诗(紫色)和传奇(橙色),下面就让我们看看标签袋的基础详情>>
《环世界》a17数据标签MOD补丁类型:游戏MOD补丁语言:简体中文更新时间:2017/09/0515:49:29补丁大小:2.7MB游戏标签:模拟策略开放世界相关补丁专题:环世界MO详情>>
通过天下三草精标签任务可以获得威猛标签装置,使用之后还可以获得经验奖励,是具有一定实用功能的小玩具,小编下面就给大家带来这个道具的获得方法: 任务时间:6月26日——7月9日期间全天可做任务 详情>>
游戏饥饿的鲨鱼进化(HungrySharkEvolution)作为一款暴力又有可玩性的游戏来说,着实受到了不少玩家的喜爱,包括让鲨鱼穿上道具的创意也是让小编不得不醉。那么到底这些道具怎么获得、怎么详情>>
通过天下三草精标签任务可以获得威猛标签装置,使用之后还可以获得经验奖励,是具有一定实用功能的小玩具,小编下面就给大家带来这个道具的获得方法: 任务时间:6月26日——7月9日期间全天可做任务 详情>>