霍尼亚拉

注册

 

发新话题 回复该主题

宅家学习上海交通大学自动化系黄晓霖副 [复制链接]

1#
CAA

智慧起航,共创未来

导读

年6月17日,上海交通大学自动化系黄晓霖副教授做客“CAA云讲座——智能健康与生物信息专题论坛”,为大家带来了精彩报告——机器学习稳健性研究及在医学影像处理中的应用。报告中指出,稳健性是机器学习研究的重要方面,也是在实际中能否成功应用机器学习的重要因素。通过分析机器学习方法在测量有噪声、标签有噪声情况下的响应,有助于设计稳健的机器学习方法。针对神经网络的生成对抗攻击及其防御也是近年来讨论和研究的热点。黄晓霖副教授在报告中就分位数稳健性、稳健目标函数设计、正则化项的作用、对抗生成攻击等进行了探讨,并介绍稳健机器学习方法在医学影像分析中的应用。

1、

稳健机器学习方法

机器学习数据的整个流程是:存在一个未知的分布ρ×Y,可以对该分布进行采样,再对采样后的数据进行训练得到回归器的函数,该过程的期望有了新数据作为输入后可以通过回归器函数得到尽可能接近正确值的输出。如图1所示。

图1机器学习的流程

但是在上述过程中可能会存在噪声,从而影响到最终结果的正确性。例如标签中的噪声有标注错误、传输错误等等;测量采样中的噪声有测量中的噪声或偏差;新数据中的噪声有新数据额测量噪声和分布漂移等。

从机器学习的机理上讲,如图2所示,虽然机器学习的方法和算法层出不穷,但神经网络或者机器学习的本质没有改变,仍然是在数据上进行逼近问题或者说在对数据进行曲线拟合。这其中可能也存在一些反逻辑的问题和噪声。原有的机器学习框架是设定机器学习的学习目标,存在一定的先验知识和候选函数集,在候选函数集中选择合适的求解算法。近几年机器学习方法的变化就是候选函数集变成了以神经网络为代表的深度模型。但由于机器学习的整个过程没有本质变化,依然需要认真考虑噪声问题。利用稳健罚函数,降低或排除野值的影响,或者利用先验知识,识别野值,降低其影响。在某种程度上,知识图谱的引导以及迁移学习方法都可以视为利用先验知识进行更好更精确的建模的过程。

图2机器学习机理

Correntropy-inducedLoss方法介绍

如图3所示,对Correntropy-inducedLoss的讨论可以从最小二乘方法开始。如果没有噪声,极小化二次罚函数(即最小二乘)的回归效果非常好。但如果存在野值,就会把曲线拉歪,其原因是平方误差对野值

分享 转发
TOP
发新话题 回复该主题