• QQ空间
  • 回复
  • 收藏

【人工智能】大话“人工智能、数据科学、机器学习”–综述 ... ... ...

张咏 科技金融 2020-3-31 08:22 238613人围观



机器学习按学习方法的分类:

监督学习(Supervised Learning,如深度学习),

无监督学习(Un-supervised Learning,如聚类),

半监督学习(Semi-supervised Learning),

增强学习(Reinforced Learning)。

这里不从晦涩的定义上深入展开,举俩个例子或许效果更好。

邮件分类的例子:

邮件管理器中的垃圾邮件和非垃圾邮件的分类,就是一个典型的机器学习的分类问题。这是一个有监督的学习问题(Supervised Learning),什么叫有监督呢?计算机是在你的监督(标记)下进行学习的。简单地说,新来一封邮件,你把他标记为垃圾邮件,计算机就学习该邮件里有什么内容才使得你标记为“垃圾”;相反,你标记为正常邮件,计算机也学习其中的内容和垃圾邮件有何不同你才把它标记为“正常”。可以把这俩个分类简单的看成"0"和“1”的分类,即二分问题(Binary Classification)。并且,随着你标记越来越多,计算机学习到的规律也越来越多,新出现一封邮件标记的正确率也会越来越高。

当然分类可不止用在判别垃圾邮件,其他应用例如银行欺诈交易的判别(商业智能范畴),计算机视觉里给计算机一张图片,分类为狗还是猫(著名的ImagNet,可是把图片分成了2万多类)。等等。

前面讲了监督学习,无监督学习即在没有人工标记的情况下,计算机进行预测、分类等工作。

再来一个例子–聚类(Clustering)–无监督的学习

事先没有对图中的点进行标记类别,左图在计算机看来,仅仅是12个点(x,y坐标),但是人眼可以判别它大致可以分为三类(这时,123,321,132代表的都是相同的聚类,顺序没有关系)。如何教计算机把数据归类呢?这就是聚类问题。其中最经典的算法叫K-means。

半监督介于俩者之间,增强学习牵扯到更深的运筹、随机过程、博弈论基础,这里暂时不展开。

机器学习作为新创的学科或方法,被广泛地应用于人工智能和数据科学等问题的求解。按照行业的说法,神经网络、深度学习、增强学习等模型都属于机器学习的范畴。

本节最后出一个思考题,1中的线性回归属于监督还是无监督学习呢?

4,模型–运筹学(Operations Research(O.R.))、凸优化(Convex Optimization)、统计分析(Statistical Analysis)、神经网络(Neural Network)、深度学习(Deep Learning)

把它们归到一类,因为他们都是一种解决实际问题的模型。例如解决图像分割问题,你可以用统计的模型(如马尔可夫随机场),也可以用神经网络模型,当然也可以用深度学习,即卷积神经网络模型(Convolutional Neural Networks)

统计和运筹作为有深厚渊源的学科,这俩个名词本身就能成为一个专业,其下又有无数的分支和方向。他们本身研究的对象就是大数据,因此和人工智能、数据科学有着天然的渊源。最近因为人数机的兴起,统计、凸优化模型也再度热了起来(特别是概率图模型)。相信他们和人工智能会起到相辅相成、互相促进的效果。

神经网络(监督学习门下,需要有标签的数据)和深度学习,相比前俩个庞大学科,充其量只能算一个基于图论(Graph Theory)的模型。神经网络也是由来已久,刚开始的全连接神经网络(Fully Connected Neural Network)以及多层神经网络,都是传统神经网络,由于参数多计算(学习这些参数)的复杂度很高,因此实用性不强没有得到足够的重视。直到近些年卷积神经网络的横空出世,深度神经网络(Deep Neural Network)已基本秒杀其他一切传统方法,缺点是需要有标签的庞大的数据集以及训练时间过长(计算机资源)。

当然人工智能,特别是深度学习有过热的趋势,导致炒概念这样不良风气的产生,甚至有偷换概念之嫌。下面链接乃计算机视觉领军人物之一加州大学洛杉矶分校UCLA统计学和计算机科学教授Song-Chun Zhu的访谈录,给深度学习泼一点冷水。

由于O.R.出身,把运筹放在最后一点–楼主必须正本清源O.R.的在人工智能中扮演的重要角色。

在机器学习里我已提到,这里再强调一遍,几乎所有的人工智能问题最后会归结为求解一个优化问题(Optimization Problem)。而研究如何求解优化问题的学科,正是运筹学。

运筹学的作用,不仅限于求解其他模型(如统计)最后产生的优化问题,也可以作为模型本身(优化模型)来解决人工智能问题。

优化模型包含目标函数和约束条件。优化问题就是求解满足约束条件的情况下使得目标函数最优的解。敬请读者们关注我的运筹专栏,听我下回仔细分解。这里只提一点,大家所熟知的支持向量机,其实完全可以看作运筹中的二次规划(Quadratic Programming)问题。

最后唠叨一句楼主的科研方向,就是用运筹学中的混合整数规划(Mixed Integer Nonlinear Programming)模型建模,解决人工智能中的应用,如图像分割。

由于版面有限,不再具体展开。关于运筹学你所要知道的几乎一切,都在下面:

5,算法–K-means,Ford-Fulkerson

做过人工智能实际/科研项目的人知道,解决一个实际问题就像小时候解应用题,从假设未知数开始(已是模型的范畴),一般步骤便是数学建模-设计算法-编程实现,并以此反复推敲。因此为了文章的完整性,加上算法这一节。

K-means在3的聚类问题中已提到,这里重点讲讲最大流以及算法和模型之间的关系。

Ford-Fulkerson算法属于运筹学或图论-网络流问题(Network Flow Problem)中一个非常经典的问题-最大流问题(Max Flow Problem)的算法,它在图像处理特别是图像分割中,有着极为重要的应用。

如图:把一张3*3像素的图像看作3*3个点的图(图论术语里的图),并且把上下左右相邻的点用边连接起来,组成edge(图论里的边)。这么一来,图像分割问题就完美地转换成了一个基于图论(或者network flow)的优化问题。如下图,九个像素的图被最大流算法用绿线分割成了俩个部分(segment),绿线即为最小分割(min cut),这里s点和t点是为了构建网络流模型额外增加的俩个点(terminal node)。

下面讨论模型和算法的关系,引自我在下面的回答:

这里强调下数学建模的重要性,为何要数学建模呢?的确很多naive的算法完全不需要建立在数学模型之上,比如clustering里面经典的EM算法,是一个iterative method,基本一眼就能看出算法的思路然后编程实现。那么基于数学模型上的算法有何妙处呢?答案是一个好的数学模型,往往是被研究了几十甚至几百年的学科,比如图论,很多性质都已经被研究得很透彻可以直接使用。回到上面的例子,我建立的这个网络流的模型,是一个被研究了很久的模型,因此我可以直接使用其很多已知的好定理或算法来服务我的问题,比如这里基于里max flow的Ford-Fulkerson算法,如果能在其基础上做改进,等于站在巨人的肩膀。因此这就是数学建模的重要之处。

往往同一个问题,从不同的角度去看可以有千百种数学建模方法,而不同的数学模型差别往往巨大。而数学建模又是解决一个实际问题的第一步,在这基础上才考虑算法和数据结构设计。因此,数学模型和背后的数学基础在我看来是重中之重,也是我推荐学习的课程的核心。当然了,计算机系出生的朋友,数学这个层面学习得不是很深,可以偏向于算法的设计和实现,它们也是重要的。

**6,强人工智能(Strong AI或 Artificial General Intelligence) vs 弱人工智能(**Applied AI,narrow AI,weak AI)

上面唠叨了那么多,说来说去都是建立在以二进制为机理的图灵计算机上的“弱人工智能”,即计算机需要人去“教”它怎么做。而人工智能、神经网络的最终目的,是模仿人脑的机理和组成(脑神经元、神经网络),让计算机能像人一样具有思维、自主意识,自行学习和决策,称为“强人工智能”。

这里不得不提到母校德国海德堡大学物理系和英国曼彻斯特大学牵头的欧盟“人脑计划”,其最终目的就是打破计算机的二进制机理,模仿人脑神经元(Neuron)放电(spark)的随机性,打造出一台能像人脑一样“思考”的计算机。从此计算机不再二进制(0或1),而是可以取[0,1]间的随机值。另外工业界如IBM也在打造此类计算机。

此机一旦面世,以往一切惯例将被打破,“强人工智能”的新纪元或许会随之到来。

7,人工智能学术界、工业界全球排名

按照本文作者的尿性,最后不出意外会给个排名。今天也不例外,排名不分先后。

**学术界:**人工智能等新兴学科通常设置在计算机系,此处可参考CS排名

美国凭借教授数量一如既往地排在前头:CMU、斯坦福、MIT、UC伯克利、哈佛、普林斯顿、康奈尔、UIUC等等

英国伦敦也是AI重地:牛津、剑桥、帝国理工再加爱丁堡,还有UCL

加拿大可谓深度学习孵化地,DL三杰都和枫叶国国有渊源:多伦多、滑铁卢、蒙特利尔、麦克吉尔大学、英属哥伦比亚大学UBC

欧洲因教职稀少排名自然弱,瑞士俩校拔得头筹,ETH、EPFL,海德堡HCI五教授之阵容理应占得一席–哦,原来三个隶属物理系。

亚洲新加坡、香港你来我往,日本东大山河日下,中国清华异军突起,姚班功不可没。

**工业界:**凭借着财大气粗吸引人才,以及计算能力和数据量的优势,工业界在AI领域或许已经赶超学术界

美国自然是全球AI中心(硅谷、西雅图、波士顿、纽约):Google刚请来了斯坦福李飞飞(sabbatical)以及多大的Geoffrey Hinton,Facebook有NYU的Yann LeCun, 微软、IBM研究院早已名声在外,Amazon云计算一家独大,还有Uber、Airbnb、LinkedIn等新贵互联网公司的助力。

英国伦敦:DeepMind被Google收购,Google、微软等在伦敦都设有研究院。

欧洲:IBM、Google在苏黎世和慕尼黑都有研究院,扩招中;amazon在卢森堡有研究院;德国传统公司,如拜耳、博世、西门子等纷纷发力AI建立研究院,宝马奔驰奥迪等车场也投注自动驾驶。最后说说海德堡,SAP总部所在地,还有NEC、ABB等欧洲研究院。

加拿大:加拿大政府在多伦多刚成立人工智能研究院-Vector Institute ,G Hinton任首席科学顾问,Google在蒙特利尔准备成立新研究院,可见Yoshua Bengio领导的深度学习研究院名声在外。

中国:北有科技之都北京,得天独厚的优势,微软亚洲研究院培养起了中国一大批AI大佬;百度、京东以及地平线机器人、滴滴等一大批互联网新贵开始崭露头角。南有深圳,华为、腾讯、**、顺丰等也毫不示弱。


12

路过

雷人

握手

鲜花

鸡蛋
原作者: 华叫兽
关注微信