【人工智能】大话“人工智能、数据科学、机器学习”–综述 ... ... ...

张咏科技金融 2020-3-31 08:22 614029人围观

写作此文需要10小时，包含4个带图实例，目的是从宏观上剖析和理解这三个术语，适合刚入门人工智能（缩写AI）、数据科学、机器学习（缩写人数机）的爱好者，完整阅读可能需要20分钟。由于我的研究领域仅限于机器学习和计算机视觉，浅谈其他领域的时候还劳驾该领域的大牛拍砖。

前言：学科交叉乃大势所趋，新兴学科应市场需求孕育而生。人数机，便产生在这样的时代背景下。什么，你所在的学校至今还没开设相关专业？不必惊慌，老牌资本主义国家德国同样如此。但是，学好微积分、线代、优化、统计、编程，你和人数机可能只是俩三堂专业课的距离。本文旨在从宏观的视角剖析人数机，具体到某个学科或问题，请参见文中给出的链接。

机器学习、深度学习、增强学习，这些“学习”都是什么鬼？3 中的回答或许会让你大跌眼镜。

本文提纲：

1，人数机的概念 2，AI的应用领域 3，AI的解法－机器学习 4，机器学习底层的模型－运筹、统计 5，AI的算法 6，强AI vs 弱AI 7，AI学术界、工业界的全球排名

书归正传，我们一起逐点击破人数机这个大泡泡，力求以最通俗易懂的语言还原他们高大上外表下弱小的真面目（数学模型+算法）。

本文部分内容节选自我在下面问题的回答：

-----------------------------------------------------------------------

首先我把最近火起来的，关于人数机最热门的几个术语都列出来，因为不知道它们的话，你可能已经OUT了。

人工智能、数据科学、大数据、机器学习、神经网络、深度学习、计算机视觉、自然语言处理、增强学习、（无）监督学习、数据挖掘、文本挖掘、模式识别、虚拟现实、增强现实、GPU计算、并行计算、物联网、工业4.0、智能供应链、智能xx、商业智能、xx智能、图像处理、自动驾驶、统计推断、（凸）优化、K-means算法、Ford-Fulkerson算法等等。（欢迎评论区补充“火”的术语）

下文我尝试把这些术语按照概念、应用、模型、方法、算法来进行分类。

1，概念–人工智能（Artificial Intelligence）、数据科学（Data Science）、大数据（Big Data）

这三个术语最大，放在第一个说–他们属于概念。

简单地说，计算机能像人一样思考并自动处理任务，就可以称为人工智能，即教计算机完成人想完成的复杂的或具有高度重复性的任务。（这里需要注意计算机能理解的只是数据，包括向量和矩阵）

从这个概念出发，那么计算机从发明至今，可以说就顶着“人工智能”的帽子了。比如我们学习任何一门计算语言的循环语句，就很好地服务于这个宗旨。你写一个for i=1…100，就等于让计算机给你重复做了100遍活。还嫌不够多？把100改成1个亿吧。让（“教”）电脑给你干活，这就是人工智能。

由于人工智能“教”计算机处理的，通常都是很大的数据。例如图像处理，对于计算机来说，一张1000*1000的图片在它看来只是100万个像素（灰度图是100万个数字，RGB图是100万*3的一个向量）。

因此数据科学、大数据也属于人工智能概念的范畴，它们和人工智能一样，仅仅是被炒起来的“术语”。而理解上面三段话，你就拥有了和小白吹牛的资本。

这些行业到底有多热，看看薪资就能略知一二：

再举个比循环语句稍稍复杂点的例子：预测（Forecasting、Prediction）。

给你一堆点（x_i,y_i）,人眼一看，根据数据以往的趋势，下一个点x_n的y坐标–y_n应该出现在箭头所指的地方。但是如果有1000堆类似数据等你预测呢？你需要1000个人来描这个点么？NO，你只需要教会计算机如何根据x_n预测出y_n的值。–很简单，学过统计的应该都知道线性回归（Linear Regression），用最小二乘法根据以往的数据（x_i,y_i）算出线性系数b_0和b_1，那么预测函数y=b_0+b_1*x，电脑就可以根据这个公式来预测后面所有的y值。当然有进阶版的分段线性回归(piecewise linear fitting)，欢迎听下回分解。

2，应用–模式识别（Pattern Recognition）、计算机视觉（Computer Vision）、自然语言处理（Natural Language Processing）、数据挖掘（Data Mining）、物联网（Intenet of Things）、商业智能（Business Inteligence）、自动驾驶（Auto Driving）、云计算（Cloud Computing）、虚拟增强现实（Virtual Augmented Reality）等

这些都属于人工智能和大数据的应用场景。

模式识别：把一堆杂乱无章的数据或像素（图像）里深藏的“模式”或规则用计算机自动识别出来。

计算机视觉：“教”计算机像人一样理解图像或视频，并作出解释（例如分割、追踪、分类等）。

自然语言处理-语音识别：同样的，计算机看待人说的话只是一段段音频信号（signal），或者更底层些，只是一个x坐标为时间t的二维数据。如何把电信号翻译成文字（text），需要人来“教”它。

数据挖掘：从一大堆数据里挖掘出你想要的有用的信息。怎么样，是不是和模式识别有点异曲同工之妙？不过其主要数据对象是数据库（Database），类似的还有文本挖掘（text mining）。

物联网：把所有东西（例如家电）都联网，并实时保持数据的连通，然后计算机处理这些数据。例如根据主人的生活习性自动开关暖气。

商业智能：人工智能应用在商业大数据领域。例如银行欺诈**易的监测。

自动驾驶：顾名思义，内置在汽车甚至设置在云端的计算机自动给你开车。利用的是计算机处理汽车上的摄像头实时产生的图片信息，以及雷达产生的信号。

云计算：把计算任务传送到“云端”，得出结果后再传送回来。云端可能是一个大的计算机集群（Cluster），难点在于如何协同CPU和GPU。

虚拟、增强现实（VR、AR）：VR眼镜应该都体验过吧？未来的趋势，3D电影演唱会等，足不出户体验现场感。Pokemon Go是AR最好的例子，使虚拟和现实混合在一起。俩者的核心技术都在计算机视觉里，包括校准、3D重建、识别、追踪等等。

通过以上九个术语的翻译，相信妈妈再也不用担心我被“概念”的炒作蒙蔽双眼了。

再举个例子：模式识别（Pattern Recognition）里的图像分割（Image Segmentation）。

给你一张图片，你自然知道描出图里所有物体的轮廓，把该图分割成了几块，该图的“模式”就被识别出来了。但是给你100，1000张图呢？你还有耐心一张张用手描轮廓？这时候你需要教计算机如何画这个轮廓，并且不仅仅限于几张图，这个模型或算法必须适用于绝大多数的图片。这就是模式识别和图像分割。

3，方法–机器学习（Machine Learning）

前面讨论了概念和应用，那么用什么方法来实现2中的应用呢？机器学习便是最有力的方法之一。把机器学习单独放在方法里，是为了体现其重要性。虽然它是一门建立在统计和优化上的新兴学科，但是在人工智能、数据科学等领域，它绝对是核心课程中的核心。

机器学习，顾名思义，教机器如何“学习”，或让机器自己“学习”。因此从字面上看就天然的属于人工智能范畴。“学习”这个看似高深的术语，在1线性回归的例子里，仅仅指求解(学习)b0, b1这俩个系数。任何其他炒得火热的“xx学习”，也只是求解一些参数－说得都很好听，仅此而已。

对于统计和运筹学这俩门基础学科来说，机器学习又是应用（见下面四类问题），因为它大量地用到了统计的模型如马尔可夫随机场（Markov Random Field–MRF），和其他学科的模型，如偏微分方程（变分法等），最后通常转化成一个能量函数最小化的优化问题。

机器学习的核心在于建模和算法，学习得到的参数只是一个结果（见5）。

机器学习里最重要的四类问题（按学习的结果分类）：

预测（Prediction）–可以用如回归（Regression）等模型。

聚类（Clustering）–如K-means方法。

分类（Classification）–如支持向量机法（Support Vector Machine, SVM）。

降维（Dimensional reduction）–如主成份分析法（Principal component analysis (PCA)–纯矩阵运算）。

前三个从字面意思就好理解，那么为什么要降维呢？因为通常情况下，一个自变量x就是一个维度，机器学习中动不动就几百万维，运算复杂度非常高。但是几百万维度里，可能其中几百维就包含了95%的信息。因此为了运算效率，舍弃5%的信息，我们需要从几百万维中找出这包含95%信息的维度。这就是降维问题。

12 / 2 页下一页

路过

雷人

握手

鲜花

鸡蛋

【高频交易】为什么高频交易被俄罗斯人垄断？ 浅谈算法交易的演变

原作者: 华叫兽

张咏关注作者

财经媒体人

【高频交易】为什么高频交易被俄罗斯人垄断？

浅谈算法交易的演变

		自动登录	找回密码
密码			免费注册

宽客财经

【人工智能】大话“人工智能、数据科学、机器学习”–综述 ... ... ...

1，概念–人工智能（Artificial Intelligence）、数据科学（Data Science）、大数据（Big Data）

3，方法–机器学习（Machine Learning）

上一篇

下一篇

关于我们

网站地图

资讯

观点

百科

关注微信