今天阅读了阮一峰 的 《你所不知道的 AI 进展》 文章 , 做一个读后总结
记录当前AI 发展进度
人工智能最先是从图像处理开始的 , 技能难度较高
2017年,日本科学家提出了一种图像的对象补全模型。经过训练,模型可以补全图片上缺失的部分。
实例 : 去除人像脸上的斑点
背景处理指的是,将前景物体从图片分离出来,再对背景进行加工。目前,已经有很好的智能算法可以去除图片背景,以及更改背景。
人工智能还能够识别图片的风格样式(即像素的变化规律),将其套用在另一张图片。
一旦识别出图片中的物体,模型就可以统计不同物体的像素颜色规律,然后就能推断黑白照片可能的颜色,从而实现照片着色。
可以体验一下,着色服务
GAN 是"生成对抗网络"(Generative Adversarial Networks)
原理 : 两个神经网络互相对抗 , 一个神经网络负责生成虚拟图像,另一个神经网络负责鉴定假图像
2014年GAN方法被提出,是一种革命性的提升人工智能模型效果、生成虚拟图像的方法。目前效果已经可以以假乱真。
GAN不仅可以生产虚拟图像,还可以生产音频、文本,甚至化合物分子 , AI创造的东西都可以通过GAN提升效果。
有一个GitHub 仓库,专门收集不同用途的 GAN,目前已经有500多种模型
目前,生成虚拟人像效果最好的模型是 Nvidia 公司的 StyleGAN。
一种图像通过 GAN 转变为另一种图像,称为图像翻译。
实例 : 空拍照片变成地图、黑白照片变成彩色照片
pix2pix 是图像翻译的开源工具,它可以让黑夜变成白天,示意图变成实物图等操作。
CycleGAN 模型还支持跨域翻译,将照片翻译成油画,斑马翻译成马。
难点 : 需要有成对的示例(源图像和相应的目标图像)
基于图像翻译 , StarGAN 模型可以翻译面部属性,比如头发的颜色、性别、肤色等,以及移植他人的表情
SC-FEGAN 是人像翻译的开源软件,可以让你编辑人像
GAN 最惊人的成果之一,就是根据文本生成图像
如 : 用户提供一个句子,软件生成对应的图像
未来推测,可以根据剧本直接生成一部电影
从一个视频生成另一个视频,这就叫视频翻译。目前比较成熟的两个方向是运动传递和面部交换。
将一个人的动作(包括身体、眼睛或嘴唇的动作)翻译到另一个人身上,使得另一个人出现一模一样的动作。
2018的论文《Everybody Dance Now》,给出了一个模型,可以将舞者的动作移植到任何人身上
根据一张脸的表情和动作,重建另一张脸
实例 : 虚拟的奥巴马演讲 , 这种伪造的视频被称为 Deepfake(深度伪造)
2018年出现的《深度视频肖像》更进了一步,生成的视频不局限于虚拟的面部表情,还会头部旋转、眼睛凝视和眨眼,是 3D 的肖像重构。
国内的人工智能视频生成,并不落后于国外。换脸应用 ZAO 只需用户上传一张照片,就能把影视剧主人公的脸换掉,好像你本人在表演电影一样。
Nvidia 公司2018年展示了实时光线追踪 RTX 技术。这项技术用人工智能预测光线的变化,从而不用耗费大量计算去追踪光线,因此可以实时渲染出高画质的 3D 动画。这对于视频游戏有重大意义。
RTX技术可以用于自动驾驶 , 通过对周围环境的识别 , 对驾驶做出调整
人工智能在文本和声音处理领域的进展
谷歌在2018年推出了智能助手Google Duplex,它会根据你的日程,自动打电话去餐厅订座位。
OpenAI 基金会推出的MuseNet,通过学习数十万段 MIDI 音乐,能做到使用10种乐器,生成一段4分钟的音乐。
使用 Yelp 网站的数据进行训练的模型,可以自动生成餐厅评论
Gmail 会根据电子邮件的来信内容,自动生成三种不同的回复,让用户选择。如果只是简单回应,用户不用自己动手写。
Gmail 的另一个功能是,根据用户已经写的内容,预测接下来会写的句子,供用户选择。
目前AI的技术还不够成熟 , 有些缺陷。但总的来说,我还是很震惊的,这些技术觉得都是科幻片中才会出现的,现在慢慢的以及走进了生活。如P图软件,自动驾驶技术,阿里的无人酒店和超市 , 这可能都是划时代的突破 。生活中的许多机械重复的事情,慢慢的会被机器代替。
我觉得凡事都是双面性,有好有坏。人工智能带给了我们生活的便利,但也让这个世界变得真真假假分不清。很害怕哪一天人工智能的机器会取代人类,但是我更相信,人工智能的出现,是为了服务于人类。所以自身应该多去了解这方面的知识,在未来自己也希望是个开发者,而不是被使用者。这样可以能会让我更有安全感以及骄傲一面。