美高梅国际平台 1

添加模型到项目中

下载完GoogLeNetPlaces.mlmodel后,拖到项目的Resources目录中。

美高梅国际平台 2

image.png

选中这个文件,并稍等一下。当Xcode生成模型类时,将会出现一个箭头:

美高梅国际平台 3

image.png

点击箭头就可以看到生成的类:

美高梅国际平台 4

image.png

Xcode已经生成输入输出类,并且主要的类GoogLeNetPlaces有一个model属性和两个prediction方法。
GoogLeNetPlacesInput用一个CVPixelBuffer类型的sceneImage属性。这是什么?不要害怕,不要哭泣,Vision框架将会将我们属性的图像格式装换为正确的输入类型。
Vision框架还将GoogLeNetPlacesOutput属性转换为自己的结果类型,并管理对预测方法的调用,所以在所有生成的代码中,代码将只使用model属性。

美高梅国际平台 5

机器学习是很火的,许多人只是听说过,但知之甚少。这篇iOS机器学习的教程将会介绍CoreML和Vison,这是iOS11中引入的的两个全新的框架。
具体来说,将学习如何使用Places205-GoogLeNet模型将这些新API用于对图像的场景

要知道,深度学习时代来了,小小的人物检测任务也有了突破,将特征工程和简单的分类器结合已经过时,神经网络开始主导这个领域。

将CoreML模型集成到你的App中

本教程使用Places205-GoogLeNet模型,您可以从Apple的“机器学习页面.”页面下载。
向下滚动到Working with Models,并下载第一个。
当您在那里时,请注意其他三个模型,它们都会在图像中检测物体 –
树木,动物,人物等。

如果您使用受支持的机器学习工具(如Caffe,Keras或scikit-learn)创建的训练模型,将训练模型转换为CoreML可描述如何将其转换为Core
ML格式。

iOS机器学习

机器学习是一种人工智能,其中计算机“学习”而不被明确编程。机器学习工具不用编码算法,而是通过大量数据中查找模式,使计算器能够开发和优化算法。

量子位将文章重点内容翻译整理如下,与大家分享:

深度学习

自20世纪50年代以来,AI研究人员开发了许多机器学习方法。苹果的核心ML框架支持神经网络,树组合,支持向量机,广义线性模型,特征工程和流水线模型。然而,神经网络已经产生了许多最壮观的最近的成功,从2012年谷歌2012年使用YouTube视频来训练其人工智能来识别猫和人。只有五年后,Google正在赞助一个比赛,以确定5000种植物和动物。像Siri和Alexa这样的应用程序也存在于神经网络中。
一个神经网络试图用层次的节点来模拟人类脑部过程,并以不同的方式联系在一起。每个附加层需要大量增加计算能力:Inception
v3,一个对象识别模型,有48层和约2000万个参数。但是计算基本上是矩阵乘法,哪些GPU处理非常有效。
GPU的成本下降使得人们能够创建多层深层神经网络,因此是深入学习的术语。

美高梅国际平台 6

image.png

神经网络需要大量的训练数据,理想地代表了全方位的可能性。
用户生成数据的爆炸也促成了机器学习的复兴。
训练模型意味着向神经网络提供训练数据,并使其计算用于组合输入参数以产生输出的公式。
培训发生在离线状态,通常在具有多个GPU的机器上。
要使用这个模型,你给它新的输入,它计算输出:这被称为推论。
推论仍然需要大量的计算,来计算新输入的输出。
由于像Metal这样的框架,现在可以在手持设备上进行这些计算。
如本教程末尾所示,深入学习远非完美。
建立真正有代表性的培训数据真的很困难,过分训练模型太容易了,所以对古怪的特征给予太多的重视。

设置检测模型很简单,只需将你的GPU连接到Supervise.ly,然后选择其中一个预训练模型即可。

开始

下载启动项目。他已经包含了显示图片的用户界面,并且可是让用户从照片库中选择另一张图片。所以你可以专注于实现应用程序的机器学习和视觉方面。
编译并运行项目,你将看到一个城市的图片和一个按钮:

美高梅国际平台 7

image.png

从相册中选择领一张图片。这个启动项目的Info.plist已经包含了Privacy – Photo Library Usage Description,因此将会提示你允许使用。
在图片和按钮之间还包含一个文本框,它用于显示模型对图片场景的分类。

可视化之后,我们发现输入的图片,已经得到了一张人物检测结果:

苹果提供了什么?

苹果在iOS5中引入了NSLinguisticTagger来分析自然语言。Metal出现在iOS8中,提供对设备GPU的低级访问。
去年,苹果公司将基本神经网络子程序(BNNS)添加到其加速框架中,使开发人员可以构建神经网络来进行推理(而不是训练)。
而今年,苹果给出了CoreML和Vision!

  • Core ML 使您更容易在您的应用程序中使用经过训练的模型
  • Vision
    让您轻松访问Apple的模型,以检测脸部,面部地标,文字,矩形,条形码和对象。

您还可以在Vision模型中包装任何图像分析Core
ML模型,这在本教程中将会如何。
因为这两个框架是基于Metal构建的,所以它们在设备上高效运行,因此您不需要将用户的数据发送到服务器。

你将能看到下面这个窗口,将指令复制到你的电脑里,Python
Agent软件将自动在你的电脑里完成安装。

使用模型来分类场景

现在只需要在两个地方调用detectScene(image :)
viewDidLoad()imagePickerController(_:didFinishPickingMediaWithInfo :)的末尾添加以下行:

guard let ciImage = CIImage(image: image) else {
  fatalError("couldn't convert UIImage to CIImage")
}

detectScene(image: ciImage)

编译并运行。很快就可以看到分类:

美高梅国际平台 8

image.png

嗯,是的,图像中有摩天大楼。 还有火车。
点击按钮,并选择照片库中的第一个图像:一些太阳斑点的叶子的特写镜头:

美高梅国际平台 9

image.png

引用:

  • Apple’s Core ML
    Framework
    documentation
  • WWDC 2017 Session
    703
    Introducing Core ML
  • WWDC 2017 Session
    710
    Core ML in depth
  • Core ML and Vision: Machine Learning in iOS 11
    Tutorial

基本方法

在Vision模型中包装Core ML模型

最后,你将需要写些代码!打开ViewController.swift,在import UIKit下面导入两个框架:

import CoreML
import Vision

然后在IBActions扩展末尾添加如下扩展:

// MARK: - Methods
extension ViewController {

  func detectScene(image: CIImage) {
    answerLabel.text = "detecting scene..."

    // Load the ML model through its generated class
    guard let model = try? VNCoreMLModel(for: GoogLeNetPlaces().model) else {
      fatalError("can't load Places ML model")
    }
  }
}

代码意思如下:
首先,您显示一条消息,以便用户知道某些事情正在发生。
GoogLeNetPlaces的指定的初始化程序会引发错误,因此在创建时必须使用try。
VNCoreMLModel只是一个用于Vision请求的Core ML模型的容器。
标准Vision工作流程是创建模型,创建一个或多个请求,然后创建并运行请求处理程序。
您刚刚创建了该模型,因此您的下一步是创建一个请求。

detectScene(image:):末尾添加下面代码:

// Create a Vision request with completion handler
let request = VNCoreMLRequest(model: model) { [weak self] request, error in
  guard let results = request.results as? [VNClassificationObservation],
    let topResult = results.first else {
      fatalError("unexpected result type from VNCoreMLRequest")
  }

  // Update UI on main queue
  let article = (self?.vowels.contains(topResult.identifier.first!))! ? "an" : "a"
  DispatchQueue.main.async { [weak self] in
    self?.answerLabel.text = "(Int(topResult.confidence * 100))% it's (article) (topResult.identifier)"
  }
}

VNCoreMLRequest是使用Core
ML模型来完成工作的图像分析请求。它的完成处理程序接收requesterror对象。
您检查该request.results是一组VNClassificationObservation对象,这是当Core
ML模型是分类器而不是预测器或图像处理器时,Vision框架返回的。而GoogLeNetPlaces是一个分类器,因为它仅预测了一个特征:图像的场景分类。
VNClassificationObservation有两个属性:identifier – 一个String类型 –
和confidence – 介于0和1之间的数字 –
这是分类正确的概率。当使用对象检测模型时,您可能只会看到那些confidence大于某个阈值的对象,例如30%。
然后,取第一个结果将具有最高的置信度值,并将不定冠词设置为“a”或“an”,具体取决于标识符的第一个字母。最后,您将返回主队列更新标签。你很快会看到分类工作发生在主队列中,因为它可能很慢。
现在,到第三步:创建和运行请求处理程序。
detectScene(image:):末尾添加下面代码:

// Run the Core ML GoogLeNetPlaces classifier on global dispatch queue
let handler = VNImageRequestHandler(ciImage: image)
DispatchQueue.global(qos: .userInteractive).async {
  do {
    try handler.perform([request])
  } catch {
    print(error)
  }
}

VNImageRequestHandler是标准的Vision框架请求处理程序;
它不是核心ML模型的具体。
你给它作为一个参数进入detectScene(image :)的图像。
然后通过调用其perform方法运行处理程序,传递一个请求数组。
在这种情况下,您只有一个请求。
perform方法抛出一个错误,所以你把它包装在一个try-catch。

美高梅国际平台 10

人物检测确实是个老生常谈的话题了,自动驾驶中的道路行人检测、无人零售中的行为检测、时尚界的虚拟穿搭、安防界的人员监控、手机应用中的人脸检测……人物检测不易察觉,但已经渗透到生活中的方方面面。

然后进入推理过程,模型看起来还算符合要求,我们进入下一步。

美高梅国际平台 11

随后,我们用这张图片测试人物检测模型的效果如何。在我的模型页面点击“Test”按钮,选择上面已经命名的“testimages”项目,将要存储检测结果的项目命名为“inf_test_images”。

点击“Neural networks”进入“Model
Zoo”页面后,你能看到一系列为语义分割和物体检测创建的预训练模型。将鼠标放到“FasterRCNN
NasNet”那里,选择增加一个新模型,你将看到这个预训练模型出现在了“我的模型”列表中。

美高梅国际平台 12

原作:Supervise.ly

想要处理这个任务有两种方法:一是直接使用预训练模型,二是训练自己的人物检测模型。在Supervise.ly里这两种方法都可以,但我们重点来看预训练模型版。

美高梅国际平台 13

Step 1:设置人物检测模型

五年之前,大家普遍在哈尔特征(Haar-like
features)的基础上,基于级联分类器用OpenCV解决问题。这往往需要用大量的时间和精力构建模型,依照如今的标准来看,检测质量也不是很好。

在这篇文章中,我们将用Supervise.ly平台处理人物检测任务,带你用5分钟做出初始方案。这个自称不用写代码、提供众多与训练模型、也无需在各种开发工具中跳来跳去的平台,对新手绝对友好。

美高梅国际平台 14

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章