最新公告: 欢迎光临本公司网站!

产品展示
联系我们
400-123-4567
地址:广东省广州市天河区88号
电话:400-123-4567
传真:+86-123-4567
手机:13988999988
邮箱:admin@baidu.com
新闻动态

当前位置:365bet体育在线平台 > 新闻动态 >

司法鉴定牵手深度学习:Kaggle 相机型号识别大赛

文章来源:admin 更新时间:2019-01-01

  评论按:大约一年前雷锋网 AI 科技,机型号识别」(的计算机视觉挑战赛Kaggle 举办了一个名为「相,某张图像的照相机的型号任务是确定出用来拍摄。结束后比赛, KuzinArthur,attakhovArtur F,ibardinIlya K,ir Iglovikov 决定写一篇科技报告Ruslan Dutov 和 Vladim,何解决这个问题向大家介绍如,程中获得的心得体会并分享他们在此过。犯罪调查大数据分析国际研讨会(接受这篇文章被在西雅图举办的第二届网络,18 年 12 月 10 日在大会上对这篇论文进行报告而 Vladimir Iglovikov 将于 20。内容(的扩展版以下是他对报告。

  attakhovArthur F, KuzinArthur,din 是本次比赛亚军团队以及 Ilya Kibr,为 0.987他们的最终得分。ov 是获得第 9 名的团队的成员Vladimir Iglovik, 0.985最终得分为。决方案非常相似这两支团队的解,写一份技术报告因此他们决定。大数据研究院的一名研究生Ruslan 是深圳大学,文本方面的工作他帮助完成了,顺利发表至关重要这对于这篇论文的。

  下来的部分在本文接,方法称为「我们」的解决方案作者会把亚军团队所使用的。外此,重要的技术细节也将跳过一些不。在 GitHub( 上获得亚军的解决方案的代码可以。结束后比赛,识进行了一组单独实验他们还根据自己的认。于进一步的研究本文主要是关。

  处理的众多应用之一相机型号检测是图像。如例,鉴定领域在司法,还是 iPhone 拍摄或许会非常重要判断出一幅图片是使用谷歌 Pixel ,可能是非法图像的所有者这可以进一步确定出谁,产权的合法所有者甚至确定谁是知识,播假新闻」的案件中发现犯罪嫌疑人这种系统甚至可以用于在「诽谤或传。

  字矩阵和相应的元数据计算机将图像存储为数,的情况下在最简单,存储在图像元数据中相机型号通常会被,为一个非常简单的问题此时对型号的识别就成。据可能不可靠但是图像元数,不法用户操纵而且很容易被。

  、但更可靠的方法还有一种更复杂。集完成后图像采,列后续处理步骤之后数码相机将在一系,和内存占用进行优化后的图像创建一个针对图像的保真度。线性、极其复杂的方法这些算法是一些高度非,滤波、修正镜头畸变等例如去马赛克、噪声。使用不同的算法不同型号的相机,型号上都会给出特定的输出这意味着每个算法在特定的,器学习工作流中使用的特征我们可以将这些数据作为机。

  然当,于这个主题的文献目前已经有很多关,VM 或类似的分类算法的人工特征提取步骤大多数现有的文献在此基础上提出了基于 S。如例,这个问题时当我碰到,个想法就是取一张图像我脑海中出现的第一,平滑处理后的图像用它减去自身经过,如均值、中值、标准差、不同的分位数)然后计算出这种差异的不同统计量(比,xgboost 集成学习模型然后利用他们作为输入训练 。所使用的方法与我刚才描述的方法非常接近关于如何进行相机模型检测的第一篇论文,了一些更复杂的模型其它后续的论文提出,非常相似但方法。域知识的人工特征提取方法无外乎:基于领,、决策树或支持向量机等等在此基础上加入逻辑回归。

  机型号也是一件很困难的事将这种方法扩展到新的相。布的相机进行这种检测假设我们想为一款新发。么那,于将其与其他型号的相机区分开来?另一方面专家应该花多少时间来找出哪些特性将有助,同时解决这些问题深度学习方法可以。来说一般,一种强大的野兽深度学习就好比,如何驯服它如果你知道,高度精确的黑盒模型它可能会帮助你创建。

  常一样像往,献试图找到「最好的方法」你几乎不可能通过翻阅文。文都会告诉你几乎每篇论,他人不一样他们和其,法是最先进的而他们的方。这个问题想要解决,上对不同方法进行评估你就需要在同一数据集。你哪种算法总体上更好这样的比较不会告诉,种特定的度量标准去评价时哪种算法更好但是你可以看出在给定的数据集上用某。据集上的性能排名一定是相同的这并不意味着算法在类似的数,构可能在 ImageNet 上表现不佳比如在 CIFAR 数据集上最先进的架,亦然反之。一致的比较总比没有好但是有这样一个标准。

  挑战赛中在这次的,间内在实时排行榜上比拼他们的算法582 支参赛团队将在两个月的时。参赛队伍数来说是一个相对较大的数字582 对于 kaggle 竞赛的,着不同专业背景和技能的人来解决这就保证了这个问题将由一些有。术界从事司法鉴定的相关工作一些参赛人员在工业界和学,一样的参赛人员还有一些像我,视觉方面的经验则有着计算机,问题并没有很深刻的认识但我们对这样的相机识别,有兴趣解决它也不知道有人。

   张照片(每个相机拍摄了 275 张照片)组成的训练集大赛组织者准备了一套由 10 个相机拍摄的 2750。

  比赛难度为了增加,部不同的手机来收集图像组织者共用了 20 ,被用于建立训练集其中有 10 部,被用于建立测试集另外 10 部。训练过程中这意味着在,理算法相关的针对特定相机型号的特性你的模型可能学习到的并不是与后续处,机产生的特定的输出而是会过拟合特定手。

  训练集中对应相同型号的相机拍摄的测试集中的图像是用 10 个与,型号的第二台设备但使用的是相同。如例, Ben Hamner 的第一台 iPhone 6 拍的如果在训练数据中使用 iPhone6 拍摄的图像是使用, Ben Hamner 的第二台 iPhone 6 拍的那么在测试数据中使用 iPhone6 拍摄的图像则是使用,海湾丢失了第一部手机因为他在玩风筝时在。

  外此。是完整全尺寸的训练集中的图像,出的 512x512 像素的部分而在测试中只使用了图像中央裁剪。这样处理之所以,图像的两侧更加明显是因为径向畸变在。变特征就取得了较好的结果一些论文仅仅基于径向畸。而然,们能带来多大的帮助目前还尚不清楚它,参与者利用这些特征但组织者决定禁止。

  情况下在许多,受到不同类型的图像变换的影响通常存储在计算机上的图像会,对比度、亮度、大小等方面的变换如 jpeg 压缩、伽马变换、。

  角度来看从实用的,换具有很强的鲁棒性模型最好能对这些变,图像进行了类似的变换组织者对一半的测试,所示如下:

  文所述如上,的图片的规模在千兆字节不同型号的相机拍出来,据提取出相应相机型号我们可以利用这些数。对于使用外部数据有不同的规则Kaggle 上的不同竞赛,项比赛中但在本,用外部的图像数据训练模型Kaggle 允许我们使。来说一般,据的竞赛都有一个规则所有允许使用外部数,的参赛者也可以访问这些数据Kaggle 规定所有其他。类竞赛中在任何此,都会专门设有一个论坛Kaggle 论坛上,将使用的数据和预训练的模型参与者可以在其中分享他们。

  是个例外这次比赛,加关于共享数据的条款管理员忘记在规则中添,了游戏规则这就改变。

  型的优势在于深度学习模,训练数据中获取知识它们可以从大量的。外此,特别注意到我们还应该,可能是错误的许多训练标签,也比较好解决但这个问题,某个阈值(比如百分之十五)只要错误标签的百分比小于,是一个好的数据集这个训练数据集就。数据越多使用的,型就越好你的模。

  是司法鉴定专家参与者可能并不,据对深度学习来说是更好的但他们肯定知道更多的数。常通,赛中在竞,集中获取最多的信息你试图从给定的数据,些实验之后在进行了一,性能良好的模型你会选择一个,据增强的方式巧妙地选择数,领域知识探索相关,个智能训练计划花时间开发一,函数等等训练损失。更好的选择如果你没有,步骤都很重要完成所有这些。

  ki、Wikipedia 上爬到了一些数据我们在 Flickr、Yandex、Fot,种情况下而在这,数据总量约为 500GB我们的团队拥有的原始图像。所有这些数据我们可以使用,加速训练但是为了,高模型质量并潜在地提,据进行了过滤我们进行对数。

  过程中在训练,未经处理的数据我们需要的是,htRoom 或类似图像编辑软件的影响即不受 Photoshop 、Lig,的高质量图像不进行缩放。

  的数据集样本数不同型号相机。者提供的数据集的最终数据集上表给出了包含外部和组织。

  先首,hop 和 LightRoom 的图像我们删除掉了元数据中包含 Photos。着接,质量低于 95 的图像我们删除了 JPEG 。三第,拍摄固定尺寸的照片我们让不同的相机。我们预期的不匹配如果图像的大小与,图像是经过了缩放的我们就会认为这些。足这些条件的图像我们删除了不满。

  所有图像都是未经处理的这并不意味着我们得到的,10% 的 JPEG压缩比如有人可能使用质量为 ,% 的 JPEG 压缩然后再应用质量为 99。际上实,仍然是 10%压缩后的质量,软件来说但是对于, 10 而不是 99很难分析出压缩因子是。不可能做到的我认为这是。这个问题时但我在研究,这种「二次 JPEG 压缩」我看到一些论文也试图识别出。一次再说,存在这样的问题我甚至不知道。

  过滤经过,了 78我们得到,爬取的图像807 张,图像是原始的我们认为这些,处理的未经。分布是不均匀的这些图像的类别。想到的那样正如你可以,都同样受欢迎并非所有手机,传至互联网的频率之间存在相关性或者说手机型号与用户拍照并上。此因,手机所得到的图像对于某些类别的,本就相对较少一些我们所得到的样:

  来说总的,ImageNet 进行迁移学习这个机器学习工作流类似于利用 ,训练的网络你会使用预,1000 个类的层去掉最后一个预测 ,要的类别的层替换它用一个预测你所需。例中在本,类别数是10这个层的输出。之后在此,作为损失函数并训练网络你可以使用分类交叉熵。以做到这一点有很多方法可,决方案之间的区别通常不在他们使用的网络类型而第 1 名的解决方案和第 50 名的解,以及进行训练的人而在于训练过程。角度来看从实践的,学习是科学与其说深度,像是炼金术不如说更。此因,不同的工作时当一个人从事,关重要的直觉是至。

  (提供了一个 PyTorch 框架下的带权重的网络列表Remi Cadene 在 GitHub 上的代码库,获得不同的网络和预训练的权重人们可以使用类似的 API ,验能够快速进行从而使他们的实。赛人员广泛使用这个代码库被参。DPN 和所有其它类型的网络进行了实验各个参赛队伍用 Resnet、VGG、。

  个问题对于这,seNet(的性能会稍好一些一个经验性的结论是:Den,的差异非常小但是团队之间,的说法是否为真所以不清楚这样。?DenseNet是一种架构什么是 DenseNet 呢, 类型的网络中使用跳跃连接的想法它进一步推动了在 Resnet。

  者将卷积块中的所有层连接起来DenseNet 论文的作,化了梯度流跳跃连接简,网络成为可能使得训练深层。成为主流之前在跳跃连接,G19 网络是一件痛苦的事情处理只有 19 层的 VG,入它们之后但是在引,高度抽象特性就不再是一个困难的问题了使用具有 100 多个层的网络处理。

  员相信研究人,失表面更加平滑这样做会使得损,过程陷入许多局部最小值防止基于梯度下降的训练。

  之外除此,对标准的网络是相,化和 ReLu 层的卷积块它使用了一组具有批量归一,用了最大池化层卷积块之间使,池化和全连接层最后是全局平均。意的是需要注,用不同大小的图像作为输入全局平均池化层允许我们使。

  Net 的性能总是优于 Resnet研究社区中的一些人认为 Dense,对较后提出的因为它是相, 2017 最佳论文并成为了 CVPR。而然,非如此事实并!论文中在原始,FAR 上取得了良好的结果DenseNet 在 CI,mageNet 数据集上但在数据更多样化的 I,浅的 ResNet 网络相当的准确率更深的DenseNet 才能得到与更。

  好/更差吗?这个问题得视情况而定DenseNet比Resnet更。azon from Space challenge」竞赛(中在「Planet: Understanding the Am,DenseNet我们团队使用 ,队中夺得第 7 名从 900 多支团,比赛中表现得更好这一网络在这次,Net 上的表现较差但它在 Image。

  此进行了深入的讨论我和我的合作者对,不仅平滑了损失表面有人认为跳跃连接,了模型容量而且还降低。像 CIFAR 这样的非多样化问题中表现更好这也许可以解释为什么 DenseNet 在,样的多样化的数据集上增加网络的深度但是需要在 ImageNet 这,量的损失以补偿容。种推测基于这,多样化且不需要大容量的网络时我们可以认为当数据集不是非常,t 的性能会很好DenseNe。性高度抽象时但是当判别特,要非常深的网络我们就可能需。

  一类问题吗?我不知道相机检测任务属于这。它确实是的从经验上说,的证据证明这一点但我们并没有足够。

  则化标准方法是使用数据增强在训练过程中加入智能的正。于不同的数据增强方法不同的问题可能受益。样的同,更好的直觉如果你拥有,数据增强方法和参数你可能会选出更好的。

  :我们在 [802. 伽马变换,均匀地选择了伽马参数120] 的范围内。

  hop 攀岩时的原始照片左图是我最近去 Bis;过来的结果右图是翻转,深一些其颜色。马变换得到的结果后者是进行了伽。了 JPEG 压缩在这里我们也应用,[70:90] 相对较高但由于这类图像的质量 ,出它的效果肉眼很难看。

  用三次插值来进行缩放组织者告诉我们他们,使用三次插值如果不知道,不同的插值方式我们会交替使用。来说一般,经常会使用这种技巧机器学习竞赛社区中,到对这样的方法的描述但是我还没在文献中看。

  加这些替代方法如果我们想要添,更复杂一些代码将会,是相对直观的但思路仍然。

  辨率很大原图的分,进行缩放是不明智的在全分辨率上对它们,裁剪(缩放前后各一次)因此我们进行了两次连续。

  行了 100 个 epoch 的训练我们使用 Adam 优化器对网络进, 0.001初始学习率为。

  高的准确率为了获得更,同的值之间振荡时当学习速率在不,习速率方法进行改进我们还采用了循环学。

  中可以猜到你从这张图, epoch 前后降低了学习速率在第 17 个。续衰减的损失峰图中存在两个连,个 epoch 左右一个大约在第 42 , 个 epoch 左右另一个大约在第 53。过程中在训练,入局部极小值网络容易陷,跳出这些局部最小值而这些振荡有助于。

  推断时在进行,图像进行增强我们对测试,的裁剪图像上的预测结果进行平均对在不同的 480x480 。

  了训练中使用的参数的范围我们通过绿色的部分显示。期的那样正如预,参数范围内在特定的,有显著下降准确率没。表明这,深度学习方法如果我们使用,够的数据并拥有足,会提升模型的鲁棒性加强数据增强可能。

  的另一个问题是我们想要回答,到网络中的裁剪图像的大小如果我们在测试时减小输入,如何变化准确率会?

  习的特性是局部的我认为网络正在学,进行大的裁剪所以不需要,实并非如此但似乎事。得 90% 以上的精度要想在 10 个类上获,50 的裁剪图片作为输入就必须有至少 250x2,的像素之间创建了远距离的相关性联系这可能意味着后续处理算法在网络捕获。

  训练数据量增加时我们还想证实:当,率也会提高模型的准确。图中看到的正如你在上,并没有发生这样的情况。高质量的模型来说已经足够了我想 25k 图片对于一个。的不是 10 个类如果我们需要检测,00 个类而是 10,升可能会更加显著那么模型质量的提。

  行的迁移学习在相机检测等使用低级特征的任务中1. 利用 ImageNet 预训练模型进,很好的性能可以取得。

  Net 的性能更好2. Dense,们相信但我,代码列表中任意选择预训练好的网络如果我们从 Cadene 提供的,也会类似它的表现。

  到更多的带标签的数据4. 如果你能获取,获取吧尽量去。数情况下在大多,以提供额外的重要帮助尽管利用领域知识可,复杂的解决方案提高模型性能更容易「暴力」地处理大量数据可能比使用。

  题都很重要所有这些议,们有太大的影响但我不认为它,个议题单独进行讨论或者我更愿意就每一。

  018 大数据国际会议「第二届网络犯罪调查与预防大数据分析国际研讨会」上做与本文相关的报告注:本文作者将于 2018 年 12 月 10-13 日在美国西雅图举行的 IEEE 2。

返回列表

上一篇:时间可倒流吗?为什么时间只向前流动呢?热力

下一篇:Al2O3ZrO2共晶陶瓷爆炸合成机理与工艺

地址:广东省广州市天河区88号电话:400-123-4567 传真:+86-123-4567

网站地图 | xml地图
Copyright @ 2011-2018 365bet体育在线平台