团队利用机器学习识别数百万图像中的浮游生物
2018年09月26日 由 浅浅 发表
474903
0
当考虑大数据时,大多数研究人员可能会想到基因组学,神经科学或粒子物理学。路易斯安那大学拉斐特分校研究海洋生态系统Kelly Robinson则用数据挑战浮游生物。
Robinson说:“从鱼类到牡蛎,从贻贝到虾,很多东西都是我们喜欢吃的海鲜,几乎都从浮游生物开始的。在照片中,它们看起来像漂浮的尘埃斑点。”她的研究涉及量化和映射它们的分布和捕食者与猎物的相互作用。问题是,有数以百万计的图像。
Robinson通过拖曳远程摄像机平台收集数据,该平台称为ISIIS,原位浮游生物成像系统。ISIIS每秒可拍摄约80张照片,或每小时拍摄288000张图像(660千兆字节)。对于佛罗里达海峡的一个项目,她制作了3.4亿张照片;一位在墨西哥湾工作的同事创造了数十亿美元。
“你开始学习你从未想过会学到的东西,”Robinson说,“就像你可以在个人电脑上存储的文件数量一样。”在她最近的巡航中,罗宾逊带了52个2TB的硬盘,一个学生必须在他们填满时进行监控和更换。然后有人必须将该集合转到大学,将文件转换为Linux格式,并将它们上传到服务器,每个驱动器需要24个小时运行。
该团队使用机器学习软件自动挑选和识别图像中的对象。但必须教会算法寻找什么,比如这是海星,那是对虾。这些特征在水中比较少见,因此找到训练集的图片需要时间。两个多月后,团队手动整理了200万张图片,以训练算法。
当然,团队正在寻求优化流程。Robinson在Corvallis的俄勒冈州立大学与同事一起工作,正在测试她是否可以通过在多个并行运行的视频卡图形处理单元(GPU)上处理图像来加速工作。她还将云计算作为地球集群的替代品。