人工智能背后的人工力量:机器学习必需数据标注

2019-09-10 08:02:00 来源: 科技日报 作者:

  资料图:市民用手机体验最新产品。殷立勤 摄

  “目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司!

  目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。

  近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。

  这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。

  机器学习必需数据标注

  AI数据标注员被称作“人工智能背后的人工”!笆菔侨斯ぶ悄艿难。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好!敝锌圃鹤远芯吭、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少!

  但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化!氨曜⑹且桓霰匦氲墓ぷ!蓖踅鹎潘。

  王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。

  不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。

  人工标注帮助AI快速落地

  随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。

  “目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司!蓖踅鹎潘,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外!

  据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。

  常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。

  他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

  “比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳!蓖踅鹎潘,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。

  数据标注需求持续增加

  “现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化!蓖踅鹎潘,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。

  因此,标注这项工作会一直存在。

  但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少!盎鞯氖侗鸷腿艘谎,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝;饕残枰欢侠斫飧嗟哪谌,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考!

  目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心!懊刻觳氖萘刻罅,数据量持续增加,对标注的需求也持续增加!蓖踅鹎潘。

  据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。

  延伸阅读

  AI数据服务发展新方向:细分化、多模态、专业化

  数据表明,当前AI发展出现了细分化、多模态以及专业化三大特征。相应的,新变化对于AI数据服务行业也形成了一定的影响与方向指引。

  当前AI已经进入技术落地阶段,应用场景涉及安防、金融、家居、交通等各大行业。而未来,在数据标注行业,从业者也将随着AI行业而一同进入细分市场追逐阶段。

  同时多模态也成为了AI技术发展的一个特征。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业,企业也需要适应AI技术发展的多模态特征,掌握对多维传感器融合的数据采集与标注。

  此外,尽管当前AI技术已经进入落地阶段,但是头部AI企业的落地场景相较传统行业的AI落地场景,在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,所以数据服务企业也需要在这些前沿场景中不断探索,才能在行业竞争中获得长期发展。

初审编辑:魏鹏

责任编辑:付兴帅

推荐阅读
  • 中国单身成年人超过2亿 “一个人”的消费方兴未艾

    timg.jpg

    中国单身成年人超过2亿!耙桓鋈恕钡南逊叫宋窗ド沓赡耆顺2亿,形成一个庞大消费群体为孤独买单,“一个人”的消费方兴未艾有专家表示,真正的“孤独经济”应是促进一个人越来越健康,生活越来越丰富“我排了挺久的队才给你买到的,没事你可以和它聊聊天,排...[详细]

    09-10 07-09工人日报
  • 全国临时乘机证明系统15日启用 没带身份证也能坐飞机

    9k=.jpg

    全国临时乘机证明系统15日启用。据统计,2018年全国机场累计办理临时乘机身份证明270余万次,平均每天办理约7400人次[详细]

    09-10 07-09人民网
  • 未来20年 人造肉会成为我们餐桌上的主角吗

    “从外观来看,这款植物人造肉月饼的肉馅仿真度很高,挤压有弹性,且会溢出类似脂肪的油脂。张涛说,较之传统素肉,植物肉在技术、原料、质地等方面提出了更高要求,“植物肉更加接近真肉,可以理解为2.0版的素肉”。[详细]

    09-10 07-09中国青年报
  • 捡到他人手机私自修改支付密码“套取”资金 认定何罪?

    案情:叶某捡到杨某遗失的手机(价值4000元),见该手机未设置锁屏密码,便立马将手机关机离开现场并带回。种意见认为,叶某以非法占有为目的,擅自使用他人手机,利用微信转账的方式秘密窃取他人钱款,数额较大,构成盗窃罪。[详细]

    09-10 07-09检察日报
  • 9轮和谈难止18年硝烟,塔利班与美国还“谈得!甭?

    阿富汗和平进程再次蒙上阴影。美国总统特朗普日前突然宣布,取消与阿富汗塔利班谈判代表的会晤,并中止与塔利班的和平谈判。 [详细]

    09-10 08-09中国新闻网
  • 尼日利亚中部发生严重交通事故11人死亡

    尼日利亚中部纳萨拉瓦州9日发生一起严重交通事故,造成11人死亡、4人受伤。纳萨拉瓦州路政管理部门一名负责人当天对媒体说,此次事故发生在该州阿宽加地区附近,涉及3辆汽车共15人,其中11人死亡,4名伤者已被送往医院救治。[详细]

    09-10 07-09新华网
相关新闻
六合第124期结果规律 宁乡县| 开化县| 胶南市| 镇雄县| 柳江县| 泰来县| 乐安县| 资讯| 襄樊市| 密云县| 靖边县| 通河县| 洪江市| 若尔盖县| 苏州市| 安泽县| 宝清县| 东莞市| 赞皇县| 平昌县| 乾安县| 岳阳市| 乌鲁木齐县| 绿春县| 淳安县| 桦川县| 鹰潭市| 土默特右旗| 嘉峪关市| 浑源县| 含山县| 斗六市| 周至县| 阿克陶县| 精河县| 阿拉善盟| 多伦县| 临沭县| 商都县| 台山市| 康保县| 府谷县| 林西县| 靖西县| 疏勒县| 报价| 丘北县| 临泽县| 辽阳县| 舒兰市| 乐陵市| 屏边| 北安市| 宜良县| 清原| 噶尔县| 寿光市| 平谷区| 黔东| 信丰县| 忻州市| 毕节市| 水富县| 永昌县| 磐石市| 祁阳县| 武穴市| 城口县| 施甸县| 嵩明县| 长汀县| 孟连| 丹寨县| 金湖县| 临武县| 土默特左旗| 嘉祥县| 安龙县| 曲沃县| 南雄市| 贡嘎县| 若尔盖县| 民丰县| 贵阳市| 水城县| 眉山市| 泰和县| 家居| 环江| 靖远县| 额济纳旗| 双峰县| 大英县| 西城区| 隆昌县| 泊头市| 顺平县| 高台县| 云龙县| 临夏市| 尼玛县| 桂林市| 巴林左旗| 芷江| 定边县| 武义县| 伊川县| 峨眉山市| 通山县| 上高县| 三亚市| 册亨县| 临猗县| 安岳县| 玛多县| 利川市| 澎湖县| 启东市| 清水河县| 天长市| 青海省| 怀安县| 错那县| 闵行区| 拉萨市| 鲜城| 吉木萨尔县| 那曲县| 温州市| 隆子县| 陆良县| 乌鲁木齐县| 新竹县| 灵石县| 峡江县| 汝城县| 长宁县| 闵行区| 疏附县| 乌海市| 周口市| 康乐县| 常山县| 盘锦市| 曲沃县| 平和县| 滦南县| 巩义市| 朝阳县| 阿坝县| 贺兰县| 靖安县| 耒阳市| 江西省| 五峰| 龙里县| 德州市| 海阳市| 满城县| 威海市| 浑源县| 西华县| 安龙县| 天津市| 陆良县| 江北区| 保山市| 临澧县| 海林市| 邻水| 遵义县| 张家川| 开远市| 秦安县| 涞源县| 长丰县| 都安| 定安县| 驻马店市| 灵璧县| 仁布县| 泸水县| 翼城县| 科技| 乐清市| 大石桥市| 潮州市| 黑山县|