达观数据比赛
2018年07月02日 由 荟荟 发表
794978
0
竞赛背景
2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上,目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作,并在各行各业得到充分应用。
自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。
此次比赛,达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。未来文本自动化处理的技术突破和应用落地需要人工智能从业者和爱好者的共同努力,相信文本智能处理技术因为你的算法,变得更加智能!
组织架构
竞赛顾问
奖项:比赛由“线上评分+线下答辩”组成。线上评分环节采用AB榜形式,B榜结束后将进行参赛代码审核,一旦发现作弊行为,将即刻取消获奖资格和参赛成绩。
奖项说明:
1、排名前10的队伍都将被颁发精美参赛奖牌,奖牌中含奖项名称、队伍名称、成员姓名、主办方签字等,冠军、亚军、季军队伍将被颁发相应奖金
2、TOP20队伍选手可获得达观数据或达观数据合作伙伴企业实习就业机会;达观数据招聘岗位:NLP算法工程师 OCR算法工程师 文档收取工程师等
3、排名前15的获奖团队需提交代码
4、解释权归主办方达观数据所有
时间安排
》提交开始:2018年7月2日
》提交截止:2018年9月10日
》评审开始:2018年9月10日
》评审结束:2018年9月12日
》线下颁奖:2018年9月16日(具体时间待定)
说明:2018年9月10日作品提交截止日之后将关闭结果提交。届时将公布B榜排行榜并根据选手选择的提交结果在B榜上的最佳成绩及代码审核结果作为最终成绩,即B榜top10进入线下答辩环节。
参赛与组队规则
所有参赛人员及队伍,视为已同意《DC竞赛作弊管理规则》及其他相关规定。队长对其队员的参赛行为负责。
参赛选手说明:
1、本次比赛可以个人形式和团队形式参与,注意每团队不超过5人。
2、参赛团队在比赛过程中若被要求提交个人身份信息,须保证该信息的真实性。
数据使用说明:
参赛选手不得在未经主办方授权情况下将比赛数据作为其他用途使用
比赛作品说明:
1、比赛作品的知识产权归参赛作者所有。主办方有权将参赛作品、作品相关、参赛团队信息用于宣传品、相关出版物、指定及授权媒体发布、官方网站浏览及下载、展览(含巡展)等活动项目
2、参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,主办方将取消其比赛成绩并进行严肃处理
3、参赛选手需要配合主办方对比赛作品的有效性与真实性进行验证
主办方权责说明:
1、主办方保留对比赛规则进行调整修改的权利,并拥有对大赛规则的最终解释权
2、主办方拥有比赛作弊行为的判定权利和处置权利
3、主办方保留修改比赛作品的提交截止日期和答辩日期的权利,主办方有权在特殊条件下暂停或终止比赛
4、若出现不可控因素,主办方保留调整比赛各阶段入选团队数量的权利,以及调整奖项设置的权利
5、对影响比赛组织及比赛公平性的参赛团队,主办方保留收回或拒绝授予其奖项的权利
6、若因故出现数据更新、评审代码更新、作弊检查等原因主办方有权对参赛结果进行重新测评并更新排行榜
团队人数上限5人。 在第一阶段的最后3天无法新建队伍,但是可以加入其它队伍。 在最后一个阶段最后3天无法新建队伍,无法加入队伍。 竞赛进入历史阶段后解除一切限制,注意:答辩队伍成员仅限活跃期间加入的成员。
评分标准
评分算法
binary-classification
评分标准
采用各个品类F1指标的算术平均值,它是Precision 和 Recall 的调和平均数。其中,Pi是表示第i个种类对应的Precision, Ri是表示第i个种类对应Recall。 AB榜的划分方式和比例: 【1】评分采用AB榜形式,提交文件必须包含测试集中所有用户的预测值。排行榜显示A榜成绩,竞赛结束后2小时切换成B榜单。B榜成绩以选定的两次提交或者默认的最后两次提交的最高分为准,最终比赛成绩以B榜单为准。 【2】此题目的AB榜是随机划分,A榜数据占50%,B榜使用全量测试集,即占100%。快速报名通道http://suo.im/4YKozW全程交流群
【 QQ群号:131818435 】