赛题:人工智能应用赛
组织架构
主办单位:全国高等学校计算机教育研究会
承办单位:各高校计算机相关院系
技术支持:DataCastle数据城堡、我爱竞赛网
  • 报名时间
  • 初赛开始时间
  • 初赛截止时间
  • 晋级决赛公示
  • 决赛时间
  • 决赛公示
  • 2021/08/25
    -11/30
  • 2021/11/15
    15:00
  • 2021/12/15
    15:00
  • 2021/12/20
    15:00
  • 2021/12/20/15:00
    -12/29/15:00
  • 2021/12/31
  • 赛题背景
  • 时间安排
  • 奖项设置
  • 赛题和数据
  • 评价标准
  • 作品提交要求
  • 其他规定
  • 联系信息
一、赛题背景:
日常生活中,我们经常会在微信、微博等社交工具、公众号文章、甚至新闻稿件中发现许多拼写、语法、标点等错误;经过初步统计:在微博等新媒体领域中,文本敏感和出错概率在2%左右;在语音识别领域中,出错率最高可达8-10%;而在某保险问答领域中,用户提问出错率在去重后仍高达9%,故本次人工智能应用赛的赛题为智能文本纠错。文本纠错作为自然语言处理最基础的模块,是实现中文语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本,其重要程度不言而喻。

二、时间安排:
报名时间:2021年8月25日--2021年11月30日
初赛开始时间:2021年11月15日15:00起开放数据集下载
初赛截止时间:2021年12月15日15:00截止提交
晋级决赛公示:2021年12月20日15:00
决赛时间:2021年12月20日15:00--2021年12月29日15:00
决赛公示:2021年12月31日
说明:比赛获奖公示期间,接受异议、申诉和违规举报。

三、奖项设置:
初赛成绩根据各区域考生成绩分别排名,分设一等奖、二等奖、三等奖和优秀奖各若干项,如下:
一等奖:不超过报名数的5%,颁发电子荣誉证书+电子版指导老师证书;
二等奖:不超过报名数的10%,颁发电子荣誉证书+电子版指导老师证书;
三等奖:不超过报名数的20%,颁发电子荣誉证书+电子版指导老师证书;
优秀奖:不超过报名数的15%,颁发电子荣誉证书。
各区域前30%获奖选手将晋级决赛。决赛设一等奖、二等奖、三等奖各若干项,总获奖人数不超过总报名数的20%。分别如下:
一等奖:不超过报名数的3%,颁发荣誉证书+指导老师证书;
二等奖:不超过报名数的7%,颁发荣誉证书+指导老师证书;
三等奖:不超过报名数的10%,颁发荣誉证书+指导老师证书。

四、赛题和数据:
1.任务描述:
(1)赛题任务
本次赛题聚焦智媒与文化领域文本数据,主要应用于媒体内容生产等场景,从中检测错误并纠正,提示修改建议。
错误类型:语法错误,包括多字、少字、乱序、标点等;拼写错误,包括同音字、近音字、形近字等。
(2)数据使用规则
本赛题允许使用外部数据。可参考公开数据集:
NLPCC2018语法纠错数据集:http://tcci.ccf.org.cn/conference/2018/taskdata.php
2.数据集描述:
本次挑战赛设置了更具挑战性的任务,提供测试集及少量训练集,会在数据开放下载后公布,总体为低资源的竞赛任务。
初赛:
数据集包含训练集和测试集,训练集用于选手的模型训练,测试集用于最终结果的评测提交。格式如下:
训练集包含三个字段:id,语句,修改后的语句
测试集包含三个字段:id,语句,分词后的语句
决赛:
数据集包含训练集和测试集,训练集用于选手的模型训练,测试集存在在服务器后台,用于最终结果的评测提交,不提供给选手。
训练集包含三个字段:id,语句,修改后的语句
测试集包含两个字段:id, 语句

五、评价标准:
1.提交次数限制:
每支团队每天最多提交3次。
2.评分指标:
主办方将对参赛队伍产生的测试结果与比赛主办方公布的标准结果进行一致性评估,最终得到各参赛队伍初赛作品的评测结果。
比赛使用MaxMatch (M2)记分器进行评估。M2算法是一种广泛应用的语法纠错评价方法。总的思路是计算源语句和系统输出之间的短语级编辑。具体来说,它将选择与注释器中的黄金编辑重叠最多的系统假设。扩展了M2的记分器,以处理多组可选的金标准注释,在这种情况下,对于当前的句子有多个合理的更正。
假设黄金编辑集是{g1, g2,…, gn},系统编辑集为{e1, e2,…,}。精度、查全率和F0.5定义如下:

参赛队伍请自行使用官网上的测评程序对测试数据集的输出结果进行评估,如参赛队伍产生的校对结果文件未能与官网上的评估程序相兼容,则需自行对结果格式进行调整和修改。

六、作品提交要求:
初赛:
提交的答案csv文件包含2个字段:id,修改后的语句,详见submit_example.csv文件,文件编码格式为utf-8。
开放提交后,会提供submit_example.csv文件。
复赛:
提交模型及代码
1. 提交说明:
提交需为zip压缩包,所有文件编码格式为utf-8,目录结构为:
-model
-requirements.txt
-run.py
-other files or folders
【requirements.txt】需包含所有依赖包,及其版本
【run.py】按照函数内部需求,不能修改固定区域的文件
【other files or folders】需要包含所有程序文件,如模型文件,如功能函数
2. 服务器参数:
python版本3.7.3
NVIDIA-SMI 418.165.02
Driver Version: 418.165.02
CUDA Version: 10.1
3.模型输出文件demo:
id text
xxxxxxxxxxx 我 爱 中 华 人 民 共 和 国 。
xxxxxyyxxxx 你 好 , 韩 梅 梅 。
...... ......

开放提交后,会提供submit_example.zip文件。

七、其他规定:
1.数据使用有哪些要求?
本次大赛提供的全部数据、信息等。未经允许,任何人不可以任何形式使用、传播、披露、授权他人使用。
2、限制原则是什么?
作品必须健康、合法、无任何不良信息及商业宣传行为,不违反任何中华人民共和国有关法律。须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将直接取消其参赛资格,主办方保留赛事解释权。

八、联系信息:
竞赛官网地址:http://www.ncccu.org.cn/case2.html

九、数据下载:
1.训练集 点击此处进入下载页面 提取码: w327
2.初赛测试集 点击此处进入下载页面 提取码: vhme
加群了解
  •   考生赛事咨询QQ : 2383202782
      院校承办咨询电话:
            王老师:16601164190(华中区域、华北区域、西北区域)
            方老师:13051355695(华东区域、华南区域、西南区域、东北区域)

  • 扫码关注公众号

皖公网安备 34011102001686号



京ICP备18046968号-3