AIC·广东创智杯AI应用赛赛题及竞赛规则
2025-08-121,926 次阅读
AI手机垃圾短信识别智能体挑战赛竞赛规则
一、赛程介绍

(一)算法原型验证
参赛团队需利用主办方提供的200条脱敏的标注短信数据,离线下载本地,构建一个端到端的垃圾短信智能分类模型。提交分类模型详细构建方案PPT作为应答材料。初赛由评委根据PPT内容进行打分(问题分析与数据理解、技术方案设计、创新性与进阶思考、PPT呈现与逻辑结构满分分别为15分、55分、20分、10分),无需进行线下答辩。根据评审专家打分情况,遴选排名前48名的参赛团队晋级复赛,初赛仅作为晋级复赛的筛选环节,不设置奖项。

(二)复赛阶段:对抗环境生存
复赛晋级名单公示后3个工作日内,组委会将通过电话及邮件联系晋级选手,发放线上训练平台账号,及签订保密协议,请各位选手务必提前加入赛题QQ群,未按时加入导致信息接收不及时的,责任由选手自行承担。参赛选手需使用主办方提供的线上训练平台和10万条短信数据,其中包含9万条带标签的训练数据和1万条无标签测试数据。选手需基于训练数据构建模型,并对测试数据进行预测,在线提交预测结果,线上训练平台评判结果。

(三)决赛阶段:模拟攻防
决赛期间,参赛选手每48小时将获得一批带标签的训练数据及无标签测试数据,需依托主办方提供的线上平台持续优化垃圾短信分类模型,并在每轮48小时内完成预测并提交结果,逾期或缺交记为0分。计算所有结果的平均值,作为决赛模型检测结果的最终成绩。全部轮次结束后,选手还需参与线下答辩,最终成绩由模型检测结果(占60%)和答辩评分(占40%)共同构成。

二、数据集描述

(一)数据来源与特点

1.数据来源:开源短信数据集,包含真实短信数据和大模型生成的对抗变体(如GPT生成的钓鱼文本),确保数据真实性和攻击场景的多样性。参赛者可自行划分训练集与测试集,用于模型训练、调优和评估。

2.任务类型:二分类任务

Label 0:正常短信(普通通信内容)

Label 1:垃圾短信(推广、诈骗、钓鱼、恶意链接等)

数据格式:数据集格式为csv文件,具体格式为:Id:编号、Label:短信类别,(0或1)、message:短信内容

(二)文件格式规范

文件为csv格式,后缀名也必须以.csv作为文件后缀名

id,label

0,1

1,0

2,1

(三)结果数据格式要求

CSV格式要求

编码: UTF-8

分隔符: 逗号(,)

列数: 固定2列

第一列: 短信id(字符串),请按id从0开始,从小到大进行排序

第二列: 分类标签(字符串)

无标题行: 直接从数据行开始

无空行: 文件末尾不应有空行

三、比赛评分规则

(一)初赛评分

由评审专家根据PPT内容评估项目后进行打分。

(二)复赛评分

结果提交后系统将计算F1指标。

(三)决赛评分

最终成绩由两部分组成:所有提交结果的F1值平均分(占60%)和答辩成绩(占40%),按6:4比例加权计算。

赛题通知:https://www.aicomp.cn/notice/1933.html

补充通知:https://www.aicomp.cn/notice/2013.html

 

赛题规则:

附件:1. AI手机垃圾短信识别智能体挑战赛竞赛规则

2. 广东创智杯AI应用赛初赛评分规则