一、赛题背景
随着金融行业的数字化转型加速,海量的非结构化文档(如研究报告、合同、财报、政策文件、演示文稿等)构成了金融机构的核心知识资产。如何从这些多模态、多格式的文档中,快速、精准地提取关键信息,并智能地回答复杂的用户问题,已成为提升投研效率、风险控制能力和客户服务水平的关键技术。
传统的关键词匹配检索技术已难以应对金融领域多意图、跨文档、推理类的复杂查询需求。本次竞赛旨在探索和推动新一代智能检索与问答技术的发展,聚焦于对复杂问题的深度意图理解和精准知识碎片采编,打造更懂金融、更懂用户的智能知识大脑,为行业提供技术储备和人才选拔平台。
二、赛题应用场景
1.客户服务与营销支持:在银行客服热线、网上银行客服、手机银行客服等场景中,客户会提出各类咨询问题,如理财产品推荐、贷款申请条件等。客服人员能够迅速检索到相关知识点,为客户提供及时、准确的解答,提升客户满意度。
2.风险控制与合规管理:银行风险控制和合规管理部门需要及时了解各类监管政策、行业规范以及内部风险管理制度,以便对业务进行风险评估和合规检查。相关人员需能够快速检索到所需的监管条款、风险案例等知识点,为风险控制和合规管理工作提供有力支持。
3.内部知识管理:员工在办理信贷、理财、结算等业务时,可能会遇到政策解读、业务流程疑问、产品细节查询等问题。通过知识库采编检索算法,员工可快速输入问题,获取准确的知识点,提高业务办理效率和准确性。
三、赛题任务
参赛队伍需开发一套针对金融领域多类型文档的知识库采编检索算法系统,该系统需完成以下任务:
1.文档解析与知识提取:对提供的金融领域多种格式文档(word、pdf、excel、ppt、txt、markdown、png、jpeg等)进行解析,提取文档中的关键信息和知识点,构建结构化的知识库。其中,对于pdf、ppt等复杂板式文档需要进行板式解析、对于PPT、png、jpeg等图像格式文档,需先进行图像识别与文字提取。解析完成后再进行知识提取;对于excel格式文档,需提取表格中的数据信息及相关说明文字作为知识点。
2.问题意图理解:准确理解用户输入的各类问题(包括多意图、推理、细节、长文本、总结等)的意图,明确用户所需知识点的范围和核心需求。例如,对于多意图问题“请介绍个人住房贷款的申请流程以及最新的利率政策”,需准确识别出用户同时关注申请流程和利率政策两个意图;对于推理问题 “已知客户A的月收入为8000元,负债每月2000元,名下有一套价值100万元的房产,请问该客户申请50万元的信用贷款是否符合条件”,需根据知识库中的信贷政策知识点进行推理分析。
3.知识点检索与排序:根据用户问题的意图,从构建的知识库中检索相关的知识点,并按照与问题的相关性、准确性等因素进行排序,每个问题输出top3的知识点,且每个知识点的字数不超过1500字。对于多跳问题,需进行多步检索和关联分析,逐步获取所需知识点;对于总结类问题,需对检索到的相关知识点进行归纳总结,形成简洁、全面的回答知识点。
四、奖金设置
为了鼓励参赛选手参赛积极性,本赛题根据总决赛成绩,对成绩排名前三名的参赛团队设置奖金。
1.冠军奖:第1名,奖金20000元/每团队
2.亚军奖:第2名,奖金10000元/每团队
3.季军奖:第3名,奖金5000元/每团队
赛题规则文档:金融多模态知识库构建与复杂问答检索算法赛题规则
赛事通知:关于举办全球青年智能体应用场景创新创业挑战赛的通知

2024精彩瞬间
大赛回顾
关注我们