《况琨-学科大模型实践及相关思考.pdf》由会员分享,可在线阅读,更多相关《况琨-学科大模型实践及相关思考.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、学科大模型实践及相关思考况琨浙江大学计算机学院提纲司法、教育等学科大模型建设生成式人工智能的不能2当前司法审判存在的主要问题和痛点3案多人少,345件/人/年 并且持续上升简单案件花费大量精力,重复劳动多案件审理周期长,群众满意度不高ABC法官智慧司法智慧司法智能审判智能审判算法公平算法公平提速升效提速升效裁判标准难统一,同案同判缺标尺D模型可解释模型可解释智慧司法智能审判系统框架4小模型赋能智慧司法业务应用争议焦点生成争议焦点生成裁判文书生成裁判文书生成法官话术生成法官话术生成智能法官助理“小智”智能法官助理“小智”裁判文书生成完整度9095%当庭宣判率当庭宣判率90%(before:40-
2、50%)缩短庭审时间庭审时间2-3小时 20-30分钟大模型引发范式革命 ChatGPT:高算力+大数据,现象级AI应用引发范式革命 类ChatGPT通用大模型在法律领域存在的一些问题 法律知识问题:无法提供可靠的参考内容(如法条引用),法律需要权威可靠的知识 知识更新问题:无法检索案件、文书;无法实施更新数据,法律业务需要可更新信息 业务对其问题:问题话术不够准确,存在知识混淆问题(夹带西方法学观点)6评估测试时扩展大语言模型的法律推理能力:OpenAI o1、DeepSeek-R1及其他7评估的大模型与法律任务17个法律推理任务(10项中文任务和7项英文任务)9个通用及相应的扩展大模型Ya
3、oyao Yu,Leilei Gan,Yinghao Hu,Bin Wei,Kun Kuang,Fei Wu.Evaluating Test-Time Scaling LLMs for Legal Reasoning:OpenAI o1,DeepSeek-R1,and Beyond.arXiv:2503.16040评估测试时扩展大语言模型的法律推理能力:OpenAI o1、DeepSeek-R1及其他英文法律推理任务上的评测结果:DeepSeek-R1英文法律推理能力不俗,在多个任务上媲美OpenAI-o1模型。Yaoyao Yu,Leilei Gan,Yinghao Hu,Bin Wei,K
4、un Kuang,Fei Wu.Evaluating Test-Time Scaling LLMs for Legal Reasoning:OpenAI o1,DeepSeek-R1,and Beyond.arXiv:2503.16040评估测试时扩展大语言模型的法律推理能力:OpenAI o1、DeepSeek-R1及其他中文法律推理任务上的评测结果:DeepSeek-R1展现了强大的中文法律推理能力,在多个任务上超过OpenAI-o1模型。但其在法律多跳任务推理(71.67%),法律判决预测(78%),辩论挖掘(57.79%)等方面准确率还有待进一步提升。Yaoyao Yu,Leilei
5、Gan,Yinghao Hu,Bin Wei,Kun Kuang,Fei Wu.Evaluating Test-Time Scaling LLMs for Legal Reasoning:OpenAI o1,DeepSeek-R1,and Beyond.arXiv:2503.16040评估测试时扩展大语言模型的法律推理能力:OpenAI o1、DeepSeek-R1及其他错误分析DeepSeek-R1在中英文法律任务中的错误分析揭示了几个关键不足:法律知识储备不足且滞后 法律问题理解能力有限 推理过程中存在事实性幻觉构建高质量法律数据与知识训练司法垂直领域大模型Yaoyao Yu,Leilei
6、 Gan,Yinghao Hu,Bin Wei,Kun Kuang,Fei Wu.Evaluating Test-Time Scaling LLMs for Legal Reasoning:OpenAI o1,DeepSeek-R1,and Beyond.arXiv:2503.16040从通用到垂直领域专用:司法领域垂直大模型“智海-录问”中文司法知识数据 40G3189部法律50504部法规第一轮:“instruction”:本院查明,被告人酒后.请分析案情。“output”:根据上述内容,可以认定本案的核心要素包括醉酒驾驶、致人受伤、酒后逃逸.,第二轮:“instruction”:根据上述