# 基于大语言模型的文档理解与多源数据融合系统需求文档

## 1. 应用概述

### 1.1 应用名称
基于大语言模型的文档理解与多源数据融合系统

### 1.2 应用描述
本系统旨在解决企事业单位在日常办公中面临的文本信息处理效率低下问题,通过引入人工智能技术实现文档的智能理解、信息自动提取、结构化存储以及智能表格填写,帮助用户从繁琐的重复性劳动中解放出来,提升整体工作效率。

## 2. 核心功能

### 2.1 文档智能操作交互模块
- 支持用户通过自然语言指令对文档进行操作
- 自动解析用户指令并执行相应的文档编辑、排版、格式调整、内容提取等操作
- 基于自然语言处理与文档结构理解技术实现人机交互

### 2.2 非结构化文档信息提取模块
- 支持用户导入各类非结构化文档(包括但不限于docx、md、xlsx、txt格式)
- 自动识别并提取文档中的关键信息、实体数据或用户指定内容
- 将提取的信息进行数据库存储
- 确保信息提取的准确性和入库的规范性
- 支持桌面端、Web网站或第三方平台部署

### 2.3 表格自定义数据填写模块
- 支持用户提供表格模板(word或excel格式)
- 从用户提供的非结构化数据中自动搜索相关信息
- 将搜索到的信息自动填写到表格中
- 生成具备直接业务应用价值的、格式严谨的汇总表格

## 3. 技术要求

### 3.1 系统架构
- 可基于开源或第三方商业AI平台构建
- 也可采用自研创新算法
- 系统可运行在H5小程序、原生App、Web网站、PC端软件等平台上

### 3.2 性能指标
- 信息提取准确率需高于80%
- 每个文档的响应时间至多为90秒
- 支持异步调用的API接口

### 3.3 数据处理能力
- 能够准确识别多种数据类型并在不同数据类型间稳定运行
- 支持比赛方提供的测试文档样本集(包括5个docx文档、3个md文档、5个xlsx文档、3个txt文档)

## 4. 交互流程

### 4.1 文档上传与处理流程
- 用户上传多个文档文件(支持docx、md、xlsx、txt格式)
- 系统自动识别并提取文档中的关键信息
- 将提取的信息进行数据库存储

### 4.2 表格填写流程
- 用户上传表格模板文件(word或excel格式)
- 系统从已存储的非结构化数据中自动搜索相关信息
- 将相关信息自动填写到表格中
- 完成填写后返回或展示结果表格

### 4.3 智能交互流程
- 用户通过自然语言输入操作指令
- 系统解析指令并识别用户需求
- 执行相应的文档操作并反馈结果

## 5. 参考信息

### 5.1 测试文档样本集
- 5个不小于500KB的docx格式文档
- 3个不小于15KB的md格式文档
- 5个不小于500KB的xlsx格式文档
- 3个不小于15KB的txt文档

### 5.2 评分标准
- 信息填写准确率(平均准确率)
- 响应时间(平均响应时间)
- 准确率差距2%以上时,准确率越高系统越好
- 准确率差距小于2%时,结合响应时间综合评价

## 6. 其他说明

### 6.1 开发工具
- 开发工具及平台不限
- 可借助开源工具
- 数据与功能API需提供技术说明

### 6.2 提交材料
- 项目概要介绍
- 项目简介PPT
- 项目详细方案
- 项目演示视频
- 企业要求提交的材料:
  - 训练素材详细的素材介绍与来源说明
  - 关键模块的概要设计和创新要点说明文档
  - 可运行的Demo实现程序
- 团队自愿提交的其他补充材料