ecad9ccd82
feat: 实现智能指令的格式转换和文档编辑功能
...
主要更新:
- 新增 transform 意图:支持 Word/Excel/Markdown 格式互转
- 新增 edit 意图:使用 LLM 润色编辑文档内容
- 智能指令接口增加异步执行模式(async_execute 参数)
- 修复 Word 模板导出文档损坏问题(改用临时文件方式)
- 优化 intent_parser 增加 transform/edit 关键词识别
新增文件:
- app/api/endpoints/instruction.py: 智能指令 API 端点
- app/services/multi_doc_reasoning_service.py: 多文档推理服务
其他优化:
- RAG 服务混合搜索(BM25 + 向量)融合
- 模板填充服务表头匹配增强
- Word AI 解析服务返回结构完善
- 前端 InstructionChat 组件对接真实 API
2026-04-14 20:39:37 +08:00
51350e3002
123
2026-04-14 17:35:40 +08:00
8e713be1ca
Merge remote changes with RAG service optimization
...
- Keep user's RAG service integration for faster extraction
- Add remote's word_ai_service support
- Preserve user's parallel extraction and field header optimizations
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-04-14 17:25:13 +08:00
f2af27245d
增强 Word 文档 AI 解析和模板填充功能
2026-04-14 17:16:38 +08:00
a9dc0d8b91
优化智能填表功能:提升速度、完善数据提取精度
...
后端优化 (template_fill_service.py):
1. 速度优化:
- 使用 asyncio.gather 实现字段并行提取
- 跳过 AI 审核步骤,减少 LLM 调用次数
- 新增 _extract_single_field_fast 方法
2. 数据提取优化:
- 集成 RAG 服务进行智能内容检索
- 修复 Markdown 表格列匹配跳过空列
- 修复年份子表头行误识别问题
3. AI 表头生成优化:
- 精简为 5-7 个代表性字段(原来 8-15 个)
- 过滤非数据字段(source、备注、说明等)
- 简化字段名,如"医院数量"而非"医院-公立医院数量"
4. AI 数据提取 prompt 优化:
- 严格按表头提取,只返回相关数据
- 每个值必须带标注(年份/地区/分类)
- 支持多种标注类型:2024年、北京、某省、公立医院、三级医院等
- 保留原始数值、单位和百分号格式
- 不返回大段来源说明
5. FillResult 新增 warning 字段:
- 多值检测提示,如"检测到 2 个值"
前端优化 (TemplateFill.tsx):
- 填写详情显示多值警告(黄色提示框)
- 多值情况下直接显示所有值
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-04-14 17:14:59 +08:00
8b5b24fa2a
Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem
2026-04-14 14:57:53 +08:00
ed66aa346d
tl
2026-04-10 10:24:52 +08:00
5b82d40be0
Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem
2026-04-10 10:10:41 +08:00
bedf1af9c0
增强 Word 文档 AI 解析和模板填充功能
2026-04-10 09:48:57 +08:00
5fca4eb094
添加临时文件清理异常处理和修改大纲接口为POST方法
...
- 在analyze_markdown、analyze_markdown_stream和get_markdown_outline函数中添加了
try-catch块来处理临时文件清理过程中的异常
- 将/analyze/md/outline接口从GET方法改为POST方法以支持文件上传
- 确保在所有情况下都能正确清理临时文件,并记录清理失败的日志
refactor(health): 改进健康检查逻辑验证实际数据库连接
- 修改MySQL健康检查,实际执行SELECT 1查询来验证连接
- 修改MongoDB健康检查,执行ping命令来验证连接
- 修改Redis健康检查,执行ping命令来验证连接
- 添加异常捕获并记录具体的错误日志
refactor(upload): 使用os.path.basename优化文件名提取
- 替换手动字符串分割为os.path.basename来获取文件名
- 统一Excel上传和导出中文件名的处理方式
feat(instruction): 新增指令执行框架模块
- 创建instruction包包含意图解析和指令执行的基础架构
- 添加IntentParser和InstructionExecutor抽象基类
- 提供默认实现但标记为未完成,为未来功能扩展做准备
refactor(frontend): 调整AuthContext导入路径并移除重复文件
- 将AuthContext从src/context移动到src/contexts目录
- 更新App.tsx和RouteGuard.tsx中的导入路径
- 移除旧的AuthContext.tsx文件
fix(backend-api): 修复AI分析API的HTTP方法错误
- 将aiApi中的fetch请求方法从GET改为POST以支持文件上传
2026-04-10 01:51:53 +08:00
858b594171
添加任务状态双写机制和历史记录功能
...
- 实现任务状态同时写入Redis和MongoDB的双写机制
- 添加MongoDB任务集合及CRUD操作接口
- 新增任务历史记录查询、列表展示和删除功能
- 重构任务状态更新逻辑,统一使用update_task_status函数
- 添加模板填服务中AI审核字段值的功能
- 优化前端任务历史页面显示和交互体验
2026-04-10 01:15:53 +08:00
6befc510d8
刷新的debug
2026-04-10 00:23:23 +08:00
8f66c235fa
实现并行多文件上传的功能并且在列表显示上传了哪些文件,支持多次上传
2026-04-10 00:16:28 +08:00
610d475ce0
新增从文档中心选择源文档功能及删除功能
...
智能填表模块新增"从文档中心选择"模式,支持选择已上传的文档作为数据源,
同时支持从列表中删除文档。两种模式通过Tab切换。
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-04-09 22:35:13 +08:00
7f67fa89de
添加AI生成表头功能并重构前端状态管理
...
- 后端:实现AI生成表头逻辑,当模板为空或字段为自动生成时调用AI分析并生成合适字段
- 后端:添加_is_auto_generated_field方法识别自动生成的无效表头字段
- 后端:修改_get_template_fields_from_excel方法支持文件类型参数
- 前端:创建TemplateFillContext提供全局状态管理
- 前端:将TemplateFill页面状态迁移到Context中统一管理
- 前端:移除页面内重复的状态定义和方法实现
2026-04-09 22:15:37 +08:00
e5711b3f05
新增联合上传模板和源文档功能
...
新增 upload-joint 接口支持模板文件和源文档的一键式联合上传处理,
包括异步文档解析和MongoDB存储功能;前端新增对应API调用方法和UI界
面,优化表格填写流程,支持拖拽上传和实时预览功能。
2026-04-09 20:35:41 +08:00
2c2ab56d2d
修复智能填表功能:支持直接从结构化数据提取列值并完善JSON解析
...
- 新增 _extract_values_from_structured_data 方法,直接从Excel rows提取列值
- 新增 _extract_values_by_regex 方法,使用正则从损坏的JSON中提取值
- 增大 max_tokens (500→50000) 和 max_length (8000→200000) 限制
- 改进JSON解析逻辑,处理markdown代码块包裹和不完整JSON
- 解决LLM返回被截断的JSON无法正确解析的问题
2026-04-09 19:33:05 +08:00
b2ebd3e12d
tl
2026-04-08 20:45:02 +08:00
38e41c6eff
zyh
2026-04-08 20:23:51 +08:00
3b82103e87
添加XML回退解析机制支持复杂Excel文件
...
当pandas无法解析某些包含非标准元素的Excel文件时,
添加了XML直接解析功能来提取工作表名称和数据。
- 实现了`_extract_sheet_names_from_xml`方法从XML提取工作表名称
- 实现了`_read_excel_sheet_xml`方法直接解析Excel XML数据
- 添加多种命名空间支持以处理不同Excel格式
- 在pandas解析失败时自动回退到XML解析方式
fix(excel-storage-service): 修复XML解析中的命名空间问题
改进了XML解析逻辑,添加对多种命名空间的支持,
使用通配符查找元素以兼容不同Excel文件格式。
refactor(table-rag-service): 优化XML解析逻辑提高兼容性
统一了XML解析的命名空间处理方式,
改进了元素查找逻辑以更好地支持不同Excel格式。
feat(frontend): 添加RAG向量检索和索引重建功能
- 实现了RAG状态查看、搜索和索引重建接口
- 添加了前端RAG检索界面组件
- 增加了错误处理和加载状态提示
2026-04-08 19:21:40 +08:00
41e5eaaa2d
feat(markdown-ai): 添加可视化图表生成功能
...
- 新增 charts 分析类型,支持从文档中提取数据并生成可视化图表
- 集成 visualization_service 服务进行数据分析和图表生成
- 扩展 MarkdownAIService 支持 JSON 解析和图表数据处理
- 添加 _parse_chart_json 方法处理 LLM 返回的 JSON 数据
- 更新 API 接口定义支持 chart_data 返回字段
- 在前端界面添加图表分析选项和对应图标显示
- 修复 ExcelStorageService 中 id 列名为 MySQL 保留字的问题
2026-04-02 13:28:39 +08:00
d189ea9620
feat(ai-analyze): 新增 Markdown 文件 AI 分析功能
...
- 添加 Markdown 文件上传和解析接口
- 实现流式分析和大纲提取功能
- 支持多种分析类型:摘要、大纲、关键点等
- 新增 markdown_ai_service 服务类
- 扩展 LLMService 支持流式调用
- 更新前端 API 接口定义和实现
2026-04-02 11:53:12 +08:00
332f0f636d
完善前端页面
2026-03-27 02:55:06 +08:00
d494e78f70
修改前端
2026-03-27 02:02:15 +08:00
091c9db0da
修改前端
2026-03-27 01:54:55 +08:00
4e178477fe
更新后端
2026-03-27 01:40:48 +08:00
7c88da9ab1
完善数据库调用
2026-03-27 00:06:17 +08:00
4bdc3f9707
完成后端数据库连接配置
2026-03-26 19:49:40 +08:00
d3bdb17e87
修正仓库需要忽略的文件
2026-03-24 18:46:32 +08:00
2f630695ff
前后端基本架构和完全excel表的解析及统计图表的生成以及excel表的到出
2026-03-19 01:51:34 +08:00
c23b93bb70
配置前端Vue环境
2026-03-13 08:33:51 +08:00
67e29d5800
配置前端Vue环境
2026-03-13 08:21:56 +08:00
0b00e27dbd
配置前端vue环境
2026-03-13 00:28:41 +08:00