8e713be1ca
Merge remote changes with RAG service optimization
...
- Keep user's RAG service integration for faster extraction
- Add remote's word_ai_service support
- Preserve user's parallel extraction and field header optimizations
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-04-14 17:25:13 +08:00
f2af27245d
增强 Word 文档 AI 解析和模板填充功能
2026-04-14 17:16:38 +08:00
a9dc0d8b91
优化智能填表功能:提升速度、完善数据提取精度
...
后端优化 (template_fill_service.py):
1. 速度优化:
- 使用 asyncio.gather 实现字段并行提取
- 跳过 AI 审核步骤,减少 LLM 调用次数
- 新增 _extract_single_field_fast 方法
2. 数据提取优化:
- 集成 RAG 服务进行智能内容检索
- 修复 Markdown 表格列匹配跳过空列
- 修复年份子表头行误识别问题
3. AI 表头生成优化:
- 精简为 5-7 个代表性字段(原来 8-15 个)
- 过滤非数据字段(source、备注、说明等)
- 简化字段名,如"医院数量"而非"医院-公立医院数量"
4. AI 数据提取 prompt 优化:
- 严格按表头提取,只返回相关数据
- 每个值必须带标注(年份/地区/分类)
- 支持多种标注类型:2024年、北京、某省、公立医院、三级医院等
- 保留原始数值、单位和百分号格式
- 不返回大段来源说明
5. FillResult 新增 warning 字段:
- 多值检测提示,如"检测到 2 个值"
前端优化 (TemplateFill.tsx):
- 填写详情显示多值警告(黄色提示框)
- 多值情况下直接显示所有值
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-04-14 17:14:59 +08:00
902c28166b
tl
2026-04-14 15:18:50 +08:00
4a53be7eeb
TL
2026-04-14 14:58:14 +08:00
8b5b24fa2a
Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem
2026-04-14 14:57:53 +08:00
ed66aa346d
tl
2026-04-10 10:24:52 +08:00
5b82d40be0
Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem
2026-04-10 10:10:41 +08:00
bedf1af9c0
增强 Word 文档 AI 解析和模板填充功能
2026-04-10 09:48:57 +08:00
5fca4eb094
添加临时文件清理异常处理和修改大纲接口为POST方法
...
- 在analyze_markdown、analyze_markdown_stream和get_markdown_outline函数中添加了
try-catch块来处理临时文件清理过程中的异常
- 将/analyze/md/outline接口从GET方法改为POST方法以支持文件上传
- 确保在所有情况下都能正确清理临时文件,并记录清理失败的日志
refactor(health): 改进健康检查逻辑验证实际数据库连接
- 修改MySQL健康检查,实际执行SELECT 1查询来验证连接
- 修改MongoDB健康检查,执行ping命令来验证连接
- 修改Redis健康检查,执行ping命令来验证连接
- 添加异常捕获并记录具体的错误日志
refactor(upload): 使用os.path.basename优化文件名提取
- 替换手动字符串分割为os.path.basename来获取文件名
- 统一Excel上传和导出中文件名的处理方式
feat(instruction): 新增指令执行框架模块
- 创建instruction包包含意图解析和指令执行的基础架构
- 添加IntentParser和InstructionExecutor抽象基类
- 提供默认实现但标记为未完成,为未来功能扩展做准备
refactor(frontend): 调整AuthContext导入路径并移除重复文件
- 将AuthContext从src/context移动到src/contexts目录
- 更新App.tsx和RouteGuard.tsx中的导入路径
- 移除旧的AuthContext.tsx文件
fix(backend-api): 修复AI分析API的HTTP方法错误
- 将aiApi中的fetch请求方法从GET改为POST以支持文件上传
2026-04-10 01:51:53 +08:00
0dbf74db9d
添加任务ID跟踪功能到模板填充接口
...
- 在FillRequest中添加可选的task_id字段,用于任务历史跟踪
- 实现任务状态管理,包括创建、更新和错误处理
- 集成MongoDB任务记录功能,在处理过程中更新进度
- 添加任务进度更新逻辑,支持开始、处理中、成功和失败状态
- 修改模板填充服务以接收并传递task_id参数
2026-04-10 01:27:26 +08:00
858b594171
添加任务状态双写机制和历史记录功能
...
- 实现任务状态同时写入Redis和MongoDB的双写机制
- 添加MongoDB任务集合及CRUD操作接口
- 新增任务历史记录查询、列表展示和删除功能
- 重构任务状态更新逻辑,统一使用update_task_status函数
- 添加模板填服务中AI审核字段值的功能
- 优化前端任务历史页面显示和交互体验
2026-04-10 01:15:53 +08:00
ecc0c79475
增强模板填写服务支持表格内容摘要和表头重生成
...
- 在源文档解析过程中增加表格内容摘要功能,提取表格结构用于AI理解
- 新增表格摘要逻辑,包括表头和前3行数据的提取和格式化
- 添加模板文件类型识别,支持xlsx和docx格式判断
- 实现基于源文档内容的表头自动重生成功能
- 当检测到自动生成的表头时,使用源文档内容重新生成更准确的字段
- 增加详细的调试日志用于跟踪表格处理过程
2026-04-10 00:26:54 +08:00
886d5ae0cc
Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem
2026-04-09 22:44:01 +08:00
6752c5c231
优化联合模板上传逻辑支持源文档内容解析
...
- 移除模板文件字段提取步骤,改为直接保存模板文件
- 新增源文档解析功能,提取文档内容、标题和表格数量信息
- 修改模板填充服务,支持传入源文档内容用于AI表头生成
- 更新AI表头生成逻辑,基于源文档内容智能生成合适的表头字段
- 增强日志记录,显示源文档数量和处理进度
2026-04-09 22:43:51 +08:00
496b96508d
修复Excel解析和智能填表功能
...
- 增强Excel解析器支持多种命名空间和路径格式,解决英文表头Excel无法读取问题
- 当MongoDB中structured_data为空时,尝试用file_path重新解析文件
- 改进AI分析提示词,明确要求返回纯数值不要单位
- 修复max_tokens值(5000→4000)避免DeepSeek API报错
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-04-09 22:21:51 +08:00
07ebdc09bc
Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem
2026-04-09 22:18:12 +08:00
7f67fa89de
添加AI生成表头功能并重构前端状态管理
...
- 后端:实现AI生成表头逻辑,当模板为空或字段为自动生成时调用AI分析并生成合适字段
- 后端:添加_is_auto_generated_field方法识别自动生成的无效表头字段
- 后端:修改_get_template_fields_from_excel方法支持文件类型参数
- 前端:创建TemplateFillContext提供全局状态管理
- 前端:将TemplateFill页面状态迁移到Context中统一管理
- 前端:移除页面内重复的状态定义和方法实现
2026-04-09 22:15:37 +08:00
c1886fb68f
Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem
2026-04-09 21:42:14 +08:00
78417c898a
改进智能填表功能:支持Markdown表格提取和修复LLM调用
...
- 新增对MongoDB存储的tables格式支持,直接从structured_data.tables提取数据
- 修复max_tokens值过大问题(50000→4000),解决DeepSeek API限制
- 增强列名匹配算法,支持模糊匹配
- 添加详细日志便于调试结构化数据提取过程
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com >
2026-04-09 21:42:07 +08:00
d5df5b8283
增强模板填充服务支持非结构化文档AI分析
...
- 引入markdown_ai_service服务支持Markdown文档处理
- 实现_nonstructured_docs_for_fields方法对非结构化文档进行AI分析
- 优化LLM提示词,改进数据提取的准确性和格式规范
- 支持从Markdown表格格式{tables: [{headers: [...], rows: [...]}]}中提取数据
- 添加文档章节结构解析,提升上下文理解能力
- 增加JSON响应格式修复功能,提高数据解析成功率
2026-04-09 21:00:31 +08:00
718f864926
修改读取excel表时存在数字时浮点匹配生成不一致问题
2026-04-09 20:56:38 +08:00
e5711b3f05
新增联合上传模板和源文档功能
...
新增 upload-joint 接口支持模板文件和源文档的一键式联合上传处理,
包括异步文档解析和MongoDB存储功能;前端新增对应API调用方法和UI界
面,优化表格填写流程,支持拖拽上传和实时预览功能。
2026-04-09 20:35:41 +08:00
2c2ab56d2d
修复智能填表功能:支持直接从结构化数据提取列值并完善JSON解析
...
- 新增 _extract_values_from_structured_data 方法,直接从Excel rows提取列值
- 新增 _extract_values_by_regex 方法,使用正则从损坏的JSON中提取值
- 增大 max_tokens (500→50000) 和 max_length (8000→200000) 限制
- 改进JSON解析逻辑,处理markdown代码块包裹和不完整JSON
- 解决LLM返回被截断的JSON无法正确解析的问题
2026-04-09 19:33:05 +08:00
38e41c6eff
zyh
2026-04-08 20:23:51 +08:00
44d389a434
临时禁用RAG服务并添加日志记录
...
- 在RAGService中添加_disabled标志,临时禁用所有RAG功能
- 添加详细的日志记录,便于调试和监控被跳过的操作
- 在TableRAGService中同样添加禁用机制,避免索引构建
refactor(file): 更新.gitignore忽略日志目录
- 添加**/logs/到.gitignore文件中
docs(plan): 添加比赛备赛规划文档
- 创建完整的比赛备赛规划文档,包含功能清单和待办事项
- 记录已完成功能和核心缺失模块,便于项目跟踪
chore(excel): 添加Q&A参考文件
- 添加Q&A.xlsx作为参考文档,包含比赛相关问题解答
2026-04-08 19:59:41 +08:00
3b82103e87
添加XML回退解析机制支持复杂Excel文件
...
当pandas无法解析某些包含非标准元素的Excel文件时,
添加了XML直接解析功能来提取工作表名称和数据。
- 实现了`_extract_sheet_names_from_xml`方法从XML提取工作表名称
- 实现了`_read_excel_sheet_xml`方法直接解析Excel XML数据
- 添加多种命名空间支持以处理不同Excel格式
- 在pandas解析失败时自动回退到XML解析方式
fix(excel-storage-service): 修复XML解析中的命名空间问题
改进了XML解析逻辑,添加对多种命名空间的支持,
使用通配符查找元素以兼容不同Excel文件格式。
refactor(table-rag-service): 优化XML解析逻辑提高兼容性
统一了XML解析的命名空间处理方式,
改进了元素查找逻辑以更好地支持不同Excel格式。
feat(frontend): 添加RAG向量检索和索引重建功能
- 实现了RAG状态查看、搜索和索引重建接口
- 添加了前端RAG检索界面组件
- 增加了错误处理和加载状态提示
2026-04-08 19:21:40 +08:00
41e5eaaa2d
feat(markdown-ai): 添加可视化图表生成功能
...
- 新增 charts 分析类型,支持从文档中提取数据并生成可视化图表
- 集成 visualization_service 服务进行数据分析和图表生成
- 扩展 MarkdownAIService 支持 JSON 解析和图表数据处理
- 添加 _parse_chart_json 方法处理 LLM 返回的 JSON 数据
- 更新 API 接口定义支持 chart_data 返回字段
- 在前端界面添加图表分析选项和对应图标显示
- 修复 ExcelStorageService 中 id 列名为 MySQL 保留字的问题
2026-04-02 13:28:39 +08:00
7c19e49988
feat(excel): 添加对特殊Excel文件的XML解析支持
...
添加了从Excel文件XML直接解析工作表名称和数据的功能,
以支持pandas无法正确解析的特殊格式Excel文件。
同时更新了.gitignore文件,添加了更多忽略规则。
修复了markdown AI服务中的正则表达式模式匹配问题。
2026-04-02 13:19:00 +08:00
d189ea9620
feat(ai-analyze): 新增 Markdown 文件 AI 分析功能
...
- 添加 Markdown 文件上传和解析接口
- 实现流式分析和大纲提取功能
- 支持多种分析类型:摘要、大纲、关键点等
- 新增 markdown_ai_service 服务类
- 扩展 LLMService 支持流式调用
- 更新前端 API 接口定义和实现
2026-04-02 11:53:12 +08:00
ddf30078f0
feat(tasks): 优化任务状态查询接口
...
当Redis中找不到任务状态时,不再抛出404异常,而是返回任务已完成的状态,
避免前端轮询时出现错误。这样可以确保文档处理完成后前端能正确显示结果。
2026-04-02 11:16:14 +08:00
1a54d40e01
```
...
feat(excel_storage_service): 改进Excel数据类型检测逻辑
移除了空值进行类型检查,避免空数据导致的错误判断。对于整数类型,
增加了范围检查以确保数值在INT范围内;对于浮点数类型,增加了
范围验证以确保数值在有效范围内。超出范围的数值将被标记为TEXT类型,
提高数据类型的准确性。
```
2026-04-02 10:44:13 +08:00
ec4759512d
```
...
feat(database): 为MySQL服务添加text函数导入支持
添加了SQLAlchemy的text函数导入,用于支持原始SQL查询操作,
增强数据库交互的灵活性和兼容性。
---
feat(excel): 改进Excel存储服务的列名处理机制
优化了列名清理逻辑,支持UTF8编码包括中文字符,实现唯一列名
生成机制,防止列名冲突。同时切换到pymysql直接插入方式,
提升批量数据插入性能并解决SQLAlchemy异步问题。
---
fix(rag): 改进RAG服务嵌入模型加载策略
当嵌入模型加载失败时,采用更稳健的降级策略,使用简化模式
运行RAG服务而非完全失败,确保系统核心功能可用性。
```
2026-04-02 03:39:00 +08:00
8e1ddb8aff
```
...
feat(config): 添加RAG/Embedding配置选项
- 新增EMBEDDING_MODEL配置项,默认值为"all-MiniLM-L6-v2"
- 用于支持RAG服务的嵌入模型配置
feat(database): 增强MySQL数据库初始化功能
- 实现数据库自动创建功能,若数据库不存在则自动创建
- 使用临时连接在不指定数据库的情况下执行CREATE DATABASE语句
- 支持utf8mb4字符集和排序规则设置
refactor(excel): 优化Excel表创建逻辑
- 将表创建方式从ORM模型改为原生SQL语句
- 提高异步操作的兼容性
- 增加自动时间戳字段(created_at, updated_at)
feat(rag): 增强RAG服务嵌入模型错误处理
- 添加嵌入模型加载异常处理机制
- 当配置的模型加载失败时自动回退到默认模型
- 改进日志记录,提供更详细的初始化信息
```
2026-04-02 02:42:03 +08:00
8b12cb9322
完成本地日志构建
2026-04-01 22:53:51 +08:00
c122f1d63b
完善后端日志
2026-03-30 21:24:13 +08:00
332f0f636d
完善前端页面
2026-03-27 02:55:06 +08:00
4e178477fe
更新后端
2026-03-27 01:40:48 +08:00
7c88da9ab1
完善数据库调用
2026-03-27 00:06:17 +08:00
6b88e971e8
后端完成异步和rag设置
2026-03-26 23:41:03 +08:00
5bcad4a5fa
添加其他格式文档的解析
2026-03-26 23:14:39 +08:00
4bdc3f9707
完成后端数据库连接配置
2026-03-26 19:49:40 +08:00
d3bdb17e87
修正仓库需要忽略的文件
2026-03-24 18:46:32 +08:00
eab5f88662
完成前后端基本架构和excel表的解析及统计图表的生成及导出
2026-03-19 07:17:44 +08:00
2f630695ff
前后端基本架构和完全excel表的解析及统计图表的生成以及excel表的到出
2026-03-19 01:51:34 +08:00
12053a8fb1
测试
2026-03-10 21:49:35 +08:00
b32b1983ce
测试提交
2026-03-10 00:16:07 +08:00
d8266e6d05
更新git相关配置
2026-03-08 12:10:10 +08:00
249cb5f6fd
Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem
2026-03-08 12:08:11 +08:00
b4a32748c5
更新git相关配置
2026-03-08 12:08:03 +08:00