Commit Graph

48 Commits

Author SHA1 Message Date
d5df5b8283 增强模板填充服务支持非结构化文档AI分析
- 引入markdown_ai_service服务支持Markdown文档处理
- 实现_nonstructured_docs_for_fields方法对非结构化文档进行AI分析
- 优化LLM提示词,改进数据提取的准确性和格式规范
- 支持从Markdown表格格式{tables: [{headers: [...], rows: [...]}]}中提取数据
- 添加文档章节结构解析,提升上下文理解能力
- 增加JSON响应格式修复功能,提高数据解析成功率
2026-04-09 21:00:31 +08:00
e5711b3f05 新增联合上传模板和源文档功能
新增 upload-joint 接口支持模板文件和源文档的一键式联合上传处理,
包括异步文档解析和MongoDB存储功能;前端新增对应API调用方法和UI界
面,优化表格填写流程,支持拖拽上传和实时预览功能。
2026-04-09 20:35:41 +08:00
dj
df35105d16 解决合并冲突,保留以下改进:
- 新增 _extract_values_from_structured_data 方法,直接从 Excel rows 提取列值
- 新增 _extract_values_by_regex 方法,使用正则从损坏的 JSON 中提取值
- 增大 max_tokens (500→50000) 和 max_length (8000→200000) 限制
- 改进 JSON 解析逻辑,处理 markdown 代码块包裹和不完整 JSON
2026-04-09 19:37:10 +08:00
dj
2c2ab56d2d 修复智能填表功能:支持直接从结构化数据提取列值并完善JSON解析
- 新增 _extract_values_from_structured_data 方法,直接从Excel rows提取列值
- 新增 _extract_values_by_regex 方法,使用正则从损坏的JSON中提取值
- 增大 max_tokens (500→50000) 和 max_length (8000→200000) 限制
- 改进JSON解析逻辑,处理markdown代码块包裹和不完整JSON
- 解决LLM返回被截断的JSON无法正确解析的问题
2026-04-09 19:33:05 +08:00
dj
faff1a5977 djh 2026-04-09 17:40:10 +08:00
tl
b2ebd3e12d tl 2026-04-08 20:45:02 +08:00
zzz
4eda6cf758 zyh 2026-04-08 20:27:24 +08:00
zzz
38e41c6eff zyh 2026-04-08 20:23:51 +08:00
6f8976cf71 Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem 2026-04-08 19:59:56 +08:00
44d389a434 临时禁用RAG服务并添加日志记录
- 在RAGService中添加_disabled标志,临时禁用所有RAG功能
- 添加详细的日志记录,便于调试和监控被跳过的操作
- 在TableRAGService中同样添加禁用机制,避免索引构建

refactor(file): 更新.gitignore忽略日志目录

- 添加**/logs/到.gitignore文件中

docs(plan): 添加比赛备赛规划文档

- 创建完整的比赛备赛规划文档,包含功能清单和待办事项
- 记录已完成功能和核心缺失模块,便于项目跟踪

chore(excel): 添加Q&A参考文件

- 添加Q&A.xlsx作为参考文档,包含比赛相关问题解答
2026-04-08 19:59:41 +08:00
dj
c75eb26d60 Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem 2026-04-08 19:22:38 +08:00
3b82103e87 添加XML回退解析机制支持复杂Excel文件
当pandas无法解析某些包含非标准元素的Excel文件时,
添加了XML直接解析功能来提取工作表名称和数据。

- 实现了`_extract_sheet_names_from_xml`方法从XML提取工作表名称
- 实现了`_read_excel_sheet_xml`方法直接解析Excel XML数据
- 添加多种命名空间支持以处理不同Excel格式
- 在pandas解析失败时自动回退到XML解析方式

fix(excel-storage-service): 修复XML解析中的命名空间问题

改进了XML解析逻辑,添加对多种命名空间的支持,
使用通配符查找元素以兼容不同Excel文件格式。

refactor(table-rag-service): 优化XML解析逻辑提高兼容性

统一了XML解析的命名空间处理方式,
改进了元素查找逻辑以更好地支持不同Excel格式。

feat(frontend): 添加RAG向量检索和索引重建功能

- 实现了RAG状态查看、搜索和索引重建接口
- 添加了前端RAG检索界面组件
- 增加了错误处理和加载状态提示
2026-04-08 19:21:40 +08:00
dj
fd435c7fd3 Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem 2026-04-08 19:17:05 +08:00
41e5eaaa2d feat(markdown-ai): 添加可视化图表生成功能
- 新增 charts 分析类型,支持从文档中提取数据并生成可视化图表
- 集成 visualization_service 服务进行数据分析和图表生成
- 扩展 MarkdownAIService 支持 JSON 解析和图表数据处理
- 添加 _parse_chart_json 方法处理 LLM 返回的 JSON 数据
- 更新 API 接口定义支持 chart_data 返回字段
- 在前端界面添加图表分析选项和对应图标显示
- 修复 ExcelStorageService 中 id 列名为 MySQL 保留字的问题
2026-04-02 13:28:39 +08:00
7c19e49988 feat(excel): 添加对特殊Excel文件的XML解析支持
添加了从Excel文件XML直接解析工作表名称和数据的功能,
以支持pandas无法正确解析的特殊格式Excel文件。
同时更新了.gitignore文件,添加了更多忽略规则。
修复了markdown AI服务中的正则表达式模式匹配问题。
2026-04-02 13:19:00 +08:00
d189ea9620 feat(ai-analyze): 新增 Markdown 文件 AI 分析功能
- 添加 Markdown 文件上传和解析接口
- 实现流式分析和大纲提取功能
- 支持多种分析类型:摘要、大纲、关键点等
- 新增 markdown_ai_service 服务类
- 扩展 LLMService 支持流式调用
- 更新前端 API 接口定义和实现
2026-04-02 11:53:12 +08:00
ddf30078f0 feat(tasks): 优化任务状态查询接口
当Redis中找不到任务状态时,不再抛出404异常,而是返回任务已完成的状态,
避免前端轮询时出现错误。这样可以确保文档处理完成后前端能正确显示结果。
2026-04-02 11:16:14 +08:00
1a54d40e01 ```
feat(excel_storage_service): 改进Excel数据类型检测逻辑

移除了空值进行类型检查,避免空数据导致的错误判断。对于整数类型,
增加了范围检查以确保数值在INT范围内;对于浮点数类型,增加了
范围验证以确保数值在有效范围内。超出范围的数值将被标记为TEXT类型,
提高数据类型的准确性。
```
2026-04-02 10:44:13 +08:00
ec4759512d ```
feat(database): 为MySQL服务添加text函数导入支持

添加了SQLAlchemy的text函数导入,用于支持原始SQL查询操作,
增强数据库交互的灵活性和兼容性。

---

feat(excel): 改进Excel存储服务的列名处理机制

优化了列名清理逻辑,支持UTF8编码包括中文字符,实现唯一列名
生成机制,防止列名冲突。同时切换到pymysql直接插入方式,
提升批量数据插入性能并解决SQLAlchemy异步问题。

---

fix(rag): 改进RAG服务嵌入模型加载策略

当嵌入模型加载失败时,采用更稳健的降级策略,使用简化模式
运行RAG服务而非完全失败,确保系统核心功能可用性。
```
2026-04-02 03:39:00 +08:00
8e1ddb8aff ```
feat(config): 添加RAG/Embedding配置选项

- 新增EMBEDDING_MODEL配置项,默认值为"all-MiniLM-L6-v2"
- 用于支持RAG服务的嵌入模型配置

feat(database): 增强MySQL数据库初始化功能

- 实现数据库自动创建功能,若数据库不存在则自动创建
- 使用临时连接在不指定数据库的情况下执行CREATE DATABASE语句
- 支持utf8mb4字符集和排序规则设置

refactor(excel): 优化Excel表创建逻辑

- 将表创建方式从ORM模型改为原生SQL语句
- 提高异步操作的兼容性
- 增加自动时间戳字段(created_at, updated_at)

feat(rag): 增强RAG服务嵌入模型错误处理

- 添加嵌入模型加载异常处理机制
- 当配置的模型加载失败时自动回退到默认模型
- 改进日志记录,提供更详细的初始化信息
```
2026-04-02 02:42:03 +08:00
8b12cb9322 完成本地日志构建 2026-04-01 22:53:51 +08:00
dj
b9ca11efe5 重建 package.json 文件 2026-04-01 14:10:30 +08:00
c122f1d63b 完善后端日志 2026-03-30 21:24:13 +08:00
332f0f636d 完善前端页面 2026-03-27 02:55:06 +08:00
d494e78f70 修改前端 2026-03-27 02:02:15 +08:00
091c9db0da 修改前端 2026-03-27 01:54:55 +08:00
4e178477fe 更新后端 2026-03-27 01:40:48 +08:00
7c88da9ab1 完善数据库调用 2026-03-27 00:06:17 +08:00
6b88e971e8 后端完成异步和rag设置 2026-03-26 23:41:03 +08:00
5bcad4a5fa 添加其他格式文档的解析 2026-03-26 23:14:39 +08:00
4bdc3f9707 完成后端数据库连接配置 2026-03-26 19:49:40 +08:00
d3bdb17e87 修正仓库需要忽略的文件 2026-03-24 18:46:32 +08:00
eab5f88662 完成前后端基本架构和excel表的解析及统计图表的生成及导出 2026-03-19 07:17:44 +08:00
2f630695ff 前后端基本架构和完全excel表的解析及统计图表的生成以及excel表的到出 2026-03-19 01:51:34 +08:00
c23b93bb70 配置前端Vue环境 2026-03-13 08:33:51 +08:00
67e29d5800 配置前端Vue环境 2026-03-13 08:21:56 +08:00
0b00e27dbd 配置前端vue环境 2026-03-13 00:28:41 +08:00
zzz
12053a8fb1 测试 2026-03-10 21:49:35 +08:00
tl
b32b1983ce 测试提交 2026-03-10 00:16:07 +08:00
d8266e6d05 更新git相关配置 2026-03-08 12:10:10 +08:00
249cb5f6fd Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem 2026-03-08 12:08:11 +08:00
b4a32748c5 更新git相关配置 2026-03-08 12:08:03 +08:00
dj
96f83042d8 测试git 2026-03-08 10:53:03 +08:00
5241f68190 配置 API Key 环境变量,完成 FastAPI 基础配置 2026-02-24 21:07:05 +08:00
9de6c935fa 配置 API Key 环境变量,完成 FastAPI 基础配置 2026-02-24 21:05:55 +08:00
2302d005a1 测试链接云端MongoDB数据库 2026-02-24 13:56:34 +08:00
bbbb475e22 创建仓库和配置项目环境 2026-02-21 21:34:39 +08:00
0486626a99 创建仓库 2026-02-21 20:09:03 +08:00