|
|
e5d4724e82
|
【智能助手增强】
- 新增对话历史管理:MongoDB新增conversations集合,存储用户与AI的对话上下文,支持多轮对话意图延续
- 新增对话历史API(conversation.py):GET/DELETE conversation历史、列出所有会话
- 意图解析增强:支持基于对话历史的意图识别,上下文理解更准确
- 字段提取优化:支持"提取文档中的医院数量"等自然语言模式,智能去除"文档中的"前缀
- 文档对比优化:从指令中提取文件名并精确匹配source_docs,支持"对比A和B两个文档"
- 文档摘要优化:使用LLM生成真实AI摘要而非返回原始文档预览
【Word模板填表核心功能】
- Word模板字段生成:空白Word上传后,自动从源文档(Excel/Word/TXT/MD)内容AI生成字段名
- Word模板填表(_fill_docx):将提取数据写入Word模板表格,支持精确匹配、模糊匹配、追加新行
- 数据润色(_polish_word_filled_data):LLM对多行Excel数据进行统计归纳(合计/平均/极值),转化为专业自然语言描述
- 段落格式输出:使用📌字段名+值段落+分隔线(灰色横线)格式,提升可读性
- 导出链打通:fill_template返回filled_file_path,export直接返回已填好的Word文件
【其他修复】
- 修复Word导出Windows文件锁问题:NamedTemporaryFile改为mkstemp+close
- 修复Word方框非法字符:扩展clean_text移除\uFFFD、□等Unicode替代符和零宽字符
- 修复文档对比"需要至少2个文档":从指令提取具体文件名优先匹配而非取前2个
- 修复导出format硬编码:自动识别docx/xlsx格式
- Docx解析器增加备用解析方法和更完整的段落/表格/标题提取
- RAG服务新增MySQL数据源支持
|
2026-04-15 23:32:55 +08:00 |
|
|
|
5b82d40be0
|
Merge branch 'main' of https://gitea.kronecker.cc/OurCodesAreAllRight/FilesReadSystem
|
2026-04-10 10:10:41 +08:00 |
|
|
|
bedf1af9c0
|
增强 Word 文档 AI 解析和模板填充功能
|
2026-04-10 09:48:57 +08:00 |
|
|
|
496b96508d
|
修复Excel解析和智能填表功能
- 增强Excel解析器支持多种命名空间和路径格式,解决英文表头Excel无法读取问题
- 当MongoDB中structured_data为空时,尝试用file_path重新解析文件
- 改进AI分析提示词,明确要求返回纯数值不要单位
- 修复max_tokens值(5000→4000)避免DeepSeek API报错
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
|
2026-04-09 22:21:51 +08:00 |
|
|
|
2c2ab56d2d
|
修复智能填表功能:支持直接从结构化数据提取列值并完善JSON解析
- 新增 _extract_values_from_structured_data 方法,直接从Excel rows提取列值
- 新增 _extract_values_by_regex 方法,使用正则从损坏的JSON中提取值
- 增大 max_tokens (500→50000) 和 max_length (8000→200000) 限制
- 改进JSON解析逻辑,处理markdown代码块包裹和不完整JSON
- 解决LLM返回被截断的JSON无法正确解析的问题
|
2026-04-09 19:33:05 +08:00 |
|
|
|
38e41c6eff
|
zyh
|
2026-04-08 20:23:51 +08:00 |
|
|
|
3b82103e87
|
添加XML回退解析机制支持复杂Excel文件
当pandas无法解析某些包含非标准元素的Excel文件时,
添加了XML直接解析功能来提取工作表名称和数据。
- 实现了`_extract_sheet_names_from_xml`方法从XML提取工作表名称
- 实现了`_read_excel_sheet_xml`方法直接解析Excel XML数据
- 添加多种命名空间支持以处理不同Excel格式
- 在pandas解析失败时自动回退到XML解析方式
fix(excel-storage-service): 修复XML解析中的命名空间问题
改进了XML解析逻辑,添加对多种命名空间的支持,
使用通配符查找元素以兼容不同Excel文件格式。
refactor(table-rag-service): 优化XML解析逻辑提高兼容性
统一了XML解析的命名空间处理方式,
改进了元素查找逻辑以更好地支持不同Excel格式。
feat(frontend): 添加RAG向量检索和索引重建功能
- 实现了RAG状态查看、搜索和索引重建接口
- 添加了前端RAG检索界面组件
- 增加了错误处理和加载状态提示
|
2026-04-08 19:21:40 +08:00 |
|
|
|
332f0f636d
|
完善前端页面
|
2026-03-27 02:55:06 +08:00 |
|
|
|
6b88e971e8
|
后端完成异步和rag设置
|
2026-03-26 23:41:03 +08:00 |
|
|
|
5bcad4a5fa
|
添加其他格式文档的解析
|
2026-03-26 23:14:39 +08:00 |
|
|
|
4bdc3f9707
|
完成后端数据库连接配置
|
2026-03-26 19:49:40 +08:00 |
|
|
|
2f630695ff
|
前后端基本架构和完全excel表的解析及统计图表的生成以及excel表的到出
|
2026-03-19 01:51:34 +08:00 |
|