|
1 هفته پیش | |
---|---|---|
.. | ||
README.md | 1 هفته پیش | |
integrate_knowledge.py | 1 هفته پیش | |
integrate_knowledge_example.py | 1 هفته پیش | |
md_to_knowledge_converter.py | 1 هفته پیش | |
start.py | 1 هفته پیش |
这个Python脚本可以将markdown格式的文档转换为适用于RAG知识库的JSON格式,包含content、metadata、source、type等字段。
脚本会根据标题关键词自动识别以下文档类型:
login_guide
- 登录相关指南purchase_management
- 采购管理inbound_management
- 入库管理outbound_management
- 出库管理inventory_management
- 库存管理process_management
- 工艺管理production_management
- 生产管理basic_settings
- 基础设置system_management
- 系统管理personal_center
- 个人中心assembly_management
- 装配管理operation_guide
- 操作指南(默认类型)from md_to_knowledge_converter import MarkdownToKnowledgeConverter
# 创建转换器实例
converter = MarkdownToKnowledgeConverter()
# 转换单个文件
documents = converter.convert_file(
input_file="assets/docs/mom.md",
output_file="knowledge_base/mom_knowledge.json"
)
python scripts/md_to_knowledge_converter.py
converter.convert_directory(
input_dir="assets/docs",
output_dir="knowledge_base"
)
转换后的JSON文件包含文档数组,每个文档的格式如下:
{
"content": "标题: 登录系统\n\n用户通过登录\"MOM制造运营管理系统\"进行业务操作...",
"metadata": {
"source": "登录系统",
"type": "login_guide",
"section": "登录",
"level": 3,
"file_path": "assets/docs/mom.md"
}
}
content
: 清理后的文档内容,包含标题和正文metadata.source
: 文档来源(从文档标题提取)metadata.type
: 文档类型(自动识别)metadata.section
: 章节标题metadata.level
: 标题级别(1-3级)metadata.file_path
: 原始文件路径从MES操作手册转换后的统计:
转换统计:
总文档数: 144 个知识库条目
各类型文档数量:
operation_guide: 98
login_guide: 14
purchase_management: 8
inbound_management: 12
outbound_management: 6
process_management: 4
production_management: 2
脚本包含完善的错误处理机制:
转换后的JSON文档可以直接集成到RAG服务中:
# 加载转换后的文档
with open('knowledge_base/mom_knowledge.json', 'r', encoding='utf-8') as f:
documents = json.load(f)
# 添加到RAG服务
await rag_service.add_documents(documents, 'system_guide')
可以通过修改_determine_type
方法来自定义文档类型识别规则:
def _determine_type(self, title: str) -> str:
# 添加新的类型映射
type_mapping = {
"新关键词": "new_type",
# ...
}
转换后的文档示例:
{
"content": "标题: 用户登录地址\n\n打开Chrome或者Edge浏览器,输入网址:http://10.111.156.155:8808/进入MOM制造运营管理系统,输入已配置好的用户名和密码登录系统。",
"metadata": {
"source": "登录系统",
"type": "login_guide",
"section": "用户登录地址",
"level": 3,
"file_path": "assets/docs/mom.md"
}
}