📦 巴厘岛旅游资源解析入库 — 巴厘岛旅游资源数据解析入库

v1.0.0

印尼（巴厘岛）旅游资源入库SOP。当用户提供供应商文档（PDF/Word）并要求解析入库时，或提到"资源入库"、"解析入库"、"印尼资源"、"巴厘岛资源"、"CSV入库"时，必须使用本技能。覆盖8类资源：酒店、车辆、景点、活动、SPA、俱乐部、餐厅、下午茶。使用前必须先检索同类资源CSV的表头格式（例如通过GitHub或API获取），确保数据格式符合要求，然后使用CLI工具或其他方法将数据导入系统。

0· 16·0 当前·0 累计

by @errsr

文件处理

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install bali-resource-import

镜像加速npx clawhub@latest install bali-resource-import --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

印尼旅游资源解析入库技能触发识别（使用前必读）用户提示词关键词解析收到入库任务时，从用户提示词中自动识别以下关键信息：提示词关键词识别结果操作 https://drive.google.com/... 等 Drive URL 数据源为云盘调用 google-drive 技能下载 PDF/Word 到本地临时目录本地路径如 C:\Users\a\Desktop\资源数据源为本地文件直接使用该路径下的文件模型文件路径 / 已存在的 csv 目标生产库位置在该 CSV 基础上追加新数据，而非覆盖目标路径 / target 解析结果输出目录原始 PDF + 解析结果均写入该目录未提及目标路径 — 告知用户必须指定目标路径路径仅为示例，不可硬编码。所有路径必须从用户提示词中动态提取，用作字段值传递给脚本。示提示词： "检索 https://drive.google.com/drive/my-drive 所有合同并解析，模型文件路径在 C:\Users\a\Desktop\资源，目标路径为 C:\Users\a\Desktop\资源\target" 动态提取结果（作为变量使用）：数据源 URL：https://drive.google.com/drive/my-drive → 传给 google-drive 技能模型文件路径：C:\Users\a\Desktop\资源 → 拼接生产库 CSV 文件名，得到完整生产库路径目标路径：C:\Users\a\Desktop\资源\target → 解析结果输出目录技能依赖检测使用前检查所需技能是否已安装：依赖技能用途未安装时操作 google-drive 访问 Google Drive 下载合同提示用户执行 openclaw skills install google-drive，或告知用户提供本地文件 bali-resource-import 本技能（自身）提示用户提供正确路径 pdfplumber / PyMuPDF PDF 文本提取 pip 安装 pdfplumber 缺失技能时的话术模板： [技能缺失] 解析入库需要先安装 google-drive 技能。请在终端执行：openclaw skills install google-drive 安装完成后请重新发送任务。使用流程 Step 0：安装依赖 # 安装 Google Drive 技能（如需要） openclaw skills install google-drive # 安装 PDF 解析库 pip install pdfplumber Step 1：下载合同文件 Google Drive 来源：调用 google-drive 技能，从提示词中提取 Drive URL，列出文件并下载到目标路径本地来源：从提示词中提取本地路径，定位 PDF/Word 文件所有路径均为动态变量，不写死。 Step 2：读取生产库表头必须先读取目标 CSV 的实际表头和 encoding，再生成数据行。 import csv def read_production_csv(path): for enc in ['utf-8-sig', 'gbk', 'utf-8', 'latin1']: try: with open(path, 'r', encoding=enc) as f: headers = next(csv.reader(f)) return headers, enc except UnicodeDecodeError: continue raise ValueError(f"无法读取 {path}") # 示例 headers, enc = read_production_csv(r"C:\Users\a\Desktop\资源\活动标准化完整版_含人群标签与特色标签_V4.csv") # headers = ['contract_id (合同编号)', 'activitynameen (活动英文名)', ...] # 表头格式为 "fieldname (中文说明)"，提取时用 split(' (')[0] 取英文字段名 Step 3：解析合同内容按合同内容识别资源类型：资源类型判断关键词核心价格字段酒店房型、床型、早餐、入住、淡旺季淡季价格_IDR / 旺季价格_IDR 车辆车型、半天、全天、司机、油费半天价格 / 全天价格景点门票、开放时间、GPS、难度门票-成人IDR 活动时长、含保险、含交通、教练语言成人IDR价格 SPA 疗法、套餐、开放时间成人IDR价格俱乐部最低消费、入场费、时段政策入场/门票费用餐厅菜系、套餐、预约成人IDR价格下午茶套餐类型、成人儿童价成人IDR价格 Step 4：数据提取规则提取原则（按优先级）：优先级来源处理方式 1 合同原文直接使用，如实写入字段 2 公开网络信息（如 GPS 坐标）可填写，标注来源 — 合同无数据填写"合同未提供"，不得留空 — 编造数据严禁字段格式规范：字段类型格式示例日期期间 2024-07-01 至 2024-08-31（不用英文月份）星级 5星（带"星"字，非纯数字）价格纯数字，不含货币符号（如 3581500 而非 IDR 3,581,500）汇率参考 1 CNY ≈ 2,100 IDR；1 USD ≈ 15,000 IDR Step 5：三层标签体系每条资源必须标注三层标签：人群标签（第一层）： #家庭 #亲子 #情侣 #商务 #蜜月 #年轻人 #老年人 #单身风格标签（第二层）： #豪华 #经济型 #浪漫 #休闲 #刺激 #度假村风格 #自然 #文化特色标签（第三层）：按资源类型选用，详见下方各资源标签表。 Step 6：写入 CSV 关键规则：新增数据的字段名必须与生产库表头完全一致 encoding 必须与生产库一致（通常 activity 用 gbk，hotel 用 utf-8-sig）写入模式为追加（append），不覆盖原有数据 import csv, os def append_to_production(prod_path, data_rows, enc): """追加数据到生产库 CSV""" with open(prod_path, 'r', encoding=enc, newline='') as f: prod_rows = list(csv.reader(f)) prod_headers = prod_rows[0] prod_fieldnames = [h.split(' (')[0] for h in prod_headers] with open(prod_path, 'w', encoding=enc, newline='') as f: writer = csv.writer(f) writer.writerow(prod_headers) writer.writerows(prod_rows[1:]) for row in data_rows: out_row = [row.get(fn, '') for fn in prod_fieldnames] writer.writerow(out_row) 直接追加示例（不依赖 append_to_csv.py）： # BOUNTY Cruises → 活动库 append_to_production( r"C:\Users\a\Desktop\资源\活动标准化完整版_含人群标签与特色标签_V4.csv", bounty_rows, 'gbk' ) # Maya Ubud → 酒店库 append_to_production( r"C:\Users\a\Desktop\资源\巴厘岛酒店资源库_2026标准版_V4_FINAL.csv", maya_rows, 'utf-8-sig' ) Step 7：输出报告入库完成后，向用户报告（路径为实际从提示词中提取的值）：入库完成 ━━━━━━━━━━━━━━ 合同文件：BOUNTY Cruises - March 2026.pdf 资源类型：活动（Activity）目标库：{从提示词提取的模型文件路径}\活动标准化完整版_含人群标签与特色标签_V4.csv 新增记录：4 条输出目录：{从提示词提取的目标路径}\ Step 8：清理临时文件目标文件夹只保留结果文件，入库完成后删除以下内容：文件类型示例删除原因原始合同 PDF/Word BOUNTY Cruises - March 2026.pdf 原始文件不留在输出目录解析中间文件 parsed_results.json 仅作中间处理使用，不交付用户保留文件： {目标路径}\ ├── bounty_activity_out.csv ← 新增的活动数据（追加到生产库） └── maya_hotel_out.csv ← 新增的酒店数据（追加到生产库） import os # 入库完成后清理 temp_files = [ os.path.join(target_dir, "parsed_results.json"), os.path.join(target_dir, "BOUNTY Cruises - March 2026.pdf"), os.path.join(target_dir, "Maya Ubud Contract Valid 31 Mar 2025.pdf"), ] for f in temp_files: if os.path.exists(f): os.remove(f) print(f

数据来源：ClawHub ↗ · 中文优化：龙虾技能库