甄嬛Chat复现-Part01-从剧本文件提取对话
本文复现:使用extract-dialogue工具从剧本提取对话。
extract-dialogue调用DeepSeek V3 Chat模型API,使用schema预设的样例模板,从剧本txt中提取对话,保持成json格式。
生出的角色对话格式示例:
{"role": "甄嬛", "content": "嬛儿是尽人事以听天命。"} |
1、下载huanhuan-chat代码仓
git clone https://ghfast.top/https://github.com/KMnO4-zx/huanhuan-chat.git |
在huanhuan-chat/dataset/input/huanhuan目录下存有《甄嬛传》剧本文件。
2、下载extract-dialogue,初始化pip环境
git clone https://ghfast.top/https://github.com/KMnO4-zx/extract-dialogue.git |
cd extract-dialogue |
3、配置DeekSeek API Key
在extract-dialogue根目录下创建.env文件,内容如下:
DEEPSEEK_BASE_URL=https://api.deepseek.com |
其中:<api_key>
需替换成你自己的api秘钥(需要去官网充值才能用!处理一个txt 10元足够)。
在DeepSeek API Key网页,新建一个API Key,名称用于助记,可以随便取,注意:生成后要立即点击Copy
复制到本地,后续是无法复制的,只能重新创建另一个Key。
复制sk-
开头的序列,替换掉<api_key>
即可。
4、运行处理脚本
拷贝《甄嬛传》文本到data/目录
cp /path/to/huanhuan-chat/dataset/input/huanhuan/*.txt ./data/ |
修改example.py:1)剧本文件路径;2)response的解析方式
from extract import system_prompt |
执行分析:
python example.py |
会在当前目录生出一个同名的jsonl文件:甄嬛传剧本01-10.jsonl
。内容如下:
{"role": "太监", "content": "跪!一叩首!再叩首!三叩首!兴!"} |
处理速度比较慢,大约10s输出一段,建议睡前启动,运行一晚即可。