Prompt Forge
扫码查看

一个用于测试和评估语言模型提示词的工作台

Prompt Forge

综合介绍

Prompt Forge 是一个开源的AI提示词工程工作台,专为提升提示词(Prompt)的开发效率和质量而设计。传统的提示词编写过程常常依赖直觉和反复试错,缺乏系统性的方法。Prompt Forge 将工程学的严谨性引入这个领域,提供了一整套工具来帮助开发者和研究人员创造、测试、分析和管理提示词。它不仅仅是一个文本编辑器,更是一个集成了智能建议、自动化测试、性能分析和版本控制的综合性平台。该工具使用Go语言构建,确保了处理速度和运行的可靠性,旨在将提示词开发从一门“艺术”转变为一门“科学”。通过这个平台,用户可以系统地验证提示词在各种场景下的表现,对比不同模型的效果,并最终获得更高质量、更稳定的输出结果。

功能列表

  • 智能提示词生成: 借助AI辅助,从零开始构建有效的提示词,并根据上下文提供智能优化建议。
  • 高级提示词分析: 在实际测试前,工具可以快速对提示词进行评估和打分,提供优化反馈,并根据行业内公认的最佳实践进行验证。
  • 系统化评估引擎: 能够自动创建全面的测试套件,覆盖边缘场景、输入错误、内容安全、事实准确性和创意性等多个维度。
  • 专业化测试: 用户可以完全控制测试参数,系统能自动检测并替换动态变量,并支持在多个主流模型(如Claude, GPT-4, Azure OpenAI等)之间进行并排比较。
  • 提示词管理: 提供一个有组织性的提示词库,支持搜索和标签功能。同时,它会保存完整的执行历史记录,方便用户筛选和回顾,并支持导入导出。
  • 多模型支持: 支持包括Claude 3.5 Sonnet, GPT-4.1, Azure OpenAI以及Ollama在内的多种AI模型。

使用帮助

Prompt Forge 提供了一个直观的界面和简单的部署方式,让用户可以快速上手。下面将详细介绍其安装和使用流程。

安装与启动

用户有两种主要方式来安装和运行Prompt Forge:使用Docker(推荐)或在本地环境直接运行。

1. Docker一键部署(推荐)

Docker是官方推荐的安装方式,因为它简化了环境依赖问题,能够实现一键启动。

首先,确保你的电脑已经安装了Docker。然后,在终端(命令行工具)中执行以下命令:

docker run -d -p 8080:8080 -e ANTHROPIC_API_KEY="your-key" ghcr.io/insaanimanav/prompt-forge:main

命令解释

  • docker run: 运行一个Docker容器。
  • -d: 表示在后台(detached mode)运行容器。
  • -p 8080:8080: 将你本机的8080端口映射到容器的8080端口。这样,你就可以通过访问本机的8080端口来使用应用。
  • -e ANTHROPIC_API_KEY="your-key": 设置环境变量。这里以Anthropic公司的Claude模型为例,你需要将"your-key"替换成你自己的API密钥。
  • ghcr.io/insaanimanav/prompt-forge:main: 指定要运行的Docker镜像。

启动成功后,打开你的浏览器,访问 http://localhost:8080 即可开始使用。

2. 本地开发环境部署

如果你希望在本地进行二次开发或有更灵活的配置需求,可以选择克隆源代码到本地运行。

首先,你需要安装 Go 语言环境和 Git。然后,按照以下步骤操作:

# 步骤一:从GitHub克隆项目源代码
git clone https://github.com/insaaniManav/prompt-forge.git
# 步骤二:进入项目目录
cd prompt-forge
# 步骤三:启动应用,脚本会自动处理依赖和运行
./start.sh

执行start.sh脚本后,应用同样会运行在http://localhost:8080

配置API密钥

Prompt Forge 需要连接到大模型服务商的API才能工作。你需要配置相应的API密钥。

对于Docker部署:你可以在docker run命令中使用-e参数来设置不同模型的API密钥。

  • Anthropic (Claude系列):
    -e ANTHROPIC_API_KEY="sk-ant-api03-..."
    
  • OpenAI (GPT系列):
    -e OPENAI_API_KEY="sk-..."
    
  • Azure OpenAI:
    -e AZURE_OPENAI_API_KEY="your-key" -e AZURE_OPENAI_BASE_URL="https://your-resource.openai.azure.com"
    

对于本地部署:在项目根目录下,有一个名为.env.example的示例配置文件。你需要复制它并创建一个.env文件:

cp .env.example .env

然后,使用文本编辑器打开.env文件,将你的API密钥填入其中。

核心功能操作流程

进入http://localhost:8080后,你将看到Prompt Forge的主界面。其核心操作流程围绕“编写-分析-测试-对比”展开。

  1. 编写与生成提示词:
    • 在主编辑区,你可以像在普通文本编辑器中一样编写你的提示词。
    • Prompt Forge 的特色在于其“智能生成”功能。你可以输入一个基本想法,AI会辅助你构建一个结构更完整、表达更清晰的提示词。系统还会根据上下文提供优化建议,例如建议你增加角色扮演、提供示例或明确输出格式。
  2. 分析与优化提示词:
    • 在编写完一个提示词后,不要急于测试。点击“分析”(Analyze)或“批判”(Critique)按钮。
    • 系统会立即从多个维度对你的提示词进行打分和评估,例如:清晰度、约束力、安全性等。
    • 分析结果会以报告的形式展示,告诉你当前提示词的潜在问题,并给出具体的优化建议,比如“指令不够明确”或“缺少对输出格式的要求”。
  3. 执行与测试:
    • 当你对提示词感到满意后,就可以进入测试阶段。
    • 设置变量:如果你的提示词中包含动态内容(例如{user_input}{document}),系统会自动识别它们为变量。你可以在界面上为这些变量填入不同的测试值。
    • 选择模型:在右侧的模型选择区,你可以勾选一个或多个你想测试的模型(如GPT-4o, Claude 3.5 Sonnet)。
    • 执行测试:点击“执行”(Execute)按钮,Prompt Forge会将你的提示词和变量发送给所有选定的模型,并在下方并排展示它们的返回结果。这使得你可以非常直观地对比不同模型对于同一个提示词的理解能力和输出质量。
  4. 生成评估套件:
    • 对于一个重要的核心提示词,一次简单的测试是不够的。你需要系统地评估它。
    • 使用“生成评估”(Generate Evaluation)功能,Prompt Forge可以自动创建一系列测试用例(Test Suite)。这些用例会覆盖各种情况,包括:
      • 鲁棒性测试:输入带有拼写错误、不完整或非常规的内容。
      • 安全性测试:输入一些可能诱导模型产生偏见或有害回答的内容。
      • 准确性测试:输入需要事实知识来回答的问题。
    • 生成后,你可以一键运行整个测试套件,并查看详细的性能分析报告。
  5. 管理与回顾:
    • 所有你创建和测试过的提示词都会被保存在“提示词库”(Prompt Library)中。你可以为它们添加标签,方便日后搜索。
    • 每一次执行测试的历史记录也都会被保存下来,包括输入、输出和使用的模型。你可以随时回顾,分析哪些版本的提示词表现更好。

应用场景

  1. 聊天机器人与客服企业可以利用Prompt Forge为客服机器人优化对话提示词。通过系统性测试,确保机器人在面对各种用户提问(包括拼写错误、模糊问题、恶意提问)时,都能给出准确、安全且符合品牌语气的回答,从而提升用户满意度。
  2. 内容创作与营销内容创作者可以使用此工具来开发和比较用于生成文章、广告文案或社交媒体帖子的提示词。通过并排比较GPT-4和Claude等不同模型的输出,创作者可以找到最适合其特定风格和需求的模型与提示词组合。
  3. 软件开发中的功能集成开发者在将LLM功能集成到应用程序(例如代码生成、文本摘要)时,可以使用Prompt Forge创建一套回归测试用例。在更新提示词或更换底层模型时,运行这套测试可以确保应用的核心功能不会因为变更而出现问题。
  4. 学术研究与模型评估研究人员可以利用Prompt Forge对不同的大语言模型进行基准测试。通过设计一套标准化的评估提示词,可以系统地衡量和比较各个模型在推理、创意、安全等方面的能力差异,为模型选择提供数据支持。

QA

  1. Prompt Forge支持哪些AI模型?它目前支持多个主流模型供应商,包括Anthropic的Claude系列(如Claude 3.5 Sonnet)、OpenAI的GPT系列(如GPT-4.1)、微软的Azure OpenAI服务以及允许本地运行模型的Ollama。这使得用户可以在同一个平台下对这些模型进行横向比较。
  2. 安装这个工具需要付费吗?不需要。Prompt Forge是一个开源项目,你可以免费从GitHub上克隆其源代码并在本地或服务器上部署。它使用GPL-3.0许可证。你需要支付的费用仅来自于你调用上游大模型API时产生的费用。
  3. 我不是程序员,可以使用这个工具吗?可以。官方推荐的Docker安装方式非常简单,只需要复制一行命令就可以启动服务。启动后,所有操作都在一个图形化的网页界面中完成,你不需要编写任何代码就可以进行提示词的创建、测试和分析。
  4. 这个工具如何保证我的API密钥安全?在本地部署时,你的API密钥存储在本地的.env文件中,不会上传到任何服务器。在使用Docker部署时,密钥通过环境变量传递给容器,同样由你本地的Docker环境管理。只要你保管好你的服务器和本地环境,密钥就是安全的。
微信微博Email复制链接