深度标记 AI:评估大型语言模型性能的开源工具

深度标记 AI 是一款用于评估大型语言模型在特定任务上性能的基准工具,可在自己的数据上测量准确性、相关性、失败率、延迟等多个指标,确保 AI 应用具有可靠的性能。 主要特点和功能: 为 Generative AI 构建者设计,重点在于迭代评估任务特定指标。 集成了领先的生成式 AI API,如 GPT-4、Anthropic、GPT-3.5 Turbo、Cohere、AI21 等。 提供全面的性能评估,包括问题回答准确性、文本分类准确性、PII 识别准确性、命名实体识别准确性、摘要质量、情感分析准确性、成本分析、失败率、延迟等多个重要指标。 访问链接: https://github.com/IngestAI/deepmark

2023-11-22