性能评估 | AI Insights

深度标记 AI 是一款用于评估大型语言模型在特定任务上性能的基准工具，可在自己的数据上测量准确性、相关性、失败率、延迟等多个指标，确保 AI 应用具有可靠的性能。主要特点和功能：为 Generative AI 构建者设计，重点在于迭代评估任务特定指标。集成了领先的生成式 AI API，如 GPT-4、Anthropic、GPT-3.5 Turbo、Cohere、AI21 等。提供全面的性能评估，包括问题回答准确性、文本分类准确性、PII 识别准确性、命名实体识别准确性、摘要质量、情感分析准确性、成本分析、失败率、延迟等多个重要指标。访问链接: https://github.com/IngestAI/deepmark