Season 1: 杂文

S1E2 衡量 API 设计质量的指标 — TTFC/TTFHW

白宦成

May 5, 2024 — 8 min read

本期是 API Letter 的第二期，天津下起了小雨，一场秋雨一场寒，我在雨中为你撰写这封 Newsletter。

任何一个开放平台类产品，要解决的问题都是如何在现有的平台能力之上，开放一些能力给到第三方开发者，帮助第三方开发者开发应用，拓展体验，如果我们可以降低开发者在完成开放能力接入所需的时间，我们就可以让开发者有更多的时间去构建属于自己的业务逻辑，拓展平台之上的应用生态和开发者体验。

API 的设计质量、文档质量和错误处理信息的质量可以非常明显的影响到 API 的使用体验。但这些体验却很难通过我们在软件工程领域所使用的各种性能指标来衡量。我们可以通过一些专业的、对于 API 有判断能力的人来完成对于 API 质量的评估和优化的引导，但这件事并不利于持续发展和长期迭代。我们需要一个靠谱的指标，来引导我们持续性的、规模化的进行 API 本身的优化和迭代。

readme.com 官网上关于 Time to First Hello World 的说明

在这个问题上，Slack 给出了自己的答案 —— Time to First Hello World（TTFHW）， API 服务提供商 readme.com 则提出了一个类似的概念 Time to First Call（TTFC）。

TTFC/TTFHW 为什么是一个好的指标？

在 TTFC 之前，我相信你或多或少都试过对自己的 API 进行统计和分析。你可能会基于技术工程指标来判断 API 的好与坏；进一步则会通过一些反馈的能力来完成（比如划词反馈、点赞点踩反馈）数据的收集和进一步的分析，你可能会将这些数据进行加权分析，从而得出一个质量评分，用于判断一个 API 的好与坏。

表面上来看，他可以帮助你发现你的 API 当中的不好的点，你可以基于开发者的反馈来快速对 API 当中的一些问题来进行修复，从而提升开发者的开发体验。但这个指标的一个缺点是：它是一个负向反馈的指标。作为 API 的提供者，你拿到这些反馈的时候，它可能已经早已影响了你的大多数开发者，甚至早已令你的开发者十分不快而你却从不知道。不仅如此，如果你的开发者们并不喜欢反馈，你的 API 的问题可能永远都不会暴露出来。

TTFC/TTFHW 如其名所述，记录的是一个开发者第一次调用所需要时长，你可以根据你自己的需要，来设定开发者行为的起点。而终点，则是开发者成功发起一次调用。

相比于需要开发者主动反馈所进行的数据收集，TTFC/TTFHW 的指标不需要开发者做什么，我们可以通过一些技术手段来完成这些信息的收集，从而在第一天开始收集数据。你不需要等自己的 API 有很多开发者之后才能开始进行数据的收集和反馈，只要设计合适的埋点，从 Day 1 就可以获取数据，并基于数据来分析指标和下一步优化的方案。

如何建设 TTFC/TTFHW

TTFC 和 TTFHW 的指标在实际的建设过程中并不容易。其中最大的问题是如何将开发者的行为和实际的调用进行关联。如果你的 API 在前端就可以发生调用，且能够在前端直接调用，还算是简单，可以通过简单的前端埋点来完成数据的建设，并配合开发者在网站上行为的埋点，来分析出具体的 TTFC / TTFHW。

而对于一些服务端的 API，则需要花费更多的心力来建立这些数据，你可能需要将开发者在网站上的行为和其对应的在 API 上的行为进行串联，从而形成一个完整的开发者图景。在最理想的情况下，你的统计系统和你的 API 网关系统上是可以打通的，你可以非常简单的将开发者在网站上的行为与发生在 API 网关系统上的行为进行串联，从而形成一整个从开发者进入网站到开发者了解 API 设计再到开发者真实发生 API 调用当中来完成。

不过，这件事在某些支持以应用身份来调用 API 的开放平台当中来说，就是比较困难的了。因为发生调用的最小单位是应用，而不是某一个人。但也并非绝对无解，你同样可以基于某些指标来圈选一部分开发者，并将这些开发者和实际网关当中产生调用的接口进行串联分析，得出开发者的实际的调用时长。

如何使用 TTFC / TTFHW

当你通过艰辛的数据埋点、数据收集、数据入仓之后，便可以进行数据分析，使用这些数据了。这里分享两个使用这些数据的思路，供你参考。

TTFC/TTFHW 的数据可以从整体数据视角和局部数据视角查看。

当你作为整体数据来查看时，你所拿到的是一个开发者完成整体调用所需的时长。你可以基于开发者的行为，来计算出开发者的 TTFC 所需的时长，和他进入到转化漏斗当中下一步所需的时间，并分析不同时长人群在实际转化率上的差异值，对比这些差异值，并得出判断和下一步的 Action ，优化你的 API 产品的实际体验，提升产品转化率。

当你作为局部数据来查看时，你可以将 TTFC/TTFHW 拆分成若干个不同的阶段，比如网站访问、查找文档、了解鉴权信息、阅读 API 文档、实际发生调用等多个阶段，并对这几个部分的耗时进行分析，从而得出一些定向优化的 Action ，来优化整个网站和 API 的质量，帮助开发者降低调用所需耗费的时长。

建设 TTFC / TTFHW 数据指标的一些建议

在建设 TTFC / TTFHW 的过程中，如果你遇到了困难，不妨试试如下的方式：

为你的服务端 API 提供一套在线的调试工具，从而让开发者可以在看文档的时候直接调用接口，测试效果。
如果你的 API 支持以开发者的身份调用，可以试着使用 OAuth 协议，让开发者在看文档的时候直接授权发起调用，并在调用成功之后给出相应的代码的生成。

一个可互动（Interactive）的文档，可以帮助你有效的降低 TTFC/TTFHW。

当然，除了产品本身的优化，你还可以试着提供更多的开发者教程、示例代码，来降低开发者调用你所提供的 API 的难度，优化开发者的体验。

关于 TTFC/TTFHW，你还有什么问题？欢迎你回信和我讨论。

加更: 聊聊 APILetter 的新计划

Hi，你好， APILetter 从创刊号，到 S1E6，经历了一年的时间。虽然在定更新节奏时，我就考虑到自己拖更的可能性，但确实没想到我拖更这么严重，在 2022 年，一口气更新了 3 篇，然后就是长达半年的拖更。不过，总算是把第六篇写完，算是给 Season 1 做个了结。过去 APILetter 的出现，是源自我在研究 RESTFul 架构时发现的问题：国内有太多解释什么是 RESTFul 规范的文章，但你点进去看，篇篇都是复制粘贴。而 API 是开发者生态中非常重要的一环，它不应该被草率的对待，开发者们值得用上更好的 API。既然没有人写关于 API 的严肃内容，那就从我开始吧。刚好我在研究相关的内容，那就写一些 API 到底应该是什么样的。也正是抱着这个想法，我开始了一篇篇的创作，

S1E6 为什么 OpenAPI 的设计如此重要？

在 APILetter 的 S1E6，我想和你聊聊 OpenAPI 设计的重要性。在整个 S1 的文章中，我用了接近 4 篇的篇幅来介绍 OpenAPI 的设计，从一开始介绍为什么要使用 RESTFul ，到 API 的错误码设计理念，辅以批量接口设计的实例，再加上最后这篇重要性的强调，三分之二的比重，意在让你深刻认识到，OpenAPI 的设计至关重要。为什么 OpenAPI 的设计如此重要？在企业内部工作时，常常需要找到平衡质量和速度之间的折衷方案。当项目时间非常紧迫时，往往会牺牲一些质量。但如果项目有足够的时间，就有更高的概率能够设计出一个质量更好、开发者体验更佳的 OpenAPI。然而，OpenAPI 是一项非常重要的任务，不能马马虎虎。一个坏的设计会让团队持续在 OpenAPI 开发上投入更多的精力。沟通难度高带来的维护成本增高问题和企业团队内部使用的 API 不同，OpenAPI 的用户是外部团队，

S1E5 如何设计一个符合 RESTFul 风格的批量操作的 OpenAPI 接口？

许久不见，甚是想念，最近做了不少 RESTFul API 的设计实践，分享一下最新的经验。在遵循 RESTFul 风格设计 OpenAPI 时，简单的创建、更新、查询、删除是比较好做的，大家也大多能够想到如何设计对应的接口，无非是用 POST 做创建、GET 做查询、DELETE 做删除、PUT、PATCH 做更新，但设计到批量的操作时，大家往往会有一些困惑，今天我们就来聊聊 RESTFul 下的批量操作。在给出我自己具体的实践之前，先来看看业界的实践。业界的两种实践由于 RESTFul 风格定义当中并没有明确说明如何设计批量接口，所以业界上也有不同的批量接口设计的思路，大体可以分为两种： 1. 在网关层面设计批量接口的能力，实现异步转同步：这部分主要是会提供一个单独的请求路径，由开发者将自己的请求打包并发送到这个新的路径，由这个路径上的服务将请求结果发送给具体的服务，并将结果收回，返回给开发者。Google 和

S1E4 到底多少个错误码才是合理的？

在对外开放 OpenAPI 的时候，错误的设计也是一个极为影响开发者开发体验的设计点。今天我们简单聊聊关于错误码和错误处理为什么需要错误码？由于我们不能保证系统可以完全处理用户的请求，因此我们需要通过错误码来告诉开发者发生了不符合预期的情况。不符合预期的情况可能由用户输入错误导致，也可能由内部微服务故障导致。为了建设一个健壮（Robust）的系统，我们需要通过对外暴露一批错误码，帮助开发者更好地处理各种异常情况。避免错误码数量过少既然我们的目的是帮助开发者解决异常情况，那么一个合理的答案是：和异常情况匹配的错误码数量是一个好的错误码数量。如果在某个 API 接口上提供了一个错误码，则意味着我们认为这个接口只会出现一种情况导致的错误。而实际上，很可能会有多种情况导致错误发生。这种情况经常在 OpenAPI 评审过程中被提出来，也是用户在使用 OpenAPI 时常遇到的问题：为什么我找不到这个错误码？对于开发者来说，无论输入何种错误，都会得到相同的错误码，难以定位和解决问题。同一个错误码也意味着你无法提供足够的错误信息来进行排查。例如，常见的 “400 Bad Re