PEP 721 – 将 tarfile.data_filter 用于源代码分发提取

作者:: Petr Viktorin <encukou at gmail.com>
PEP 代理人:: Paul Moore <p.f.moore at gmail.com>
状态:: 最终版
类型:: 标准跟踪
主题:: 打包
要求:: 706
创建日期:: 2023 年 7 月 12 日
Python 版本:: 3.12
发布历史:: 2023 年 7 月 4 日
决议:: 2023 年 8 月 2 日

摘要
动机
基本原理
- 未打补丁的 Python 版本
- 权限
规范
向后兼容性
安全隐患
如何教授此内容
参考实现
被拒绝的想法
未解决的问题
版权

重要

本 PEP 是一份历史文档。最新的规范性说明源代码分发归档特性保存在 PyPA 规范页面。

有关如何提出更改的建议，请参阅PyPA 规范更新流程。

摘要

提取源代码分发归档时，通常应使用在 PEP 706 中添加的 data 过滤器。我们澄清了细节，并为无法直接使用该过滤器的工具指定了行为。

动机

“源代码分发” sdist 定义为 tar 归档。

tar 格式旨在捕获类 Unix 文件的所有元数据。其中一些是危险的、源代码不需要的，和/或平台相关的。正如 PEP 706 中所解释的，当解压 tarball 时，应该总是限制允许的特性，或者明确赋予 tarball 完全控制权。

基本原理

对于源代码分发，PEP 706 中引入的 data 过滤器就足够了。它允许的特性比 git 和 zip（两者都常用于打包工作流）略多。

然而，并非所有工具都能使用 data 过滤器，因此本 PEP 明确规定了一组预期。目标是使 pip download 和 setuptools.archive_util.unpack_tarfile 的当前行为有效，但被认为过于危险而不能允许的情况除外。另一个考虑是对于非 Python 工具而言易于实现。

未打补丁的 Python 版本

在不带 tarfile 过滤器的 Python 上运行时，工具可以忽略本 PEP。

该功能已向后移植到 python.org 支持的所有 Python 版本。将其在第三方库中内嵌是很棘手的，我们不应强迫所有工具都这样做。这将把跟上安全更新的责任从工具转移到用户身上。

权限

常用工具（git、zip）不保留 Unix 权限（模式位）。告诉用户不要依赖 sdist 中的这些权限，并允许工具相对自由地处理它们，这似乎是公平的。

唯一的例外是 可执行 权限。我们建议但不要求工具保留它。考虑到脚本通常是平台特定的，可以说保持它们可执行是工具特定的行为。

请注意，虽然 git 保留了可执行性，但 zip（因此 wheel）本身不这样做。（可以将其编码在“外部属性”中，但 Python 的 ZipFile.extract 不遵守这一点。）

将被放置在目标目录之外的文件。
指向目标目录之外的链接（符号链接或硬链接）。
设备文件（包括管道）。

以下也无效。工具可以像上面一样处理它们，但不是必需的。

文件名或链接目标中包含 .. 组件的文件。
指向不属于归档文件的链接。

工具可以将链接（符号链接或硬链接）解包为普通文件，使用归档中的内容。

解压 sdist 归档时

文件名中的前导斜杠必须被删除。（这现在是 tar 解包的标准行为。）
对于每个 mode (Unix 权限) 位，工具必须
- 分别使用平台对新文件/目录的默认设置，
- 根据归档设置该位，或
- 对于不可执行文件使用 rw-r--r-- (0o644) 的位，对于可执行文件和目录使用 rwxr-xr-x (0o755) 的位。
高 mode 位（setuid、setgid、sticky）必须被清除。
建议保留用户 可执行 位。