Skip to main content

代码页

代码页(也称为字符集或编码)是含值的表格,其中每个字符都分配一个数字来表示。代码页使计算机能够正确识别字符和显示文本。

通过 “输入数据”工具 “输出数据”工具 输入和输出数据文件时,或者使用 “Blob 转换”工具 转换数据类型时,Alteryx 支持许多可以选择的代码页。此外, ConvertFromCodepage ConvertToCodepage 函数(在具有表达式编辑器的工具中可用)可以使用代码页标识符在代码页和 Unicode® 之间转换字符串,Unicode® 是 Unicode 协会 创建的所有写入字符的通用字符编码标准。

Alteryx 假定宽字符串是 Unicode® 字符串,而窄字符串是 Latin 1 字符串。如果将字符串转换为代码页,它将无法正确显示。因此,代码页只能用于覆盖文件中的文本编码问题。不同计算机上的代码页可能不同,也可为单台计算机更改代码页,造成数据损坏。要获得最一致的结果,请使用 Unicode®(比如 UTF-8 或 UTF-16 编码),而不是使用特定的代码页,这样可以在同一数据流中对不同语言进行编码。

UTF-8 是存储任何字符的最便携、最紧凑的方式,使用频率最高。UTF-8 和 UTF-16 都是可变宽度编码,但 UTF-8 与 ASCII 兼容,而且文件往往比 UTF-16 小。

有关代码页的详细信息,请访问 MSDN 库

为了在 Linux 上支持相同的功能,Alteryx 采用了 ICU 库。我们使用与 Windows 上相同的 ID,将它们转换为字符串 ICU 转换器。并非整个 Windows 编码列表都受 ICU 支持,或者在将数据从一个代码页转换到另一个代码页时可能会有差异。

代码页标识符

ConvertFromCodepage ConvertToCodepage 函数支持这些代码页标识符。有关详细信息,请转至 函数

ID

描述

支持

37

IBM EBCDIC - 美国/加拿大

原始引擎和 AMP。

500

IBM EBCDIC - 国际

原始引擎和 AMP。

932

ANSI/OEM - 日语Shift-JIS

原始引擎和 AMP。

949

ANSI/OEM - Korean EUC-KR

原始引擎和 AMP。不支持“下载”和“Blob 转换”。

1250

ANSI - 中欧

原始引擎和 AMP。

1251

ANSI - 西里尔文

原始引擎和 AMP。

1252

ANSI - 拉丁文 I

原始引擎和 AMP。

1253

ANSI - 希腊语

原始引擎和 AMP。

1254

ANSI - 土耳其语

原始引擎和 AMP。

1255

ANSI - 希伯来语

原始引擎和 AMP。

1256

ANSI - 阿拉伯语

原始引擎和 AMP。

1257

ANSI - 波罗的海

原始引擎和 AMP。

1258

ANSI/OEM - 越南语

原始引擎和 AMP。

10000

MAC - Roman

原始引擎和 AMP。

28591

ISO 8859-1 拉丁语 1

原始引擎和 AMP。

28592

ISO 8859-2 中欧

原始引擎和 AMP。

28593

ISO 8859-3 拉丁语3

原始引擎和 AMP。

28594

ISO 8859-4 波罗的海

原始引擎和 AMP。

28595

ISO 8859-5 西里尔文

原始引擎和 AMP。

28596

ISO 8859-6 阿拉伯语

原始引擎和 AMP。

28597

ISO 8859-7 希腊语

原始引擎和 AMP。

28598

ISO 8859-8 希伯来语:直观排序

原始引擎。

28599

ISO 8859-9 拉丁文 5

原始引擎和 AMP。

28605

ISO 8859-15 拉丁9

原始引擎和 AMP。

54936

简体中文 GB18030

原始引擎和 AMP。不支持“下载”和“Blob 转换”工具。

65001

Unicode UTF-8

原始引擎和 AMP。

1200

Unicode UTF-16

原始引擎和 AMP。