代码页
代码页(也称为字符集或编码)是含值的表格,其中每个字符都分配一个数字来表示。代码页使计算机能够正确识别字符和显示文本。
通过
“输入数据”工具
和
“输出数据”工具
输入和输出数据文件时,或者使用
“Blob 转换”工具
转换数据类型时,Alteryx 支持许多可以选择的代码页。此外,
ConvertFromCodepage
和
ConvertToCodepage
函数(在具有表达式编辑器的工具中可用)可以使用代码页标识符在代码页和 Unicode® 之间转换字符串,Unicode® 是
Unicode 协会
创建的所有写入字符的通用字符编码标准。
Alteryx 假定宽字符串是 Unicode® 字符串,而窄字符串是 Latin 1 字符串。如果将字符串转换为代码页,它将无法正确显示。因此,代码页只能用于覆盖文件中的文本编码问题。不同计算机上的代码页可能不同,也可为单台计算机更改代码页,造成数据损坏。要获得最一致的结果,请使用 Unicode®(比如 UTF-8 或 UTF-16 编码),而不是使用特定的代码页,这样可以在同一数据流中对不同语言进行编码。
UTF-8 是存储任何字符的最便携、最紧凑的方式,使用频率最高。UTF-8 和 UTF-16 都是可变宽度编码,但 UTF-8 与 ASCII 兼容,而且文件往往比 UTF-16 小。
有关代码页的详细信息,请访问 MSDN 库 。
为了在 Linux 上支持相同的功能,Alteryx 采用了 ICU 库。我们使用与 Windows 上相同的 ID,将它们转换为字符串 ICU 转换器。并非整个 Windows 编码列表都受 ICU 支持,或者在将数据从一个代码页转换到另一个代码页时可能会有差异。
代码页标识符
ConvertFromCodepage
和
ConvertToCodepage
函数支持这些代码页标识符。有关详细信息,请转至
函数
。
ID | 描述 | 支持 |
37 | IBM EBCDIC - 美国/加拿大 | 原始引擎和 AMP。 |
500 | IBM EBCDIC - 国际 | 原始引擎和 AMP。 |
932 | ANSI/OEM - 日语Shift-JIS | 原始引擎和 AMP。 |
949 | ANSI/OEM - Korean EUC-KR | 原始引擎和 AMP。不支持“下载”和“Blob 转换”。 |
1250 | ANSI - 中欧 | 原始引擎和 AMP。 |
1251 | ANSI - 西里尔文 | 原始引擎和 AMP。 |
1252 | ANSI - 拉丁文 I | 原始引擎和 AMP。 |
1253 | ANSI - 希腊语 | 原始引擎和 AMP。 |
1254 | ANSI - 土耳其语 | 原始引擎和 AMP。 |
1255 | ANSI - 希伯来语 | 原始引擎和 AMP。 |
1256 | ANSI - 阿拉伯语 | 原始引擎和 AMP。 |
1257 | ANSI - 波罗的海 | 原始引擎和 AMP。 |
1258 | ANSI/OEM - 越南语 | 原始引擎和 AMP。 |
10000 | MAC - Roman | 原始引擎和 AMP。 |
28591 | ISO 8859-1 拉丁语 1 | 原始引擎和 AMP。 |
28592 | ISO 8859-2 中欧 | 原始引擎和 AMP。 |
28593 | ISO 8859-3 拉丁语3 | 原始引擎和 AMP。 |
28594 | ISO 8859-4 波罗的海 | 原始引擎和 AMP。 |
28595 | ISO 8859-5 西里尔文 | 原始引擎和 AMP。 |
28596 | ISO 8859-6 阿拉伯语 | 原始引擎和 AMP。 |
28597 | ISO 8859-7 希腊语 | 原始引擎和 AMP。 |
28598 | ISO 8859-8 希伯来语:直观排序 | 原始引擎。 |
28599 | ISO 8859-9 拉丁文 5 | 原始引擎和 AMP。 |
28605 | ISO 8859-15 拉丁9 | 原始引擎和 AMP。 |
54936 | 简体中文 GB18030 | 原始引擎和 AMP。不支持“下载”和“Blob 转换”工具。 |
65001 | Unicode UTF-8 | 原始引擎和 AMP。 |
1200 | Unicode UTF-16 | 原始引擎和 AMP。 |