基本データプロファイルツール
基本データプロファイルツールは、データを分析し、データの各列(フィールド)にメタデータを提供します。
基本データプロファイルツールを使用して、データの概要またはプロファイルを表示し、詳細な分析のための情報を出力します。 データプロファイルの視覚的な表示を見るには、メタデータに加えて、閲覧ツールを使用します。 参照: 閲覧ツール。
ツールを設定する
オプションの構成オプションのいずれかを実行します。
- [正確なカウントの制限]: 最適なパフォーマンスを実現するには、既定の制限をお勧めします。 制限を増やすと、より多くのデータのプロファイル情報が表示されます。 データ内で Alteryx に識別する一意の値の最大数を入力またはクリックして選択します。
- すべての一意の値 (文字) を返すサイズ制限: 最適なパフォーマンスを実現するには、既定の制限をお勧めします。 制限を増やすと、より多くのデータのプロファイル情報が表示されます。 値がユニークであるかどうかを判断するために、Alteryxにチェックさせたい文字の最大数を入力するか、クリックして選択します。
- メートル単位を使用: メトリック単位を使用する場合に選択します。 このオプションは、空間データにのみ適用されます。
出力を見る
接続ツールのデータのタイプに応じて、結果ウィンドウのデータプロファイル情報が異なります。 参照: データ型、データ型の一覧を示します。
結果は垂直方向にリスト化されます。 スクロールして、データの各列のメタデータを表示します。
文字列データ
列に文字列値が含まれている場合は、次のメタデータが提供されます:
- 名前 : 列名。
- データ型 : 選択された列のデータ型。
- サイズ : この列の各レコードに対して予約されているメモリの量。
- ソース: 列の原点。 これは、データソースの名前またはデータが保存される場所へのパスになります。
- 説明: 列の説明 (使用可能な場合)。 使用できる説明がない場合は、[Null] になります。
- null : 空の値を除く、null の列の値の数。
- null 以外の : 空の値を含む、列内の null 以外のエントリの数。
- ブランク : 空の値の数。
- 先頭の空白を持つ値 : 値の前に空白がある文字列値の数。 問題を解決するには、データクレンジングツールまたは式ツールトリム関数を使用します。 参照: データクレンジングツール および フォーミュラツール。
- 末尾の空白を持つ値 : 値の後に空白がある文字列値の数。
- 両方の空白を持つ値: 値の前後に空白がある文字列値の数。
- 平均長さ : 列の値の平均長。
- 最長の長さ : 列の最長値の文字数。
- 最長値 : 列の最長値。
- 最短 (空白でない) の長さ : 列の最短値の文字数。
- 最短値 : 列の最短値。
- [最小]: 列の最初の文字列エントリで、アルファベット順に並べ替えられます。
- [最大]: 列の最後の文字列エントリで、アルファベット順に並べ替えられます。
- ユニーク : フィールド内の一意の値の数。 ユニークツールを使用して、ユニークかつ重複したエントリの完全な数を表示します。 参照: ユニークツール。
- 一意の値: 列内のすべての一意の値。
数値データ
列に数値が含まれている場合は、次のメタデータが提供されます:
- 名前 : 列名。
- データ型 : 選択された列のデータ型。
- サイズ : この列の各レコードに対して予約されているメモリの量。
- ソース: 列の原点。 これは、データソースの名前またはデータが保存される場所へのパスになります。
- 説明: 列の説明 (使用可能な場合)。 使用できる説明がない場合は、[Null] になります。
- null : 空の値を除く、null の列の値の数。
- null 以外の : 空の値を含む、列内の null 以外のエントリの数。
- 最小 : 列の最小値。
- 最大 : 列の最大値。
- 平均 : 列の値の平均値。
- 標準偏差 : 値がグラフにどの程度分散されているかを測定します。
- 分散 : 乱数の集合が平均からどの程度分散しているかの尺度。
- ユニーク : フィールド内の一意の値の数。 ユニークツールを使用して、ユニークかつ重複したエントリの完全な数を表示します。 参照: ユニークツール。
- 一意の値: 列内のすべての一意の値。
- 25 パーセンタイル : データの下、または最初の半分の中央値。
- 50 パーセンタイル : データの中央値。
- 75 パーセンタイル : データの上位、または2番目の半分の中央値。
- ヒストグラム: 均等にグループ化されたデータに該当する列の値の数。 各グループには、開始値とグループ内の値の数がコロンで区切られて示されます。 グループには、次のグループの開始値までで、その開始値を含まない値が含まれます。 1:23, 2:15,3:0は、1、2および3から始まる3つのグループを示します。 各グループにはそれぞれ23、15、および0の項目があります。
- エラーのマージン: 計算された値の下と上の値の可能な範囲。
日付/時刻データ
列に日付/時刻データが含まれている場合、次のメタデータが提供されます:
- 名前 : 列名。
- データ型 : 選択された列のデータ型。
- サイズ : この列の各レコードに対して予約されているメモリの量。
- ソース: 列の原点。 これは、データソースの名前またはデータが保存される場所へのパスになります。
- 説明: 列の説明 (使用可能な場合)。 使用できる説明がない場合は、[Null] になります。
- null : 空の値を除く、null の列の値の数。
- null 以外の : 空の値を含む、列内の null 以外のエントリの数。
- 日付のヒストグラム: (日付データの場合のみ) 均等にグループ化されたデータに該当する列の値の数。 各グループには、開始値とグループ内の値の数がコロンで区切られて示されます。 グループには、次のグループの開始値までで、その開始値を含まない値が含まれます。 1:23, 2:15,3:0は、1、2および3から始まる3つのグループを示します。 各グループにはそれぞれ23、15、および0の項目があります。
- 最小 : 列の最小値。
- 最大 : 列の最大値。
- ユニーク : フィールド内の一意の値の数。 ユニークツールを使用して、ユニークかつ重複したエントリの完全な数を表示します。 参照: ユニークツール。
- 一意の値: 列内のすべての一意の値。
空間オブジェクトデータ
列に空間オブジェクトが含まれている場合は、次のメタデータが提供されます:
- 名前 : 列名。
- データ型 : 選択された列のデータ型。
- サイズ : この列の各レコードに対して予約されているメモリの量。
- ソース: 列の原点。 これは、データソースの名前またはデータが保存される場所へのパスになります。
- 説明: 列の説明 (使用可能な場合)。 使用できる説明がない場合は、[Null] になります。
- null : 空の値を除く、null の列の値の数。
- null 以外の : 空の値を含む、列内の null 以外のエントリの数。
- 平均サイズ (バイト): このオブジェクトが受け取るメモリの平均サイズ。
- 最大サイズ (バイト): 列内の最大のオブジェクトのメモリ内のサイズ。
- [カウントポイント]: 列内のポイントである空間オブジェクトの数。
- 行数: 行の列にある空間オブジェクトの数。
- Count ポリポリライン: 列内のポリラインである空間オブジェクトの数。
- [カウント四角形]: 四角形である列内の空間オブジェクトの数。
- [ポリゴン数]: 列内のポリゴンである空間オブジェクトの数。
- [マルチポイント数]: 複数点の列にある空間オブジェクトの数。
- 平均部品数: 列内の空間オブジェクトの平均部品数。
- 部品の最大数: 列内の空間オブジェクト内の部品の最大数。
- 平均ポイント数: 列内の空間オブジェクトの平均ポイント数。
- 最大ポイント数: 列内の空間オブジェクト内のポイントの最大数。
- 最長の長さ: 列内の空間オブジェクトの最長の長さ。
- 最も大きい区域: 平方マイルまたは平方キロメートルの最も大きい区域。