インテル® DAAL プログラミング・ガイド

データソース

データソースは、ロー形式のデータとメモリー外のデータのアクセスおよび管理用のインターフェイスを定義します。データソースは、データソースに関連付けられたデータの構造を記述するデータ辞書と密接に結び付けられます。関連するデータ辞書を作成するには、以下のいずれかの操作を行います。

getDictionary() メソッドは、データソースに関連付けられた辞書を返します。

データソースは、メモリー外のローデータを数値テーブル・インターフェイスでアクセス可能なインメモリーの数値データに変換します。データソースは、対応する数値テーブルと関連付けられます。関連する数値テーブルを割り当てるには、以下のいずれかの操作を行います。

getNumericTable() メソッドは、データソースに関連付けられた数値テーブルを返します。

ローデータセットの列 (特徴) 数を取得するには、getNumberOfColumns() メソッドを使用します。ローデータセットの利用可能な行 (観測) 数を取得するには、getNumberOfAvailableRows() メソッドを使用します。getStatus() メソッドは、データソースの現在のステータスを返します。

メモリー外のデータセット全体がメモリーに収まらない可能性と、パフォーマンス上の理由により、インテル® DAAL は、ブロック単位のデータロードを実装します。データの次のブロックを数値テーブルにロードするには、loadDataBlock() メソッドを使用します。このメソッドは、この数値テーブルに関連付けられた基本的な統計の再計算も行います。

インテル® DAAL は、カテゴリカル特徴と関連付けられた設定可能な値のリストを使用して、値を数値フォームに変換します。このリストで、新しいインデックスはローデータセットで見つかった新しい値に割り当てられます。データソースの対応する特徴と関連付けられた possibleValues コレクションから設定可能な値のリストを取得することができます。同じデータ構造の複数のデータセットがあり、連続インデックスを使用する場合は、次の操作を行います。

  1. getDictionary() メソッドを使用して、最後のデータソースからデータ辞書を取得します。

  2. setDictionary() メソッドを使用して、次のデータソースにこの辞書を割り当てます。

  3. 各データソースについて、上記のステップを繰り返します。


Intel® DAAL data source
インテル® DAAL は、いくつかのポピュラーな種類のデータソース用のクラスを実装します。これらのクラスは、クラス・テンプレート・パラメーターとして、特徴マネージャー・クラスを使用します。特徴マネージャーは、データを解析、フィルター、正規化して、数値形式に変換します。データソースと対応する特徴マネージャー・クラスは次のとおりです。