テストデータ

テストデータは、テスト・評価・検証の際に用いられるデータのことである。統計学機械学習分野、また、システム開発回路設計分野で用いられる用語である。

統計学や機械学習におけるテストデータ

[編集]

統計学、特にパターン認識や機械学習において、テストデータとは、統計手法や、学習されたモデル等の評価・検証を行うためのデータのことである。評価データとも呼ばれる。対義語に、トレーニングデータ、訓練データ、学習データ等がある。

統計学や機械学習において何らかの推定を行う際に、トレーニングデータだけでは学習されたモデルを十分に評価できないという問題がある。この問題は過剰適合や過学習と呼ばれる。この問題を解決するために、学習に用いないデータを用意し、いくつかの学習モデルの評価を行うことがある。この、評価を行うためのデータがテストデータと呼ばれる。交差検証においては、標本データをあらかじめトレーニングデータとテストデータに分割し、トレーニングデータで学習し、テストデータに学習モデルを適用させることで性能の評価を行う。

様々な学習モデルがそれぞれ別々のデータで学習している状況では、モデル同士の性能の優劣を正しく評価できない。そのため、共通のテストデータに対して性能の評価を行うことで、モデル同士の性能を比較することが行われている[1]


システム開発や回路の設計におけるテストデータ

[編集]

システム開発や回路の設計において、テストデータは開発・設計されたシステムの正常な動作を検証するために用いられる。疑似個人情報、疑似データ、ダミーデータなどと呼ばれることもある。

サブシステム単体テスト・モジュールの結合テスト・全体のシステムテストなどの各テストにおいて、システムが正常に稼動するかどうかをテストするために用いられることが多い。 特に最後のシステムテスト(システム全体を対象に行われるテスト)におけるテストデータは実際の業務やサービスを想定して準備されることが多い。 テストデータの質が悪かったり、十分な量のテストデータが用意できないとシステムテスト不足になってしまい、バグやシステムダウンの原因となることもある。 業務に携わる人が作成することをテストデータ生成やテストデータ作成などと呼び、既存のデータベースにあるデータを一部利用することをデータマスキングなどと呼ぶことが多い。 テストデータに個人情報が含まれる場合は、個人情報漏洩のリスクも考慮した上でテストデータを準備・利用・破棄する必要がある。

脚注

[編集]
  1. ^ DataSet - 機械学習の「朱鷺の杜Wiki」 様々な分野における、比較検証に利用できるテスト用データがまとめられている