【最新版】基本情報技術者試験 予想問題(テクノロジ) [問86] | 模擬試験で効率的に学習!

スポンサーリンク

問題

問86

ビッグデータ分析の前段階として、SNSの投稿テキストや画像データといった非構造化データから、分析可能な形式の構造化データ(例:キーワード、感情スコア)を抽出・加工する処理はどれか。

  • データウェアハウスの構築
  • 特徴量エンジニアリング
  • データクレンジング
  • データマイニング

正解

正解は「」です。

解説

 正解は「イ」の特徴量エンジニアリングです。特徴量エンジニアリングとは、機械学習やデータ分析において、元々の生データ(特にテキストや画像のような非構造化データ)から、分析モデルの入力として使えるような、より有益な量的・質的な変数(特徴量)を設計・抽出するプロセスのことです。

 例えば、SNSの投稿テキスト(非構造化データ)から、特定のキーワードの出現回数、投稿がポジティブかネガティブかを示す感情スコア、投稿された時間帯などを抽出し、数値データ(構造化データ)に変換する作業がこれにあたります。良い特徴量を作成できるかどうかは、分析モデルの予測精度に大きく影響するため、データ分析において非常に重要な工程です。料理に例えるなら、生の食材(生データ)から、料理(分析モデル)に最も適した形に切り分けたり、下味をつけたりする(特徴量を作る)作業に似ています。

ア(データウェアハウスの構築):
 分析目的で、様々なシステムからデータを集めて整理・保管する大規模なデータベースを構築することです。
ウ(データクレンジング):
 データの欠損値、重複、表記の揺れなどを修正・削除し、データの品質を高める作業です。特徴量エンジニアリングの前処理として行われます。
エ(データマイニング):
 大量のデータの中から、統計的な手法を用いて有益なパターンや知見を発見する分析手法そのものです。

スポンサーリンク

解法のポイント

 データ分析のプロセスに関する用語は、それぞれの工程の役割を理解することが重要です。特徴量エンジニアリングは、生のデータと分析モデルの「橋渡し」をする工程と捉えましょう。「非構造化データから分析可能な特徴量を抽出・加工する」という点が最大のキーワードです。データクレンジングは「データの掃除」、データマイニングは「宝探し(分析)」、データウェアハウスは「データの倉庫」というように、各用語の役割を明確にイメージ分けして覚えることが大切です。

用語補足

特徴量エンジニアリング:
 データから分析に役立つ「特徴」を取り出す技術です。人の顔写真から「目の間の距離」や「鼻の高さ」といった数値を抽出して、個人を識別しやすくするような作業です。

非構造化データ:
 Excelの表のように決まった形式を持たないデータのことです。文章、画像、音声、動画などがこれにあたります。

構造化データ:
 行と列で構成される表のように、構造が定義されたデータです。データベースのテーブルなどが典型例です。

データクレンジング:
 データをきれいに掃除(クレンジング)することです。例えば、住所録の「東京都千代田区」と「東京都千代田」を統一したり、重複しているデータを削除したりする作業を指します。



タイトルとURLをコピーしました