問題
問18
ビッグデータ分析の前段階において、ソーシャルメディアの口コミやWebサイトのテキストデータなどの非構造化データを、分析可能な形式の構造化データに変換する処理を説明したものはどれか。
- データウェアハウスの構築
- データレイクの運用
- テキストマイニングによる特徴量抽出
- データ仮想化の適用
正解
正解は「ウ」です。
解説
正解は「テキストマイニングによる特徴量抽出」です。テキストマイニングは、文章や口コミ、レビュー、SNS投稿などの非構造化データから意味のある情報やパターンを抽出する手法です。ビッグデータ分析では、まずデータを機械学習や統計分析で扱いやすい構造化データに変換する必要があります。例えば、「ビールがおいしい」という口コミから、「ビール」と「おいしい」というキーワードを抽出し、頻度や感情スコアなどの数値化された特徴量に変換することで、分析が可能になります。
日常生活の例に置き換えると、紙のアンケートを集めて手で分類・集計する作業に似ています。非構造化のままでは集計や統計分析が難しいですが、重要な情報を整理し数値化することで初めて分析可能になります。テキストマイニングはこれを自動化・効率化する手法として、ビッグデータ分析における前処理段階で非常に重要です。
ア(データウェアハウスの構築):
データウェアハウスは構造化データを統合・蓄積する仕組みであり、非構造化データを直接分析可能にする処理ではありません。
イ(データレイクの運用):
データレイクは非構造化データも含む大規模データを保存する仕組みですが、保存だけで分析可能な構造化データに変換するわけではありません。
エ(データ仮想化の適用):
データ仮想化は複数のデータソースを統合して抽象化する技術であり、非構造化データを分析用に変換する処理ではありません。
解法のポイント
ビッグデータ分析における前処理では、非構造化データを分析可能な構造化データに変換する手法を理解することがポイントです。テキストマイニングはその代表的手法であり、キーワード抽出や感情分析などを通じて数値化する処理が該当します。
用語補足
テキストマイニング:
文章や口コミ、SNS投稿などの非構造化データから情報を抽出し、分析可能な形式に変換する手法です。例としてレビューから「良い」「悪い」といった感情を数値化します。
非構造化データ:
データベースの表形式のように整理されていないデータです。例としてSNS投稿、メール、画像、音声などがあります。
構造化データ:
表や列などで整理された、コンピュータが直接扱いやすいデータです。分析や統計処理が容易です。
特徴量:
機械学習や統計分析で利用するために、非構造化データから抽出された数値化された情報です。例として口コミの感情スコアや単語出現頻度があります。


