【最新版】基本情報技術者試験 予想問題(ストラテジ) [問18] | 模擬試験で効率的に学習!

スポンサーリンク

問題

問18

ビッグデータ分析の前段階において、ソーシャルメディアの口コミやWebサイトのテキストデータなどの非構造化データを、分析可能な形式の構造化データに変換する処理を説明したものはどれか。

  • データウェアハウスの構築
  • データレイクの運用
  • テキストマイニングによる特徴量抽出
  • データ仮想化の適用

正解

正解は「」です。

解説

 正解は「テキストマイニングによる特徴量抽出」です。テキストマイニングは、文章や口コミ、レビュー、SNS投稿などの非構造化データから意味のある情報やパターンを抽出する手法です。ビッグデータ分析では、まずデータを機械学習や統計分析で扱いやすい構造化データに変換する必要があります。例えば、「ビールがおいしい」という口コミから、「ビール」と「おいしい」というキーワードを抽出し、頻度や感情スコアなどの数値化された特徴量に変換することで、分析が可能になります。

 日常生活の例に置き換えると、紙のアンケートを集めて手で分類・集計する作業に似ています。非構造化のままでは集計や統計分析が難しいですが、重要な情報を整理し数値化することで初めて分析可能になります。テキストマイニングはこれを自動化・効率化する手法として、ビッグデータ分析における前処理段階で非常に重要です。

ア(データウェアハウスの構築):
 データウェアハウスは構造化データを統合・蓄積する仕組みであり、非構造化データを直接分析可能にする処理ではありません。
イ(データレイクの運用):
 データレイクは非構造化データも含む大規模データを保存する仕組みですが、保存だけで分析可能な構造化データに変換するわけではありません。
エ(データ仮想化の適用):
 データ仮想化は複数のデータソースを統合して抽象化する技術であり、非構造化データを分析用に変換する処理ではありません。

スポンサーリンク

解法のポイント

 ビッグデータ分析における前処理では、非構造化データを分析可能な構造化データに変換する手法を理解することがポイントです。テキストマイニングはその代表的手法であり、キーワード抽出や感情分析などを通じて数値化する処理が該当します。

用語補足

テキストマイニング:
文章や口コミ、SNS投稿などの非構造化データから情報を抽出し、分析可能な形式に変換する手法です。例としてレビューから「良い」「悪い」といった感情を数値化します。

非構造化データ:
データベースの表形式のように整理されていないデータです。例としてSNS投稿、メール、画像、音声などがあります。

構造化データ:
表や列などで整理された、コンピュータが直接扱いやすいデータです。分析や統計処理が容易です。

特徴量:
機械学習や統計分析で利用するために、非構造化データから抽出された数値化された情報です。例として口コミの感情スコアや単語出現頻度があります。



タイトルとURLをコピーしました