シラバス参照

授業科目名 データサイエンス実践 
授業科目名(英字) Practical Data Science 
必修・選択
選択 
開講セメスター
学部6 
ナンバリングコード HIS-1S-307 
単位数
担当教員

堂坂 浩二

副担当教員
実務経験のある教員等による授業科目に該当
実務経験あり 
 企業の研究所において、対話データからの知識獲得、ユーザモデリングに関する研究開発を行った経験を踏まえ、当該授業においては、データサイエンスの応用例を具体的に紹介している。また、手法を実際のデータに適用するためのノウハウを教育している。 



授業の目標
データサイエンスとは、人工知能(AI)、機械学習、統計学等を活用することにより、データに基づいて意思決定を行うための方法論である。本講義では、社会やビジネスの課題の解決にデータサイエンスの知識と技術を活用できるようになるために、実課題(学術研究データ等)を使って、データサイエンスの方法論と個々の手法を実践的に身につける。データサイエンスに関わる個々の手法としては、購買データから顧客ニーズを抽出する相関ルールマイニング、侵入・不正・障害を早期に検出する異常検知、大量の文章データを対象に意見(要望・不満・評価)の抽出・分類・要約を行う言語データサイエンス技術について修得する。 
到達目標
(1)「課題の発見と定式化」、「データの取り扱い」、「モデル化」、「結果の可視化」、「検証、活用」という、データサイエンスの方法論について修得する。
(2)データ分析の方法として、データの代表値、1変量・2変量データの可視化、分散共分散行列、データ行列について説明でき、実課題に適用できる。
(3)クラスタリング・主成分分析・回帰分析・相関ルールマイニングの各手法を実課題に適用できる。
(4)異常検知の各手法を実課題に適用できる。
(5)言語データサイエンス技術を実課題に適用できる。 
身につく能力 <全学ディプロマ・ポリシー>

 ○【知識・理解・技術】
  1.各専門分野の知識・技術を習得し、活用する力を身につけている

  【教養・基礎的能力】
  2.幅広い教養と、外国語能力、情報活用能力、コミュニケーション能力などの基礎的能力を身につけている

  【態度・志向性】
  3.多様な価値観を有する人々と倫理観・責任感をもって協働することができる

 ○【態度・志向性】
  4.時代の変化に主体的に対応するため継続的に学び、自律的に行動することができる

  【問題発見・解決能力】
  5.専門の知識・技術及び基礎的能力を統合し活用して、問題を発見し解決する能力を身につけている

  【グローカル・創造的思考力】
  6.地域的・国際的視点をあわせもち、また、新たな価値を想像する力を身につけている 
授業の概要
はじめに、「課題発見の定式化」、「データの取り扱い」、「モデル化」、「結果の可視化」、「検証、活用」のサイクルを通して意思決定を行うというデータサイエンスの方法論について整理する。次に、データ分析の方法を身につける。続いて、実課題(学術研究データ等)を通して、主成分分析・回帰分析・相関ルールマイニング、異常検知、言語データサイエンスの各手法を修得し、それらの手法を使ったデータサイエンスの方法論について身につける。 
授業の計画
実課題(学術研究データ等)を使った演習をまじえながら講義を進める。講義終了時に次回講義テーマに関連する予習課題を課す。毎週、授業時間外の演習課題を課す。

第1週:データサイエンスとは何か、データサイエンスの方法論、データサイエンス活用事例、演習環境の構築

第2週:データ分析の方法(1):データとは、データ分布の代表値、1変量データの可視化

第3週:データ分析の方法(2):2変量データの可視化、分散共分散行列、データ行列、中心化、尺度基準化

第4週:データの縮約:主成分分析

第5週:変量間の関係の分析:回帰分析

第6週:相関ルールマイニング:Apriori法

第7週:データからの異常検知の概要:異常検知とは、異常検知によるデータサイエンスの方法論、性能評価の方法

第8週:正規分布に従うデータからの異常検知(1):1変数正規分布に基づく異常検知、ホテリングT2法(1次元)

第9週:正規分布に従うデータからの異常検知(2):多変量正規分布による異常検知、マハラノビス=タグチ法、実課題への適用

第10週:非正規データからの異常検知(1):分布が左右対称でない場合の取り扱い、ガンマ分布による異常検知、訓練データに異常標本が混じっている場合の取り扱い、EM法

第11週:非正規データからの異常検知(2):分布が一山にならない場合の取り扱い、局所外れ値度、カーネル密度推定

第12週:時系列データの異常検知:近傍法による異常部位検出、特異スペクトル変換法による変化点検知、実課題への適用

第13週:言語データサイエンス概論:言語データサイエンスとは、テキスト情報検索(転置インデックス、ベクトル空間モデル、tf-idf)、検索評価(再現率・適合率・F値)

第14週:言語データサイエンス基礎: Bag of Words(BoW)・tf-idfによる文書分類と評価

第15週:言語データサイエンス発展:ニューラル言語モデルと生成AIの応用、類似度計算、合成データの設計・品質検証・活用 
授業時間外学修の指示
・毎週、データサイエンスの手法を使って問題を解く演習課題を与える。授業時間外で演習課題を解き、レポートにまとめ、期限までに提出すること。 
成績評価の方法
評価は講義での取り組みと演習課題レポートにより行う。授業の各到達目標の割合は、目標(1)10%、目標(2)15%、目標(3)20%、目標(4)30%、目標(5)25%である。これらの総合評価により60%以上を合格とする。 
テキスト・参考書等
参考書: 

・柴田里程 (著)、データ分析とデータサイエンス、近代科学社 税抜 3,500円、ISBN:978-4764904989

・井手剛 (著)、入門 機械学習による異常検知―Rによる実践ガイド、コロナ社 税抜3,800円、ISBN:978-4339024913

・井手剛、杉山将 (著)、異常検知と変化検知、講談社 税抜2,800円、ISBN:978-4061529083 
履修上の留意点
「人工知能」(5セメ)、「パターン認識と機械学習」(6セメ)と関係が深いので、併せて履修することが望ましい。本講義では、人工知能技術や機械学習等を使って、データに基づく意思決定を行うデータサイエンスの方法論を学ぶことに特色がある。さらに、購買データのマイニング、異常検知、言語データサイエンスといった、機械学習の基礎的手法では扱えない手法について修得する。

【manabaの利用法】
・コースコンテンツを用いて、講義資料を配布する。予習に役立てること。
・小テスト機能、レポート機能を用いて、演習課題を実施する。 
資料
備考
特になし 


PAGE TOP