Campusmate

シラバス参照

授業科目名

データサイエンス実践

授業科目名（英字）

Practical Data Science

必修・選択

選択

開講ｾﾒｽﾀｰ

学部6

ﾅﾝﾊﾞﾘﾝｸﾞｺｰﾄﾞ

HIS-1S-307

単位数

担当教員

堂坂　浩二

副担当教員

実務経験のある教員等による授業科目に該当


	実務経験あり

	企業の研究所において、対話データからの知識獲得、ユーザモデリングに関する研究開発を行った経験を踏まえ、当該授業においては、データサイエンスの応用例を具体的に紹介している。また、手法を実際のデータに適用するためのノウハウを教育している。

授業の目標

データサイエンスとは、人工知能（AI)、機械学習、統計学等を活用することにより、データに基づいて意思決定を行うための方法論である。本講義では、社会やビジネスの課題の解決にデータサイエンスの知識と技術を活用できるようになるために、実課題（学術研究データ等）を使って、データサイエンスの方法論と個々の手法を実践的に身につける。データサイエンスに関わる個々の手法としては、購買データから顧客ニーズを抽出する相関ルールマイニング、侵入・不正・障害を早期に検出する異常検知、大量の文章データを対象に意見（要望・不満・評価）の抽出・分類・要約を行う言語データサイエンス技術について修得する。

到達目標

(1)「課題の発見と定式化」、「データの取り扱い」、「モデル化」、「結果の可視化」、「検証、活用」という、データサイエンスの方法論について修得する。
(2)データ分析の方法として、データの代表値、1変量・2変量データの可視化、分散共分散行列、データ行列について説明でき、実課題に適用できる。
(3)クラスタリング・主成分分析・回帰分析・相関ルールマイニングの各手法を実課題に適用できる。
(4)異常検知の各手法を実課題に適用できる。
(5)言語データサイエンス技術を実課題に適用できる。

身につく能力

＜全学ディプロマ・ポリシー＞

　○【知識・理解・技術】
　　１．各専門分野の知識・技術を習得し、活用する力を身につけている

　　【教養・基礎的能力】
　　２．幅広い教養と、外国語能力、情報活用能力、コミュニケーション能力などの基礎的能力を身につけている

　　【態度・志向性】
　　３．多様な価値観を有する人々と倫理観・責任感をもって協働することができる

　○【態度・志向性】
　　４．時代の変化に主体的に対応するため継続的に学び、自律的に行動することができる

　　【問題発見・解決能力】
　　５．専門の知識・技術及び基礎的能力を統合し活用して、問題を発見し解決する能力を身につけている

　　【ｸﾞﾛｰｶﾙ・創造的思考力】
　　６．地域的・国際的視点をあわせもち、また、新たな価値を想像する力を身につけている

授業の概要

はじめに、「課題発見の定式化」、「データの取り扱い」、「モデル化」、「結果の可視化」、「検証、活用」のサイクルを通して意思決定を行うというデータサイエンスの方法論について整理する。次に、データ分析の方法を身につける。続いて、実課題（学術研究データ等）を通して、主成分分析・回帰分析・相関ルールマイニング、異常検知、言語データサイエンスの各手法を修得し、それらの手法を使ったデータサイエンスの方法論について身につける。

授業の計画

実課題（学術研究データ等）を使った演習をまじえながら講義を進める。講義終了時に次回講義テーマに関連する予習課題を課す。毎週、授業時間外の演習課題を課す。

第１週：データサイエンスとは何か、データサイエンスの方法論、データサイエンス活用事例、演習環境の構築

第２週：データ分析の方法（１）：データとは、データ分布の代表値、１変量データの可視化

第３週：データ分析の方法（２）：2変量データの可視化、分散共分散行列、データ行列、中心化、尺度基準化

第４週：データの縮約：主成分分析

第５週：変量間の関係の分析：回帰分析

第６週：相関ルールマイニング：Apriori法

第７週：データからの異常検知の概要：異常検知とは、異常検知によるデータサイエンスの方法論、性能評価の方法

第８週：正規分布に従うデータからの異常検知（１）：１変数正規分布に基づく異常検知、ホテリングT2法（１次元）

第９週：正規分布に従うデータからの異常検知（２）：多変量正規分布による異常検知、マハラノビス=タグチ法、実課題への適用

第１０週：非正規データからの異常検知（１）：分布が左右対称でない場合の取り扱い、ガンマ分布による異常検知、訓練データに異常標本が混じっている場合の取り扱い、EＭ法

第１１週：非正規データからの異常検知（２）：分布が一山にならない場合の取り扱い、局所外れ値度、カーネル密度推定

第１２週：時系列データの異常検知：近傍法による異常部位検出、特異スペクトル変換法による変化点検知、実課題への適用

第１３週：言語データサイエンス概論：言語データサイエンスとは、テキスト情報検索（転置インデックス、ベクトル空間モデル、tf-idf）、検索評価（再現率・適合率・F値）

第１４週：言語データサイエンス基礎： Bag of Words（BoW）・tf-idfによる文書分類と評価

第１５週：言語データサイエンス発展：ニューラル言語モデルと生成AIの応用、類似度計算、合成データの設計・品質検証・活用

授業時間外学修の指示

・毎週、データサイエンスの手法を使って問題を解く演習課題を与える。授業時間外で演習課題を解き、レポートにまとめ、期限までに提出すること。

成績評価の方法

評価は講義での取り組みと演習課題レポートにより行う。授業の各到達目標の割合は、目標(1)10％、目標(2)15％、目標(3)20％、目標(4)30％、目標(5)25％である。これらの総合評価により60%以上を合格とする。

テキスト・参考書等

参考書：　

・柴田里程 (著)、データ分析とデータサイエンス、近代科学社　税抜 3,500円、ISBN:978-4764904989

・井手剛 (著)、入門機械学習による異常検知―Rによる実践ガイド、コロナ社　税抜3,800円、ISBN:978-4339024913

・井手剛、杉山将 (著)、異常検知と変化検知、講談社　税抜2,800円、ISBN:978-4061529083

履修上の留意点

「人工知能」（5セメ）、「パターン認識と機械学習」（6セメ）と関係が深いので、併せて履修することが望ましい。本講義では、人工知能技術や機械学習等を使って、データに基づく意思決定を行うデータサイエンスの方法論を学ぶことに特色がある。さらに、購買データのマイニング、異常検知、言語データサイエンスといった、機械学習の基礎的手法では扱えない手法について修得する。

【manabaの利用法】
・コースコンテンツを用いて、講義資料を配布する。予習に役立てること。
・小テスト機能、レポート機能を用いて、演習課題を実施する。

資料

備考

特になし