|
授業の目標
|
|
|
データサイエンスとは、人工知能(AI)、機械学習、統計学等を活用することにより、データに基づいて意思決定を行うための方法論である。本講義では、社会やビジネスの課題の解決にデータサイエンスの知識と技術を活用できるようになるために、実課題(学術研究データ等)を使って、データサイエンスの方法論と個々の手法を実践的に身につける。データサイエンスに関わる個々の手法としては、購買データから顧客ニーズを抽出する相関ルールマイニング、侵入・不正・障害を早期に検出する異常検知、大量の文章データを対象に意見(要望・不満・評価)の抽出・分類・要約を行う言語データサイエンス技術について修得する。
|
|
|
|
到達目標
|
|
(1)「課題の発見と定式化」、「データの取り扱い」、「モデル化」、「結果の可視化」、「検証、活用」という、データサイエンスの方法論について修得する。 (2)データ分析の方法として、データの代表値、1変量・2変量データの可視化、分散共分散行列、データ行列について説明でき、実課題に適用できる。 (3)クラスタリング・主成分分析・回帰分析・相関ルールマイニングの各手法を実課題に適用できる。 (4)異常検知の各手法を実課題に適用できる。 (5)言語データサイエンス技術を実課題に適用できる。
|
|
|
|
身につく能力
|
|
<全学ディプロマ・ポリシー>
○【知識・理解・技術】 1.各専門分野の知識・技術を習得し、活用する力を身につけている
【教養・基礎的能力】 2.幅広い教養と、外国語能力、情報活用能力、コミュニケーション能力などの基礎的能力を身につけている
【態度・志向性】 3.多様な価値観を有する人々と倫理観・責任感をもって協働することができる
○【態度・志向性】 4.時代の変化に主体的に対応するため継続的に学び、自律的に行動することができる
【問題発見・解決能力】 5.専門の知識・技術及び基礎的能力を統合し活用して、問題を発見し解決する能力を身につけている
【グローカル・創造的思考力】 6.地域的・国際的視点をあわせもち、また、新たな価値を想像する力を身につけている
|
|
|
授業の概要
|
|
|
はじめに、「課題発見の定式化」、「データの取り扱い」、「モデル化」、「結果の可視化」、「検証、活用」のサイクルを通して意思決定を行うというデータサイエンスの方法論について整理する。次に、データ分析の方法を身につける。続いて、実課題(学術研究データ等)を通して、主成分分析・回帰分析・相関ルールマイニング、異常検知、言語データサイエンスの各手法を修得し、それらの手法を使ったデータサイエンスの方法論について身につける。
|
|
|
|
授業の計画
|
|
実課題(学術研究データ等)を使った演習をまじえながら講義を進める。講義終了時に次回講義テーマに関連する予習課題を課す。毎週、授業時間外の演習課題を課す。
第1週:データサイエンスとは何か、データサイエンスの方法論、データサイエンス活用事例、演習環境の構築
第2週:データ分析の方法(1):データとは、データ分布の代表値、1変量データの可視化
第3週:データ分析の方法(2):2変量データの可視化、分散共分散行列、データ行列、中心化、尺度基準化
第4週:データの縮約:主成分分析
第5週:変量間の関係の分析:回帰分析
第6週:相関ルールマイニング:Apriori法
第7週:データからの異常検知の概要:異常検知とは、異常検知によるデータサイエンスの方法論、性能評価の方法
第8週:正規分布に従うデータからの異常検知(1):1変数正規分布に基づく異常検知、ホテリングT2法(1次元)
第9週:正規分布に従うデータからの異常検知(2):多変量正規分布による異常検知、マハラノビス=タグチ法、実課題への適用
第10週:非正規データからの異常検知(1):分布が左右対称でない場合の取り扱い、ガンマ分布による異常検知、訓練データに異常標本が混じっている場合の取り扱い、EM法
第11週:非正規データからの異常検知(2):分布が一山にならない場合の取り扱い、局所外れ値度、カーネル密度推定
第12週:時系列データの異常検知:近傍法による異常部位検出、特異スペクトル変換法による変化点検知、実課題への適用
第13週:言語データサイエンス概論:言語データサイエンスとは、テキスト情報検索(転置インデックス、ベクトル空間モデル、tf-idf)、検索評価(再現率・適合率・F値)
第14週:言語データサイエンス基礎: Bag of Words(BoW)・tf-idfによる文書分類と評価
第15週:言語データサイエンス発展:ニューラル言語モデルと生成AIの応用、類似度計算、合成データの設計・品質検証・活用
|
|
|
|
授業時間外学修の指示
|
|
|
・毎週、データサイエンスの手法を使って問題を解く演習課題を与える。授業時間外で演習課題を解き、レポートにまとめ、期限までに提出すること。
|
|
|
|
成績評価の方法
|
|
|
評価は講義での取り組みと演習課題レポートにより行う。授業の各到達目標の割合は、目標(1)10%、目標(2)15%、目標(3)20%、目標(4)30%、目標(5)25%である。これらの総合評価により60%以上を合格とする。
|
|
|
|
テキスト・参考書等
|
|
参考書:
・柴田里程 (著)、データ分析とデータサイエンス、近代科学社 税抜 3,500円、ISBN:978-4764904989
・井手剛 (著)、入門 機械学習による異常検知―Rによる実践ガイド、コロナ社 税抜3,800円、ISBN:978-4339024913
・井手剛、杉山将 (著)、異常検知と変化検知、講談社 税抜2,800円、ISBN:978-4061529083
|
|
|
|
履修上の留意点
|
|
「人工知能」(5セメ)、「パターン認識と機械学習」(6セメ)と関係が深いので、併せて履修することが望ましい。本講義では、人工知能技術や機械学習等を使って、データに基づく意思決定を行うデータサイエンスの方法論を学ぶことに特色がある。さらに、購買データのマイニング、異常検知、言語データサイエンスといった、機械学習の基礎的手法では扱えない手法について修得する。
【manabaの利用法】 ・コースコンテンツを用いて、講義資料を配布する。予習に役立てること。 ・小テスト機能、レポート機能を用いて、演習課題を実施する。
|
|
|
|
資料
|
|
|
|
|
備考
|
|
|