Campusmate

シラバス参照

授業科目名

自然言語処理

授業科目名（英字）

Natural Language Processing

必修・選択

選択

開講ｾﾒｽﾀｰ

院前1

ﾅﾝﾊﾞﾘﾝｸﾞｺｰﾄﾞ

BCA-3S-502

単位数

担当教員

堂坂　浩二

副担当教員

実務経験のある教員等による授業科目に該当

授業の目標

自然言語処理とは、言葉で伝達される情報を理解・抽出し、人間・コンピュータ間の言語コミュニケーションを支援するソフトウェア技術である。近年の深層学習の進展は自然言語処理の研究にブレークスルーをもたらした。本講義では、深層学習に基づく自然言語処理、その最先端である大規模言語モデルや生成AIを社会課題解決に生かす能力を身につけるため、次のことを目標とする。
(1) 社会やビジネスの課題解決を目指した自然言語処理の活用について議論できるようになる。
(2) 単語ベクトル表現、言語モデル、系列変換モデルなど、深層学習を用いた自然言語処理の関する基本的な知識と技術を身につける。
(3) Transformerの仕組み、それを活用した事前学習モデル・大規模言語モデル・生成AIの基礎を身につける。
(4) 主要な自然言語処理タスクを実践的に運用できる能力を養う。

到達目標

(1) 自然言語処理の応用事例や、社会・ビジネスの課題解決における活用事例を説明できる。
(2) 素性関数を用いた単語ベクトル表現、Word2Vecによる単語ベクトル学習、RNNを用いた文ベクトル表現の原理を説明し、具体例に適用できる。
(3) 系列変換モデルの構成要素（エンコーダ、デコーダ、注意機構、単語生成処理）について説明し、具体例に適用できる。
(4) Transformerの構成要素と処理の概要、それを活用した事前学習モデル・大規模言語モデル・生成AIの原理を説明できる。
(5) 大規模言語モデルを活用した固有表現認識、文埋め込み、生成AIを活用した要約生成・質問応答技術の基本を説明できる。

身につく能力

＜全学ディプロマ・ポリシー＞

○(1)各研究科・専攻の専門分野に応じた高度な専門知識

　(2)各研究科・専攻の専門分野に応じた研究開発能力

○(3)高い水準の幅広い教養と倫理観

○(4)高度な専門知識・研究開発能力・倫理観・幅広い教養を統合し、問題を発見し解決する能力

○(5)高度な専門知識・研究開発能力・倫理観・幅広い教養を統合し、グローカルな視野をもって社会的・経済的価値を創出する力

授業の概要

本講義では、まず、自然言語処理技術の概観や活用事例、社会課題・ビジネス課題への寄与について議論する。次に、機械学習の基本的枠組みと単語ベクトル表現（Word2VecやFastTextなど）、再帰型ニューラルネットワーク（RNN、LSTM、GRU）など系列データを扱うモデルを修得する。続いて、言語モデル・系列変換モデルの高度化として、Transformerの仕組みを学び、BERTやGPTなどの事前学習モデル、さらにパラメータ数を大幅に拡大した大規模言語モデル(LLM)や生成AIの概要を理解する。最後に、固有表現認識(NER)、文埋め込み(SimCSE)をはじめとする情報抽出手法や、生成AIを活用した要約・質問応答(QA)など主要な自然言語処理タスクについて学び、実装や評価・運用時の注意点を考察する。

授業の計画

講義を中心に、理解度確認クイズ、プログラムの実行を交えながら進める。

第１週：自然言語処理の概要：自然言語処理とは、深層学習に基づく自然言語処理の発展、事前学習モデル・大規模言語モデル・生成AIとは、自然言語処理の身近な応用、自然言語処理の社会・ビジネス課題解決への寄与

第２週：自然言語処理のための機械学習の基礎（１）：教師あり学習、特徴量表現、パーセプトロン、ロジスティック回帰、ソフトマックス回帰モデル

第３週：自然言語処理のための機械学習の基礎（２）：機械学習モデルの評価、正則化、ニューラルネットワーク、計算グラフと自動微分

第４週：単語ベクトル表現（１）：素性関数による単語のベクトル表現、分布仮説と単語文脈行列、特異値分解による次元削減、ニューラルネットワークによる学習（Word2Vec）

第５週：単語ベクトル表現（２）：Word2Vecの実装、単語ベクトルの応用、単語よりも小さな単位の利用（FastText）、単語ベクトル表現の課題と限界

第６週：系列に対するニューラルネットワーク：単語ベクトルの合成、再帰型ニューラルネットワーク（RNN）、勾配消失問題と勾配爆発問題、長期短期記憶（LSTM）、ゲート付き再帰ユニット（GRU）

第７週：言語モデル・系列変換モデル（１）：言語モデルの定式化、言語モデルの利用例、nグラム言語モデル、ニューラル言語モデル

第８週：言語モデル・系列変換モデル（２）：系列変換モデル（エンコーダ、デコーダ、注意機構、単語の生成処理）、言語モデルの評価、未知語問題への対応

第９週：Transformer：Transformerの歴史的背景、自己注意機構（セルフアテンション）、Transformerの構成要素、学習時の工夫

第１０週：大規模言語モデルの基礎と生成AIへの発展：デコーダの事前学習 GPT、エンコーダの事前学習 BERT、エンコーダ・デコーダの事前学習 BART・T5、モデルの大規模化、プロンプティング技術、アラインメント

第１１週：大規模言語モデルのファインチューニング：日本語ベンチマーク JGLUE、感情分析モデルのファインチューニングとエラー分析

第１２週：固有表現認識(NER)と文埋め込み：固有表現認識技術のラベルスキーマ・評価指標・モデル構造、文埋め込みモデルの概要

第１３週：生成AIを活用した自然言語処理①（要約生成）：要約生成の分類、主要なモデル・アーキテクチャ、評価指標、見出し生成

第１４週：生成AIを活用した自然言語処理②（質問応答）：質問応答システムの仕組み、評価指標、文書検索を組み込んだ質問応答システム

第１５週：研究動向、課題討論：自然言語処理・生成AIに関する最新技術の紹介、生成AIにおけるプライバシー保護、著作権などの課題

授業時間外学修の指示

・毎回、演習課題を課すので、期限内にレポートをまとめ提出すること。演習課題の解答例はmanabaで公開するので、その解答例を見ることで授業内容を復習すること。

成績評価の方法

自然言語処理の基礎技術と応用に対する理解度を、授業参加状況、演習課題レポートにより評価する。授業の各到達目標の割合は、目標(1)を１０％、目標(2)を１０％、目標(3)を１０％、目標(4)を15％、目標(5)を１５％、目標(6)を４0％とする。これらの総合評価により60%以上を合格とする。

テキスト・参考書等

参考書：

・岡﨑直観、荒瀬由紀、鈴木潤、鶴岡慶雅、宮尾祐介、IT Text 自然言語処理の基礎、オーム社　税抜3,000円、ISBN:978-4274229008
・山田育矢、鈴木正敏、山田康輔、李凌寒、大規模言語モデル入門、技術評論社、税抜3,520円、ISBN:978-4297136338
・黒橋禎夫、柴田知秀、自然言語処理概論、サイエンス社　税抜1,900円、ISBN:978-4781913889

履修上の留意点

特になし

資料

備考

・生成AIは、構成案作成や表現の言い換え・校正など、文章の明瞭性・一貫性を高める補助としての利用を認める。
・AI出力を出典を示さずそのまま提出物に含めることや、課題の内容を自ら十分に検討せずAIに作成を一任すること、個人情報・秘密データを入力することは禁止する。
・必要に応じて、AI使用の有無・目的等の自己申告を求める。