Up コーパス (corpus) 作成: 2025-05-10
更新: 2025-05-10


  • 自然言語 (自然な言語表現) のデータベース
    • 文章や会話などを大量に集めて,コンピュータで処理しやすいように構造化した,言語データベース。

  • チャットボットの製作では,実際の言語使用の状況(頻度・文脈)を,教師なし学習で学習させる。,
    この学習のデータセットとして,コーパスがよく使われる。

  • 日本語コーパス
    • 国立国語研究所・他 :「現代日本語書き言葉均衡コーパス(BCCWJ:Balanced Corpus of Contemporary Written Japanese)」


  • データのフォーマット