人間が日常的に使う「ことば」に焦点を当て、テキスト情報を自動的に処理・分析する技術の研究を行っています。

有害情報検出・ネットいじめ対策

インターネット上の誹謗中傷やネットいじめは深刻な社会問題です。本研究室では、自然言語処理とディープラーニングを用いて、有害な書き込みを自動検出する技術を開発しています。日本語だけでなく、英語、ポーランド語、韓国語など多言語に対応した検出技術を構築しており、異言語間転移学習を活用した低資源言語への展開も進めています。開発した技術は商用プラットフォームに導入されています。

アイヌ言語処理

世界の約9割の言語が消滅の危機にあると言われています。アイヌ語には文字体系がなく、言語の記録は口伝に依存してきました。本研究室では、175万字を超えるアイヌ語テキストのデジタル化を行い、形態素解析、品詞タグ付け、機械翻訳などの自然言語処理技術を開発しています。言語の維持・復興を技術面から支援することを目指しています。

感情情報処理

テキストから書き手の感情や意図を自動的に認識する技術を研究しています。本研究室から生まれた感情分析システム ML-Ask は、日本語感情分析のオープンソースツールとして広く利用されており、世界初のオープンソース日本語感情分析システムとして知られています。

異言語間転移学習

ある言語で学習した自然言語処理モデルの知識を、他の言語に転移させる研究を行っています。特に、学習データが少ない低資源言語に対して、高資源言語の知識を活用する手法を開発しています。言語類型論に基づく言語間類似度指標 qWALS の提案など、理論的な貢献も行っています。

比喩の計算モデル

言語間で異なる比喩表現の相違を分析し、知識獲得システム Murasaki を開発しています。日本語、英語、ベトナム語、韓国語、中国語への多言語展開を実現しています。