自然言語処理

NATURAL LANGUAGE PROCESSING

人間が日常使っている「ことば」に焦点を当てた研究を行っています。

・アイヌ言語処理▶︎

・有害情報検出▶︎

・比喩の計算モデル▶︎

・感情情報処理▶︎

アイヌ言語処理

AINU LANGUAGE

研究背景と課題

アイヌ語を含め世界の約9割の言語が消滅の危機にあると言われています。オホーツクに住むアイヌ人たちの言語、アイヌ語には文字がありません。言語の記録は全て代々継承された口伝のみであり、この事実が言語の保存を難しくしている要因となっています。

研究目的

本プロジェクトはアイヌ語のような危機言語の維持・復興を支えることを目的としています。

課題解決に向けた取り組み

アイヌ語学習・研究発展のための技術開発

アイヌ語資料の収集・デジタル化
アイヌ語に最適な言語処理技術の開発
開発した技術の公開

これまでの成果

自然言語処理の「辞書構築」から「機械翻訳」を実現することを目指しています。現在、175万字を超えるアイヌ語の文章及び日本語対訳をデジタルデータとして収集し、アイヌ言語処理のための自然言語処理技術の開発に活用しています。これにより、アイヌ語の表記+単語分割、文法解析(品詞タグ付け)、単語レベルの自動翻訳に成功しています。

今後の予定

アイヌ語に関する自然言語処理環境の構築と整備
アイヌ語文章の収集と分析
単語や品詞情報を含むアイヌ語電子化コーパスの構築
アイヌ語テキストの解析技術の開発

有害情報検出

HARMFUL INFORMATION DETECTION

研究背景と課題

インターネットの普及に伴って、「ネットいじめ」が社会問題となっています。ネット上に書き込まれる有害な言葉は、犯罪予告など短期間で被害が深刻化する恐れがあるものやいじめによる被害の兆候である可能性があります。

研究目的

本プロジェクトはネットパトロール活動の補助技術の開発目指しています。

課題解決に向けた取り組み

有害書き込み自動検出技術の開発

ネットパトロール活動の負担軽減
ネット上の書き込みの有害性の定量化
有害性が一定以上の書き込みの検出

これまでの成果

自然言語処理、ディープラーニングの技術を応用し有害語が含まれている文を高い精度で発見することを目指しています。現在、誹謗中傷語・暴力誘発語・卑猥語の３つのカテゴリを考慮して文に含まれる単語の有害性を判定するカテゴリ別関連度最大化手法の提案、約88%の精度でディープラーニングによる有害書き込みの判定に成功しています。

今後の予定

自動判定手法の開発
実社会への応用及び効果の検証

比喩の計算モデル

COMPUTATIONAL MODEL OF METAPHOR

研究背景と課題

国が異なると、同義の言葉でも文化や歴史の違いによる解釈の相違が発生する可能性があります。そこで、語と語の比喩的関係を辿ることで対象となる語(クエリ)のイメージを広義的に表現できることに着目し、これをインターネット上にある多言語において実施することで、クエリの意味解釈を比較し、相違点を分析します。

研究目的

本プロジェクトは言語の違いによる解釈齟齬の解消を目的としています。

課題解決に向けた取り組み

英語における比喩的素描手法の適用

比喩指標の決定
コーパスとなる検索エンジンの決定
文法を考慮した知識断片の収集
多言語における手法との比較

これまでの成果

比喩の計算モデルを活用した知識獲得システム(Murasaki)の構築、Murasakiの多言語実装(日本語・ベトナム語・韓国語・中国語・英語)に成功しており、多言語における「語のイメージ」の比較分析を行いました。また、英語の比喩指標を用いた抽出実験も行っており、抽出した表現の中の正しい比喩表現を再抽出、人称・代名詞など除外すべき表現の調査を行いました。

今後の予定