Nishika/Nishikaが判例中の個人情報を9割超の精度で抽出可能なアルゴリズムを開発

データ分析コンペティションを中心としたプラットフォーム”Nishika”を運営するNishika株式会社(東京都港区、代表取締役山下達朗、以下Nishika)が開催したコンペティション「判例の個人情報の自動マスキング」(以下本コンペ)が1/21に終了し、優勝ソリューションは個人情報を9割超の精度で抽出可能なものとなりました。
・URL:https://www.nishika.com/competitions/7/summary
・参加者数:228名
・予測結果提出回数:521回
【アルゴリズム概要】
本コンペは、判例中の個人情報の匿名化作業という、現場での負荷の高い業務を効率化することを目的に企画されました。タスクを「判例文の中で、個人情報に相当する文言を、人名・組織名・地名などの種類別に抽出する」と設定し、コンペティションを開催いたしました。

表現の種類別に抽出を行ったのは、実際の判例文のマスキングでは、人名はA, B, C…地名はα, β, γ…などと、表現の種類ごとにマスキングのルールが一定決まっているため、マスクすべき箇所を抽出するだけでなく、それがどのような種類の表現なのか特定する必要があったためです。

228名のデータサイエンティストによる激しい競争の結果、優勝したソリューションは、評価データである約7000のラベルに対して91.4%の精度で抽出可能なものとなりました。

特に人名は94.5%、組織名・施設名は81.4%という高い精度で抽出可能なものとなっています。
※評価指標はF1値のマイクロ平均
Nishikaは今回構築したソリューションが実用価値の高いものであると考え、法曹界や法律関連のメディア企業、ソリューション提供業界などに対して実用可能性について働きかけていきます。

【データ分析コンペティションについて】

 

 

データ分析コンペティションは、AIやビッグデータの解析モデルをオープンイノベーション方式で開発する仕組みのことで、最高精度のAIモデルが開発可能なためアメリカや中国においてAI開発の新たな手法として普及しています。 

企業から提出されたデータセットを、Nishikaに登録しているデータサイエンティスト達が各々解析し、AIモデルを作成。モデルの精度はリアルタイムで評価・ランキング化されます。企業は最も性能が良いAIモデルを賞金と引き換えに獲得できます。主な用途には、ECサイトなどにおけるリコメンドエンジンの開発、製造業などにおける異常検知や需要予測、株価や不動産などの将来価格予測などに加え、画像解析や自然言語処理などのAIモデルの開発があり、非常に幅広く活用されています。

また、機械学習モデルの開発に限らず、データ分析に基づいたトップクラスのデータサイエンティスト達によるアイデアソン・ハッカソンなどの取組も可能です。

【Nishika株式会社について】

 

2019年5月に設立。AI・データサイエンスに特化したコミュニティプラットフォーム「Nishika」を運営している。
URL :https://www.nishika.com/
所在地 : 東京都港区芝浦3-7-8-202
代表者 : 代表取締役CEO 山下達朗、代表取締役CTO 松田裕之
事業内容:コンペティションによるAI開発, データサイエンスQ&Aサイト運営, データサイエンティストに特化した求人メディアサイト運営, 受託によるAI開発・コンサルティング

【本リリースに関するお問合せ先】

Nishika株式会社 担当 : 松田
E-mail:info@nishika.com