本勉強会では、自然言語処理および計算機システムの研究者が集まり大規模言語モデルの研究開発について定期的に情報共有を行っています。今回、機械学習エンジニア・寺澤は「品質の良いLLMデータセットを効率よく作成するための取り組み」をテーマに、データセット作成業務における品質管理の効率化と自動化の当社の取り組みについて紹介いたします。
イベント概要
名称: 第15回 LLM 勉強会
開催:2025年1月14日(火)14:30-18:00
会場:国立情報学研究所(+オンライン)
主催: 国立情報学研究所大規模言語モデル研究開発センターLLM勉強会
登壇者: 株式会社APTO 寺澤 友治朗
イベント詳細・参加申込:https://llm-jp.nii.ac.jp/
◆登壇者プロフィール
寺澤 友治朗
株式会社APTO 機械学習エンジニア
機械学習エンジニアとしての知見をもとに、データアノテーションプラットフォーム「harBest」の開発に携わっている。
登壇者・寺澤よりコメント
「当社では高品質なLLMデータセットを提供しており、弊社のInstructionデータセットによってLLMモデルの性能が向上したというお声をいただいています。
しかし、品質の高いLLMデータセットを作ることは非常に大変で、データ作成から大量のデータの品質管理を人手で行うには非常に労力と工数を費やしています。
これからもLLMデータの需要がある中で、品質の良いデータを提供するためにも、弊社ではこのデータ作成業務の効率化・自動化について力を入れております。
今回は品質管理の効率化・自動化の取り組みを主にご紹介いたします」
harBestが選ばれる理由
AIを開発するとなれば、必ずAIを学習させるための教師データが必要となります。
harBestは、日本で唯一のクラウドワーカーによるアノテーションプラットフォームとして、多くの企業から支持を得ています。その理由は、タスクの分割と効率的な管理が可能なこと、そして経験豊富なクラウドワーカーが迅速に対応できる仕組みが整っており、スピーディに高品質なデータ収集・作成が可能だからです。特に、AI開発/導入やDX化に積極的に取り組む企業にとって、コストを抑えつつ高品質なデータを取得することができる点が大きな魅力です。
harBestサービスについて詳しくはこちらからご覧ください。
harBestデータプラットフォームはこちらからご覧ください。
harBestアプリはこちらからダウンロードが可能です。
簡単にharBestサービス概要を1分程度の動画にまとめておりますので、AI開発に課題感をお持ちでしたら是非ご覧ください。
AI開発やAI開発におけるデータまわりで課題感をお持ちでしたら是非ご相談ください。
株式会社APTO
APTOは、プラットフォームサービスとして品質の自動評価を行いながら複数人で効率的にアノテーション作業が行えるプラットフォーム「harBest」を提供しています。
▼地球最速のデータ収集・作成プラットフォーム「harBest」
▼データ収集・作成ポイ活アプリ「harBest」
URL:https://harbest.site
会社名 :株式会社APTO
所在地 :東京都渋谷区神南1-5-14 三船ビル4F 403号室
代表者 :代表取締役 高品 良
URL :https://apto.co.jp/