はじめに
こんにちは、estieでデータサイエンティストをしている齊藤です。ヤドンが好きです。
株式会社estieは、2025年3月10日(月)〜3月14日(金)に出島メッセ長崎で開催された言語処理学会第31回年次大会(NLP2025)にプラチナスポンサーとして参加し、ポスター発表とブース展示を行いました。
開催地の長崎はポケモンのデンリュウとコラボしており、大変親近感を抱きながら過ごすことができました。
また、ブース展示を初めて行いました。今回の学会では昨年よりも多くの企業がブースを設置しており、大変な盛況ぶりでした。弊社もたくさんの方々と交流でき、estieが取り組んでいる技術や事業について知っていただけました。
発表した内容
私が発表したのは Q10-8 不動産情報抽出業務の効率化に向けた大規模言語モデルを用いたアンサンブル手法 です。
これはestie J-REITというプロダクトのデータ構築プロセスに関する研究です。
J-REITが公開するプレスリリースには、多種多様な表構造があり、さらに重要な情報が欄外の注釈に記載されていることも少なくありません。こうした複雑な文書から不動産取引や鑑定評価の情報を正確に抽出するため、LLMを用いて構造化を行っています。
しかし、LLM特有の課題として誤抽出(ハルシネーション)の問題があります。そのため、現状では人間による確認作業を後工程として行っていますが、これには膨大な時間とコストがかかっていました。
そこで私たちが取り組んだのが「LLMアンサンブル方式」です。複数の異なるLLMに同じフォーマットで出力させ、結果を比較することで信頼度スコアを算出。モデル間の一致・不一致をもとに、人間がチェックすべき箇所を自動的に優先順位付けするシステムを構築しました。これにより確認作業の効率が大幅に向上させることができました。
ちなみに、estie J-REITはestieが提供する唯一の無料サービスです。社内一丸となってデータの品質向上に取り組んでいますので、ぜひご活用ください!
面白かった出来事・発表
今年のテーマセッションで驚いたのは、私たちと同じくJ-REITプレスリリースの構造化に取り組まれている方がいるということでした。同じ課題に直面している方と意見交換できたことは、今後の開発方針を考える上で貴重な機会となりました。
また、ブースを出したことで様々な研究者や学生の方と交流することができました。In-Context Learning、プロンプトの自動最適化、PDF処理技術、おすすめVLMなどなど、広いトピックについて議論を交わしました。オンラインでは得られない、その場の熱量と共に議論が発展していく様子は、対面学会の醍醐味を改めて感じさせてくれました。
こうした交流から「すぐに実装したい新アイデア」と「将来的に挑戦したい研究課題」の両方が見えてきた、非常に刺激的な一週間でした。まだまだやることは本当にたくさんあるなと現在地を知ることができました。
ほとんどの研究でLLMに言及されており、あたりまえの技術になるのが本当に早いな、と感じました。去年よりも安全性や評価に関する発表が多かった印象です。また、VLMなどマルチモーダルのシステムもかなりできることが広がっていて、実際の苦労話がいろいろ聞けたこともおもしろかったです。
おわりに
来年のNLPは宇都宮での開催が決定しています。estieとしても引き続き参加し、今回得た知見や課題をもとに、より充実した研究発表ができるよう精進していきます。
また直近では、大阪で開催される人工知能学会(JSAI)にも参加予定です。残念ながらブース出展は間に合いませんでしたが、多くの方々との交流機会を楽しみにしています。
estieでは、不動産データの可能性を最大限に引き出す挑戦を続けています。AIやデータサイエンスの力で不動産市場の透明性向上に貢献したいという私たちの理念に共感いただける方、ぜひお気軽にご連絡ください。学生インターンも積極的に募集中です!