Gunosyのカルチャー、はたらくひとを知る「グノシル」

研究職インターンが活躍する環境とは~論文がトップカンファレンスに採択されるまでの軌跡

こんにちは、採用広報のやざわです。

今年の5月、Gunosyでは「広告クリエイティブ作成支援のためのマルチタスク学習とConditional AttentionによるCV予測」の研究結果を発表した論文が、データマイニングに関する国際会議「KDD2019」に採択されました。

今回は、研究を進めたGunosy共同創業者とインターン生にお話を伺ってきました。インターンでも研究に携われた指導方法とは?業務と並行して論文を書ける職場環境とは?「KDD2019」への登壇を直前に控えた2人の対談をお送りします。ぜひ、ご覧ください。

f:id:gunosy_media:20190718153552j:plain

Profile

北田さん(写真左)/Gunosy Tech Lab所属 インターン生
法政大学大学院理工学研究科 応用情報工学専攻 修士課程。2017年3月よりGunosyでのインターンを開始。データ分析部にてユーザーの行動分析やニュース配信アルゴリズムの開発や機能改善を担当。その後、技術戦略室の研究開発チームで広告クリエイティブ評価予測の研究に取り組み、2018年夏に「YANS」、2019年3月に「言語処理学会」で論文発表を行う。
さん(写真中央)/Gunosy共同創業者 Gunosy Tech Lab R&Dチーム 上席研究員
東京大学工学部卒業、同大学院工学系研究科博士課程修了。2011年度未踏OB。大学院在籍中にGunosy(グノシー)を共同開発し、2012年当社創業。創業期からニュース配信ロジックの開発を担当し、推薦システムを中心としたウェブマイニング、機械学習応用、自然言語処理応用を専門とする。現在は、研究開発に従事している。 

企業として社員の研究をサポート

現在担当されている業務を教えてください


現在、Gunosy Tech Labに上席研究員として所属しています。自身の研究を行うことはもちろん、他チームが行った成果の論文化サポートも担っています。研究開発チームはGunosyの技術的なブランディングをミッションとしており、論文の執筆を通して、特に当社の技術的な強みでもある機械学習や自然言語処理など、いわゆるAI関連と言われる分野の技術力をアピールしています。

また、不確実性が高く難しい技術力を要するため通常の開発で取り組みにくいタスクに開発リソースをあてることも役割だと考えています。最近はご縁があり早稲田大学での寄附講座、東京大学での非常勤講師、WebDB Forumという学会の運営委員など務めさせていただき、産学連携や教育分野での貢献も一つのミッションとして考えています。

北田
僕は現在、関さんと一緒に行う研究開発が業務となっています。研究軸は主に広告クリエイティブの評価です。基本的にはクリック率やコンバージョン率を見ていくのですが、特に機械学習を用いたモデルでどのようにクリエイティブを評価していくのかを研究しています。

Gunosyでインターンを始めたのは2年前です。大学では自然言語処理と医用画像処理を主に、幅広く機械学習技術を学んでいたので、データサイエンスの強いGunosyを選びました。最初は広告技術部のエンジニアとして開発に携わっていましたが、昨年の夏頃に関さんから誘っていただき研究開発チームに参加することになりました。それから1年を通して、「KDD2019」に採択された広告クリエイティブ評価に関する研究と論文を進めてきました。

KDDとは?

正式名称は「ACM SIGKDD Conference on Knowledge Discovery and Data Mining」1990年代にデータマイニングという研究分野が確立されてから、約20年以上も盛んに研究発表がなれている学会。AI分野やアドテクノロジー分野でも論文が通りにくく、最難関と言われている由緒正しい学会。

2人で研究をすることになった経緯を教えてください


1年前から僕が研究や論文に注力するようになり、研究できる人員を増やしたいと思い北田くんに声を掛けました。インターンとしてGunosyで既に2年以上働いてくれていたこともあって、彼の技術力の高さは知っていました。それに、彼が「YANS*1」に出るためのテーマ探しをしていたので、研究チームで論文の手伝いもできると考えていました。また、今後はインターン生にも企業として研究や論文のサポートができる環境を用意したく、その第1号として北田君にお願いした背景もあります。

北田
関さんからお話をいただいた時、とても嬉しかったです。インターンの自分が企業で実際に使われているデータを基に研究ができるとは思っていませんでした。他企業でもインターン生の研究サポートを実施しているところはありますが、ビジネス向けのデータを扱うことが多いと思います。僕はユーザーの行動分析など消費者に近いものを調べたかったので、「グノシー」「ニュースパス」等のユーザーデータを使えることが魅力的でした。

それからは研究の進め方や実験などすべて主導で進めさせてもらえました。Gunosyでは情報の多さはもちろんですが、データが綺麗に整理されていることも特徴です。これだけの量のデータがすぐに使える状態にあることはかなり珍しいです。分析を始める前に、まず対象データを探す事から…なんてこともざらにあります。

f:id:gunosy_media:20190718153514j:plain

KDD採択までの道のり

テーマを「広告のクリエイティブ評価」にした理由は何ですか?

1つは広告の自動生成という課題自体がチャレンジングなテーマだったからです。広告の研究は世の中で注目を集めています。でも実際は、広告を扱っている企業じゃないと持てないデータがあるため、積極的に研究しているところは少ないです。そんなブルーオーシャンな領域を研究しようと考えました。あとは、研究は再現性が大事なので、僕たちだけが抱えている問題の解決策を見つけても評価されません。だからこそ、皆が馴染みのある問題を根本に置くことにしました。

テーマ決めの時に掲げていたゴールは、コンバージョン予測やクリエイティブの自動生成です。でも、いきなりは難しかったのでサブタスクとしての切り出し方を何にするか、北田君と何度もディスカッションしたのを覚えています。結果、広告クリエイティブからコンバージョンを予測するのと同時に、クリエイティブの作成支援を可能にする仕組みにたどり着きました。研究分野としては新しく、技術的にもできる範囲を選べたと思っています。

論文提出までの経緯と採択された決め手を教えてください

北田

研究を進めていくなかで、ある程度良い結果がでてきたので、国際会議に提出することを考えました。せっかくなら広告分野において1番権威のある「KDD」を目指そうと関さんに言われました。それが昨年10月の話です。正直、この時の僕の気持ちは半信半疑でした。

学会に投稿した論文は全てレビューが返ってきます。一発目に通ることは珍しく、ダメだった場合はレビューを基に改善し、再投稿を繰り返していくことが大事だと考えています。だから今回も、残念な結果が出たとしてもレビューを基に改善を繰り返していこうと話していました。2月の投稿締め切りから2か月後の4月末に採択の連絡がきました。メール本文が「「We are delighted to inform~(お知らせがあります…)」から始まっていて、まさか!?と驚きました。あれは平成最後のサプライズだったと思います(笑)


採択された要因は、テーマ決めの理由と同じです。新しくかつ他の研究者にとって有意義な研究を課題にしたことが大きく影響したのだと考えています。僕たち事業者にしか出せないデータを使ってますが、結果を一般的に広められる情報に落とし込んだことも大きい理由です。過去事例がなく、難しい部分もありましたが、難しさの過程で実務の知識を使えたことは研究の助けになっていたと思います。

研究中に苦労したことはありますか?

北田
印象に残っているエピソードは関さんから研究の方法を教えていただいたことです。順調に進んでいた研究ですが、モデルを良くしようとして精度が出せず悩んだ時がありました。細かいバグやパラメーターを直しても改善せず、1番苦労したと思います。関さんに相談したところ「何故上がっていないのか調べた?」と聞かれました。

具体的には、コンバージョンが少ない広告の同部分を多く予測しているのか、またはコンバージョンが多い広告の同部分を少なく予測しているのか、この2軸を調べることです。その結果、コンバージョンがほとんどない広告の評価がぶれていたということが分かりました。それから研究の目的に照らして評価指標を改善することにより、提案したモデルが既存手法を改善していることを示すことができました。

関さんのように昔から機械学習を研究されている方はエラー分析が身についています。その反面、僕ら新世代のディープラーニングを扱う人達は、最初からビックデータという大量の情報がある環境化だったので、エラーを探すより先にモデルをチューニングしてしまう傾向にあると思います。若手とベテラン研究者みたいな関係性ですが、何が間違っているのか調べることは重要だと学びました。

 

f:id:gunosy_media:20190718153533j:plain

対照的な研究者同士

お互いにすごいと思うことはありますか?

北田
僕は文章を書くことも苦手で最初の頃の論文なんて見れたものじゃありませんでした。でも、関さんの指導のおかげで自分でも分かるくらい良くなっていきました。これまで長い間、研究や論文を続けてこられた経験値が違うなと尊敬しています。

また、Gunosyでは関さんを筆頭に『Gunosy DM』という論文輪読会が毎週行われています。ここでは主に機械学習・データマイニング領域のトップカンファレンスを対象に、気になる論文を各人が持ち寄り、ディスカッションするといった内容です。ここで得られる知識は難関国際会議の論文採択に向けた受験対策のようで、表現の仕方から題材の見つけ方まで教わりました。社会人になっても研究を続けたいと思っている人にはとても良い環境だと思います。 


北田君のすごいところは、頭で考えてから実装までのスピードがとても速いです。これはとても重要な能力だと思います。我々が取り組んでいるような機械学習の応用に関する研究ではどれだけ頭で考えていても、実装の結果を見ないと分からないことが多いです。北田君は考察しながら手を動かし、限られた時間で目覚ましい成果を出しているので、素晴らしいと感じています。

あとは、コミュニケーションを容易に取れる所も助かっています。僕が言った内容を理解し、それ以上の情報を返してくれる優秀さに驚いています。研究チームに北田君を誘ったのも、僕がメディアの研究や推薦システムの部分を行い、広告の研究を北田君に一任したいと考えていたからです。実際、広告技術部にいた彼だからこそ得意な分野を活かして良い研究に仕上げられたと感じています

今後の目標について教えてください。

北田
ディープラーニングについてはこれからも研究を続けていくと思います。今回の論文で使った技術について、少し前に対極的な論文が出ていました。それを絡めて良し悪しを追及していきたいと考えています。

自分のキャリアに関しては、今は博士号を取りたい気持ちが強いです。やっぱり研究は好きなので、このまま続けていきたいです。Gunosyにはとても良い環境を用意してもらっているので可能な限りインターンも続ける予定です。関さんとまた一緒にエキサイティングな論文も書きたいですね


企業としてトップカンファレンスに論文を通すことは、Gunosyを設立した時から自分の目標でした。業務と並行して博士号を取りに行った理由もこの思いがあったからです。だから今回の「KDD2019」で目標を達成できたことは本当に嬉しかったです。

ただ、その一方で一発屋では終わりたくはありません。今回、成果に繋がったことで社内外問わずGunosyの研究に対しての注目が高くなったと感じています。だからこそ、継続的な発信が、僕たちの研究を意味のあるものにしてくれると考えています。Gunosyのカルチャーとして研究組織の存在を浸透することが次の目標です。

あとは研究組織を強化するので、今よりもっと研究者が増えてほしいと思っています。今はAI技術の研究など、ビジネスとして注目度の高い分野が割合を占めていますが、違う分野の研究者やチームを作っても良いと考えていますので、研究者の方は絶賛採用中です。今後もGunosyの研究組織として新しい情報を発信していくので見ていただけたら嬉しいです。

f:id:gunosy_media:20190718153634j:plain

北田さんによる研究の説明と論文発表まで経緯を紹介した記事が「Gunosyデータ分析ブログ」にて公開されています。こちらも合わせてお読みください。

 

Gunosyでは、一緒に働くメンバーを募集しています。

ご興味がある方、ぜひカジュアルにお話しませんか?下記リンクより、ご連絡お待ちしております。