O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

ChatGPTは思ったほど賢くない

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Carregando em…3
×

Confira estes a seguir

1 de 30 Anúncio

Mais Conteúdo rRelacionado

Semelhante a ChatGPTは思ったほど賢くない (20)

Mais recentes (20)

Anúncio

ChatGPTは思ったほど賢くない

  1. 1. 株式会社 Carnot Data is beautiful. ChatGPTは思ったほど賢くない Machine Learning in 15 minutes 2023/1/28 Shoya Matsumori
  2. 2. ⾃⼰紹介 1994年⽣まれ.AI (深層学習)の研究開発及び,デジタルコンサルティングに従事. 学部⽣時代に脳波計のスタートアップで0か らプロダクト設計および深層学習モデルの実装をリード.⼤学での研究内容がアクセラレータプログラムに採択され,ソーシャ ルロボットのスタートアップを設⽴.複数の企業・⼤学・⾃治体に対してPoCを実施.慶應義塾⼤学理⼯学研究科で博⼠ (⼯学) を取得(⾶び級).Vision and Languageの研究に従事.⼈⼯知能分野における難関国際会議ICCV等に筆頭著者として論⽂が採択. データドリブンな環境保全をテーマとしたDAOのコンセプトがWIRED CGC特別賞受賞.⼈⼯知能学会・認知科学会会員. 松森匠哉 Shoya MATSUMORI, Ph.D. (2018.02-2022.03) PGV (株) Lead Machine Learning Researcher リードエンジニアとして0からプロダクト設計および深層学習モデルの実装をリード. AIによる認知症診断アルゴリズム,睡眠ステージの判別アルゴリズムの研究開発を⾏ い筆頭著者として学術論⽂誌に採択. (2018.08-2022.09) 慶應義塾先端科学技術研究センター 特任研究員 内閣府SIP 特任研究員.深層学習による英語の⾃動作問技術 (特許出願中) の研究開発 をリード.都内の⾼校にてPoCを実施. (2019.02-2020.07) (株) BLUEM 代表取締役 (株) dipのAIアクセラレータプログラムに採択.複数の企業・⼤学・⾃治体に対してAI ソリューションを提供.豊⽥市などでソーシャルロボットのPoCを実施. (2020.12-2022.08) (株) STANDARD Lead Researcher デジタルコンサルタントとして,複数の⼀部上場企業にAIソリューションを提供. (2021.04-2022.09) ⽇本学術振興会 特別研究員 (DC) 視覚と⾔語の統合的理解を⽬指すVision and Languageの研究に従事.難関国際会議 ICCV等に採択. 主な経歴 受賞歴・講演歴 •WIRED CGC INTERSPACE UTOKYO-IIS AWARD 受賞 •HCI研究会 奨励賞 受賞 •招待公演 (豊⽥市,松本市,品川⼥⼦学院等) 主な研究業績 •Matsumori, Shoya, et al. "Unified questioner transformer for descriptive question generation in goal-oriented visual dialogue." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021. •Matsumori, Shoya, et al. "LatteGAN: Visually Guided Language Attention for Multi-Turn Text-Conditioned Image Manipulation." IEEE Access 9 (2021): 160521-160532. •Matsumori, Shoya, et al. "Predictive Diagnostic Approach to Dementia and Dementia Subtypes Using Wireless and Mobile Electroencephalography: A Pilot Study." Bioelectricity 4.1 (2022): 3-11. 株式会社Carnot 2 Founder & CEO Carnot Inc.
  3. 3. MicrosoftによるOpenAIへの出資 Microsoft has been in talks to invest $10 billion into the owner of ChatGPT, the wildly popular app that has thrilled casual users and artificial-intelligence experts since its latest software was released last month, people familiar with the matter said. If OpenAI figures out how to make money on products like ChatGPT and image creation tool Dall-E, Microsoft will get 75% of the profits until it recoups its initial investment. MicrosoftがOpenAIに対し10BUSD (1.3兆円)の⼤型追加投資 (同社は19年にOpenAIに10億ドルを投資しているので⼆回⽬の投 資) 投資額を回収するまでにOpenAIの収益の75%を得る契約 ⼀⽅⼀万⼈の雇⽤削減も… 攻めと守りの姿勢が垣間⾒える https://www.semafor.com/article/01/09/2023/microsoft-eyes-10-billion-bet-on-chatgpt 3 Carnot Inc.
  4. 4. ChatGPTとはなにか︖ • ブログ形式で先⾏公開されており論⽂は未発表 (1/12 現在) • デモサイトが⼀般無料公開 (1/12現在) 2022年11⽉30⽇に公開されたOpenAIの新しい⼤規模⾔語モデル (LLM) Fig. デモサイト.ChatGPTにChatGPTを説明してもらった https://chat.openai.com/chat 4 Carnot Inc.
  5. 5. ChatGPT Demo 5 できること⾊々 コーディング 作⽂ (条件付き) 情報検索 知恵袋 翻訳 Carnot Inc.
  6. 6. ChatGPTとはなにか︖ • ChatGPTは2020年に登場した⼤規模⾔語モデルGPT3[Brown+20]の改良版 • (正確には,2022年に出たInstructGPT[Ouyanga+22] のアップデート版) • GPT3はpromptという構⽂で様々な⾔語処理タスクを追加学習なしで実⾏可能 • Prompt: タスク説明, 少数の例⽰を含むモデルへの⼊⼒テキスト ⼤規模⾔語モデルGPT3の改良版 Fig. promptの例 タスク説明 例⽰ 解きたいもの GPT3 Prompt 翻訳 要約 分類 Fig. GPTはprompt⼊⼒で様々なタスクに対応できる 6 Carnot Inc.
  7. 7. GPT3の特徴 • GPT3に指⽰を伝えるためにはpromptの例⽰を⼯夫しないといけない • 例⽰すること⾃体にコストが掛かる上に失敗するケースが多い • 原因はGPTがLMとして次のトークンを予測するように学習されているから • 頻出する表現やロジックが優先されるのは当然 GPT3では指⽰を伝えるためには例⽰が必要であった 7 明⽰的な指⽰だけできちんと動くようなインターフェイスにしたい… 指⽰⽂の意図を理解できておらず,テストの問題を 作成している.(LMとしては正しい挙動ではあるが) コードの説明を求めるprompt [Ouyang+22] Carnot Inc.
  8. 8. ChatGPTの特徴 • まどろっこしいpromptではなく,直接的な指⽰だけで意図 を理解し動く様になった • さらに,今までは⼀度だけの⼊出⼒だったが,対話理解を扱 うことができるようになった GPT3+意図理解と対話理解 8 Carnot Inc.
  9. 9. ChatGPTの何がすごいのか︖ 9 ⾔語という万能インターフェイスが使えるようになったこと Model 専⾨領域の壁 コーディング 専⾨家 ⼀般ユーザ これまでは,モデルと対話できるのは専⾨家だけだった これからは,誰もが研究の最先端にアクセスできる ⼀般ユーザ Model 対話 (⾃然⾔語) Carnot Inc.
  10. 10. ChatGPTの何が問題なのか︖ • ELIZA [Weizenbaum66] • 1960年代に開発された対話プログラム.相⼿の質問をオウ ム返しにするという⾮常に単純なロジックなのにも関わら ず,多くの⼈が知性を感じた. • e.g., 「頭が痛い」->「なぜ、頭が痛いとおっしゃるので すか︖」 • ⼈間は僅かなトリックでも賢い(=⼈間の様だ︕)と感じてしまう. • この傾向はモデルがDeepになって更に強まった (Deep ELIZA現象) 10 『賢そうなので何でもできそうに⾒えてしまう』 https://en.wikipedia.org/wiki/ELIZA Carnot Inc.
  11. 11. ChatGPTは仕事ができるのか︖ • ⼈間の知的労働の中で⼤部分を占めるのが問題解決 • e.g., IRの数字を基に経営改善案を考える • e.g., 先⽅とのスケジュール調整をする • 問題解決には論理的な思考が必要 • A -> B -> Cという論理 • 論理がなければ,解決も説明もできない 11 ChatGPTはどこまでロジカルな判断ができるのか検証してみる Carnot Inc.
  12. 12. バットとボール問題 Q. 以下の問に答えよ バットとボールはセットで1ドル10セントします.バットはボールより1ドル⾼いです.ボールはいくらですか︖ 12 ここで問題です Carnot Inc.
  13. 13. バットとボール問題 Q. 以下の問に答えよ バットとボールはセットで1ドル10セントします.バットはボールより1ドル⾼いです.ボールはいくらですか︖ 13 ここで問題です A. ボールは10セント 不正解 $0.1 $1.1 合計 $1.2 Carnot Inc.
  14. 14. バットとボール問題 Q. 以下の問に答えよ バットとボールはセットで1ドル10セントします.バットはボールより1ドル⾼いです.ボールはいくらですか︖ 14 ここで問題です A. ボールは10セント 不正解 正解は ボールは5セント 正解 $0.1 $1.1 合計 $1.2 $0.05 $1.05 合計 $1.1 Carnot Inc.
  15. 15. バットとボール問題 (Contd.) Q. 以下の問に答えよ バットとボールはセットで1ドル10セントします.バットはボールより1ドル⾼いです.ボールはいくらですか︖ 15 解説 $1 $1.1 ここが10セント! ⽴ち⽌まって考えればわかる問題 バットとボール問題はCognitive Relection Test (CRT) と ⾔われる問題の⼀種 [Frederick05] 実際に出題してみると多くの⼈が間違えてしまう Carnot Inc.
  16. 16. なぜ間違えるのか︖ • ⼈間の思考システムはシステム1(反射)とシステム2(熟考)で構成 [Kahneman11] • Dual Process Theory (⼆重過程理論)とも • System1 判断速度 = 早い, 判断精度 = ⽢い • System2 判断速度 = 遅い,判断精度 = 良い • e.g., 暗算 system 1, 計算 system 2 • 先のCRTは,ロジカルに答えを導き出されるか評価するテスト • すぐに結論を導き出そうとするとsystem 1が動作し間違えてしまう 16 ⼈間の思考システムの特性 もし,GPTがsystem 2に基づいてロジカルに判断していれば,この問題は間違えないはず Source: Figure 5 System 1 vs System 2 Thinking (upfrontanalytics.com, n.d.) Dual Process Theory Carnot Inc.
  17. 17. バットとボール問題 17 ChatGPTに説かせてみる Carnot Inc.
  18. 18. バットとボール問題 18 ChatGPTの答えと解説 正解 解説 バット=xとすると,ボールはx-1.0 (バットより1ドル安いから) 合計が1.1ドルなので x + (x-1.0) = 1.1 これをxについて解く 2x = 2.1 <=> x = 1.05 したがって, バットは1.05ドル,ボールは0.05ドル 終了! かと思いきや…
  19. 19. バットとボール問題・改 19 条件を少し変えてみる バットはボールよりも1ドル安いという表記に変更 Carnot Inc.
  20. 20. バットとボール問題・改 20 条件を少し変えてみる バットはボールよりも1ドル安いという表記に変更 不正解 些細な条件の変更で⼀転して間違えてしまった Carnot Inc.
  21. 21. バットとボール問題・改 21 他にも… ペンとダイアモンドという表記にすると間違える バットと2つのボールだとOK,なぜかバットと3つのボールだとNG 不正解 不正解 正解 直感に反する形で間違いが確認された Carnot Inc.
  22. 22. バットとボール問題・改 22 説明させてみる (1) 結果を変えず,誤った導出をそれっぽく返してきた Carnot Inc.
  23. 23. バットとボール問題・改 23 説明させてみる (2) さらに変数を仮定して説明させてみた ????? 途中までいい感じだったのに最後に誤りの⽅に辻褄をあわせてきた Carnot Inc.
  24. 24. ChatGPTは賢くない • このような挙動はChatGPT以前のGPTの研究で確認されており,問題視されてきた [Shina+19] [Brown+20] [Nye+21] • CRTよりも簡単な論理問題を間違えてしまう • 前提知識を忘れて辻褄の合わない内容を出⼒ • 重要な課程をスキップしたり,内容をでっち上げたりする • カーネマンのアナロジーを⽤いると,GPTは多くの場合system 1で動いていると表現できるのではないか • ⼀⾒正しそうな返答をしてくるが,よく⾒ると重⼤な誤りが隠れている危険性がある 24 決してロジックに基づいて答えているわけではない GPT System 1 System 2 実際 我々の考えるGPT Carnot Inc.
  25. 25. 誤りの原因 25 ⼤きく2つ考えられる 1. ⾔語モデルであること 問題の正解に最適化してるのではなく,頻出表現に 最適化している 2. ニューラルネットワークであること 内部表現が連続であり,1+1は必ずしも2ではない. ⼀⽅シンボルの世界は離散的であり,1+1=2. これらに何らかの⽅法でアプローチしなければ,根本的には解決しない Carnot Inc.
  26. 26. ChatGPTの守備範囲 26 膨⼤な知識を持つが⽳だらけのsystem 1マシン ⼈間 GPT System 1 System 2 思考速度 正確さ 思考形態 早い 遅い 粗い 細かい 守 備 範 囲 Carnot Inc.
  27. 27. 仕事の要求を整理してみる 27 あなたはsystem 1で考えるGPTにどの仕事を任せたいですか︖ System 1 System 2 スケジュール調整 問い合わせ対応 メール返信 市場調査 翻訳 記事作成 資料作成 コーディング データ分析 ある程度は間違えても良い. 説明する必要もない. 間違えが許されない. 結果に関して論理的に説明が必要. Carnot Inc.
  28. 28. まとめ • ChatGPTはロジックに基づいておらず,system 1的な判断中⼼ • したがってミッションクリティカルな領域への適⽤は現時点では不向き • 事業者は⾃社の業務への適⽤可能性を吟味する必要がある • e.g., 業務の中⼼はsystem 1 or system 2? • 他にもできないこと • 外部知識の参照,特定知識のインプット,価値判断… • これらは将来に渡って解決される可能性はあるが,実⽤化にあたっては⾮常に重要な問題 • Logicの問題: 別経路で検証システムを組む [Nye+21] • 外部知識の問題: LangChain [Harrison]やGPTIndex[Liu&Jerry]など • ⾊々⾔いましたが… • 近年のトレンドからみてブレイクスルーが起こったのは研究者⽬線でも明らか • 産業応⽤へのポテンシャルはかなり⾼いと考える 28 ChatGPTは思ったほど賢くない Carnot Inc.
  29. 29. References 1) Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901. 2) Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155. 3) Weizenbaum, J. (1966). ELIZA̶a computer program for the study of natural language communication between man and machine. Communications of the ACM, 9(1), 36-45. 4) Nye, M., Tessler, M., Tenenbaum, J., & Lake, B. M. (2021). Improving coherence and consistency in neural sequence models with dual-system, neuro-symbolic reasoning. Advances in Neural Information Processing Systems, 34, 25192-25204. 5) Frederick, S. (2005). Cognitive reflection and decision making. Journal of Economic perspectives, 19(4), 25-42. 6) Kahneman, D. (2011). Thinking, fast and slow. macmillan. 7) Harrison. LangChain, https://github.com/hwchase17/langchain 8) Liu, & Jerry. GPTIndex, https://github.com/jerryjliu/gpt_index 29 Carnot Inc.
  30. 30. 本資料に関するご意⾒・ご質問・案件のご相談は, 下記までご連絡ください contact[at]carnot.ai 30 • またCarnotでは⼀緒に会社を拡⼤していくデータサイエン ティスト・エンジニアを募集しております. • お気軽にご連絡ください

×