O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
Próximos SlideShares
What to Upload to SlideShare
What to Upload to SlideShare
Carregando em…3
×
1 de 75

SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜

1

Compartilhar

Baixar para ler offline

SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜

6/11 (金) 9:30~10:40
講師:藤本 敬介 氏(ABEJA)

概要:Deep Learning(深層学習)では大量の良質なデータを学習することで、高い精度を発揮してきました。実問題にこれを適用させるためには、如何にして正しくデータを集めるかが重要な課題の一つとなっています。データを集める際に、質が悪いものや偏ったデータを集めてしまうと、適切にモデルを学習できません。本チュートリアルでは、大量の良質なデータを集めるための仕組みや手法、精度・速度面での改善方法、倫理や社会性バイアスに関して解説します。

SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜

  1. 1. 機械学習のアノテーションにおけるデータ収集 ~精度向上のための仕組み・倫理や社会性バイアス~ 2021.6.11 藤本 敬介(ABEJA)
  2. 2. Copyright © ABEJA, Inc. All rights reserved 自己紹介 2 名前: 所属: 役割: 研究分野: 藤本 敬介 ABEJA, Labs Researcher 機械学習 コンピュータビジョン 音声 自然言語処理
  3. 3. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 3
  4. 4. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 4
  5. 5. Copyright © ABEJA, Inc. All rights reserved 機械学習とアノテーション 教師あり学習 5 教師なし学習 Dog / Cat
  6. 6. Copyright © ABEJA, Inc. All rights reserved 機械学習とアノテーション • 教師あり学習では、人手で学習データに予め正解の情報を与えておく • この作業を「アノテーション」と呼ぶ 6 Dog Cat 画像認識タスクでの例:
  7. 7. Copyright © ABEJA, Inc. All rights reserved アノテーションの例:画像認識 7
  8. 8. Copyright © ABEJA, Inc. All rights reserved アノテーションの例:物体検出 8
  9. 9. Copyright © ABEJA, Inc. All rights reserved アノテーションの例:セグメンテーション 9
  10. 10. Copyright © ABEJA, Inc. All rights reserved アノテーションの手段について • 自身で実施 • クラウドソーシング • アノテーションサービスの利用 10
  11. 11. Copyright © ABEJA, Inc. All rights reserved クラウドソーシング • WebインタフェースやAPIを通じて、様々な人々にアノテーション等の仕事 を依頼できる • Amazon Mechanical Turk (MTurk)などが有名 • Deep Learningの多くの研究においてMTurkを利用してのデータセット作り が行われている • 研究で利用するような様々なタスクが依頼できる 11
  12. 12. Copyright © ABEJA, Inc. All rights reserved アノテーションサービス • 各社で展開されているアノテーションのサービス • アノテーションの作業者を自動で確保してくれる • タスクの種類は決まっていることが多いが、マネージドでサポートが手厚い 12 AI Platform Data Labeling Service Amazon SageMaker Ground Truth
  13. 13. Copyright © ABEJA, Inc. All rights reserved 機械学習におけるデータの大切さ 機械学習モデルは、学習に用いたデータにより挙動が決まる 機械学習の手法と同様に、データの量・質が大切 13 機械学習モデル = 「手法」 x 「データ」
  14. 14. Copyright © ABEJA, Inc. All rights reserved 良いデータ・悪いデータで学習した場合の比較 • クリーンなデータに対する大量のアノテーションが精度に寄与 14 顔認証における研究の例 過去によく学習に使われていたMS-Celeb-1Mによるモデルの精度は99.1%であったのに対し、 これをVGGFace2という大規模かつクリーンな学習データにする事で、99.7%を達成 一般物体認識のロバスト性の例 ImageNetを利用して学習したモデルについて、同じ物体に対し背景や角度を変えてテストし なおしたら、精度が40%以上落ちるという報告があり、データのバイアスの影響を示唆
  15. 15. Copyright © ABEJA, Inc. All rights reserved データ量が不十分であった場合の実験 15 0 10 20 30 40 50 60 70 80 90 100 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 0 10 20 30 40 50 60 70 80 90 100 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 • CIFAR10/100に対して、学習データ数を5000から50000まで変化させたとき の精度の比較 CIFAR10 CIFAR100
  16. 16. Copyright © ABEJA, Inc. All rights reserved 正解ラベルにノイズが入っていた場合での実験 16 • CIFAR10/100に対して、ノイズラベルの割合を0%から95%まで変化させた ときの精度の比較 0 10 20 30 40 50 60 70 80 90 100 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 10 20 30 40 50 60 70 80 90 100 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 CIFAR10 CIFAR100
  17. 17. Copyright © ABEJA, Inc. All rights reserved 質の悪いデータをなくすための方針 • データ収集の際のデータの質の向上 • データの質に対してロバストな技術の適用 • アノテーション補助技術やサービスの利用 17
  18. 18. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 18
  19. 19. Copyright © ABEJA, Inc. All rights reserved アノテーションにおける課題 • 大きな人的コスト • 質や精度の担保 • ワーカーマネージメント • ツール作成やデータ管理 19
  20. 20. Copyright © ABEJA, Inc. All rights reserved データセットやアノテーションに関する関連研究 20 アノテーションの補助 データセットの作成 モデルの高精度化 Object Detection Semantic Segmentation Apparent Age Estimation Using Ensemble of Deep Learning Models Regularized Estimation of Annotator Confusion
  21. 21. Copyright © ABEJA, Inc. All rights reserved 論文紹介: ObjectNet: A large-scale bias-controlled dataset for pushing the limits of object recognition models (NIPS2019) • ObjectNetにおけるデータ自体の質を上げる取り組みでは、ImageNetにおけ る物体の回転や背景、視点のランダム性をコントロール • 無作為なデータセットではなく、バリエーションの種類をコントロールする ことで、認識する上で望ましいデータとなる 21
  22. 22. Copyright © ABEJA, Inc. All rights reserved 論文紹介:We don’t need no bounding-boxes: Training object class detectors using only human verification (CVPR 2016) • 機械が出してきたBBにアノテーターが回答するだけでアノテーションでき るフレームワークの提案 • BBに対する回答結果を元に検出ロジックの再学習を行い、より良い候補を 出せるようにしていく 22 • 回答の際に、BBに対して、 Yes/Part/Container/Mixed/Miss ed Verificationといった複数の カテゴリに分けることで、効 率的な学習が可能
  23. 23. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Training object class detectors with click supervision (CVPR 2017) • 物体の中心点(center-click annotation)をクリックするだけ、特定の物体検出 を行えるようにするための方針 • その情報からBBの高さや幅を機械学習モデルを用いて予測し、 アノテータ ーの作業時間を9〜18倍改善 23
  24. 24. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Extreme clicking for efficient object annotation (CVPR 2017) • BBを直接描画するのではなく、物体の上下左右の4点をクリックするだけで アノテーションを行うExtreme Clickingという手法の提案 • 従来のBBと同程度のクオリティを維持しつつ、5倍の速さでのアノテーショ ンを実現 24
  25. 25. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Large-scale interactive object segmentation with human annotators (CVPR 2019) • モデルが出力したセグメンテーション結果を、マウスクリックによりインタ ラクティブに修正していく • 250万枚もの大量のセグメンテーションのアノテーションデータを作成、 COCOデータにおいて既存より3倍速いアノテーションを実現 25
  26. 26. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Crowdsourcing Annotations for Visual Object Detection (AAAI 2012) • クラウドソーシングで複数人に重複してタ スクを割り当てるのは高コスト • この研究ではタスクを3つのマイクロタス クに分割する(Draw / Quality Verification / Coverage Verification)ことを提案 • 不特定多数のいるクラウドソーシングにお いてマイクロタスクの有用性を示した 26 https://tech-blog.abeja.asia/entry/annotation-survery
  27. 27. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Modeling Human Annotation Errors to Design Bias- Aware Systems for Social Stream Processing (ASONAM 2019) • アノテーションの際に、人間の認知的バイアスや認知的負荷が結果に影響し てしまう • ヒューマンエラーを忘却モデルを用いて定式化、それを軽減するための能動 学習を提案 • アノテーション数を減らせるとともに、バイアスの影響を減らすことも出来 るようになる 27
  28. 28. Copyright © ABEJA, Inc. All rights reserved アノテーションにおける精度の課題 • 多くの支援系の研究は、人手によるアノテーションの精度が十分なものとし て、それを効率化する事を目的としている • 実際は人手によるアノテーションの精度自体の担保が難しい • アノテーター毎のスキルのバラツキ • アノテーションをする基準の曖昧さ • そもそもアノテーションが困難な問題設定 28
  29. 29. Copyright © ABEJA, Inc. All rights reserved 29
  30. 30. Copyright © ABEJA, Inc. All rights reserved アノテーションの精度の重要性 • アノテーションの精度が低いと、例えテストデータに対する精度が高くとも、 テストデータに適合しているだけになる • アノテーションが正しく行われる必要がある中で、その精度を高めることが 課題 30
  31. 31. Copyright © ABEJA, Inc. All rights reserved アノテーションに関する商用サービスの利用 • 生データに対し、指定した仕様に応じてアノテーション結果を返してもらう サービス • 大量データを扱えるだけではなく、サービス側での品質担保の仕組みが重要 • ABEJA社内でのアノテーション作業の工夫点を紹介 31
  32. 32. Copyright © ABEJA, Inc. All rights reserved アノテーションの作業フロー • 品質を上げるため、下記のような様々な取り組みを行っている 32 教師データの作成・準備 トライアル アノテーション実施 最終確認・納品 • アノテーションの要 件定義 • アノテーションマニ ュアル • 作成・アップロード • データのアップロー ド • トライアル結果の 確認 • アノテーターから の質疑回答 • アノテーション • 随時、質疑への回答 • 結果の確認 • アノテーション結果 の納品
  33. 33. Copyright © ABEJA, Inc. All rights reserved アノテーション体制の構築 • アノテーション専任のPMのアサイン • 大量のアノテーション人員の確保 • 結果レビュー体制の構築 33
  34. 34. Copyright © ABEJA, Inc. All rights reserved アノテーションのセキュリティ • 運用面 • セキュリティセンターでの作業の実施 • システム面 • データセンタのセキュリティ • 通信の保護 • データの保護 • 認証・認可 34
  35. 35. Copyright © ABEJA, Inc. All rights reserved アノテーションに関する詳細な要件定義 • 通常、アノテーターによって、ラベルのブレが発生しやすい • アノテーション開始前にマニュアルを作成し、均一の水準になるようにする 35
  36. 36. Copyright © ABEJA, Inc. All rights reserved アノテーション結果のレビュー制度 • アノテーションの課題 • アノテーターによっては定義を理解していない場合がある • 雑なアノテーションがされる場合がある • アノテーション結果を人手で確認するフローを入れる 36 • レビュアーは結果を確認して差し戻し/完了を選択 • 差し戻す場合はコメントを入れることにより以降のア ノテーションの品質向上に寄与
  37. 37. Copyright © ABEJA, Inc. All rights reserved 重複アノテーションによるバラツキの抑制 • アノテーターをアサインする際に一つのデータに対して、複数回のアノテー ションを行うケースもある • 重複してアノテーションすることで、アノテーター間のバラツキを抑制 37 利用例: • Apparent Age Estimation Using Ensemble of Deep Learning Models • 顔画像からの年齢推定において、複数のアノテ ーションを利用して、バラツキを低減
  38. 38. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 38
  39. 39. Copyright © ABEJA, Inc. All rights reserved 社会性・バイアスについて • 機械学習モデルが、開発者が意図しない差別的な挙動を取ることがある • 性別や人種の違いによって望ましくない結果を出力 • 自動運転や医療のシステムにおいて事故を起こしてしまう • 仮にテストデータでの精度が高かったとしても、そもそもデータ自体にバイ アスが含まれると問題が発生してしまう 39
  40. 40. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例:Microsoft’s Tay 40 • Microsoftがリリースした会話Bot Tayが、不適切な発言をするようになった • 悪意のあるユーザーによる不適切な発言を学習してしまったことが原因と 考えられている https://www.telegraph.co.uk/technology/2016/03/24/microsofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robot-wit/
  41. 41. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例: Google Photosが黒人をゴリラと誤認識 41 https://twitter.com/jackyalcine/status/615329515909156865
  42. 42. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例: Amazonの履歴書チェックAIの女性差別問題 • Amazonが開発していた履歴書から人材のスコアリングするAIは女性を不当 に差別していることが発覚し、開発中止。 • 学習に使用した過去の履歴書データは 男性のものが多く、テクノロジー企業には 男性が多いというバイアスを反映して しまっていた。 42 https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps- secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
  43. 43. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例:Gender Shades • 顔画像からの性別推定ツールは黒人の女性だと優位に精度が低くなってしま う。 学習に使用されたデータセットに 含まれる性別・人種の分布に偏りが あるせいだと考えられる。 43 http://gendershades.org/overview.html
  44. 44. Copyright © ABEJA, Inc. All rights reserved バイアスが発生する要因 • 教師あり学習のロジック 1. 解決したい具体的なタスクを定義し、データを集める 2. データにアノテーションをする 3. モデルを設計する 4. モデルがアノテーションを模倣する様にモデルのパラメータを最適化 44
  45. 45. Copyright © ABEJA, Inc. All rights reserved バイアスが発生する要因 • 機械学習は、生まれたばかりの赤ちゃん(=モデル)に、ひたすら限定的な 情報(データ+アノテーション)だけを提示し続けて学ばせるようなもの • モデルにとっては得られる情報が全てであり、データに含まれない一般常識 (例えば、善悪・差別など)は学習されない 45
  46. 46. Copyright © ABEJA, Inc. All rights reserved バイアスが発生する要因 • ほぼすべてのプロセスにおいて、データ起因でのバイアスが入り得る 46
  47. 47. Copyright © ABEJA, Inc. All rights reserved 各プロセスにおけるバイアス • データに関するバイアス • 学習に用いるために収集したデータに内在するバイアス • 収集したデータにアノテーションする際に発生するバイアス • ロジックに関するバイアス • 学習モデルや手法に想定されるバイアス 47
  48. 48. Copyright © ABEJA, Inc. All rights reserved 各プロセスにおけるバイアス • データに関するバイアス • 学習に用いるために収集したデータに内在するバイアス • 収集したデータにアノテーションする際に発生するバイアス • ロジックに関するバイアス • 学習モデルや手法に想定されるバイアス 48
  49. 49. Copyright © ABEJA, Inc. All rights reserved データ収集に起因するバイアス • データ収集・アノテーション時に発生するバイアス、学習・評価に影響する 49
  50. 50. Copyright © ABEJA, Inc. All rights reserved 顔画像処理におけるデータ選択バイアス • 研究で使われているデータセットは西洋人(最近では中国人も)が多い • データセットにあまり含まれない人種の精度は低くなる 50
  51. 51. Copyright © ABEJA, Inc. All rights reserved 顔画像処理におけるデータ選択バイアス • 年齢推定だと、20-40歳に分布が集中 • 子供や高齢者に対する推定精度が低くなりがち 51
  52. 52. Copyright © ABEJA, Inc. All rights reserved CVPR2019 Workshop: Bias Estimation in Face Analysis (BEFA) バイアス問題は、学会でも注目されている 52 Goal • 顔認識や顔属性推定におけるバイアス を特定する最新手法の評価 • バイアスを考慮した、もしくはバイアス に依存しないモデルづくりの促進 • 顔の解析におけるバイアスについての 分野横断的な議論
  53. 53. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスの難しさ • データセットの作られやすい対象の方が優先されやすいため、マジョリティ が優先されやすい構造となる • マイノリティデータをどのように集めて学習に使えるようにするか • 多様なマイノリティの存在を気づくこと自体が難しい • 社会的背景によりマイノリティとなっているデータはそもそも収集するこ とが難しいことがある、プライバシー保護の観点との衝突 53
  54. 54. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスへの対策 • 世の中に存在するバイアスやマイノリティの存在を認識・理解 • データセットに対するバイアスを理解して改善 • モデルの推論根拠を理解・解析 54
  55. 55. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスへの対策 • 世の中に存在するバイアスやマイノリティの存在を認識・理解 • データセットに対するバイアスを理解して改善 • モデルの推論根拠を理解・解析 55
  56. 56. Copyright © ABEJA, Inc. All rights reserved データセットのバイアスについて • 学習に用いるために収集したデータに内在するバイアス • データ収集の都合で発生することが多い • 性別、人種、年齢、国籍のような潜在的に有害なものから、昆虫や花のよ うに無害なものまで多様にあり得る • 収集したデータにアノテーションする際に発生するバイアス • アノテーターの判断基準のバラツキ • 悪意あるアノテーターの作成したデータ 56
  57. 57. Copyright © ABEJA, Inc. All rights reserved データセットのバイアスへの対策について • データのバイアスを検出するロジックを利用する • バイアスを無くす学習手法を利用する • バイアスなどを社会学的に体系化し、可能な限りデータを整理する 57
  58. 58. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Representation Learning with Statistical Independence to Mitigate Bias (WACV2021) • データセットのバイアスを取り除くのではなく、バイアスが含まれるデータ セットから公平な学習を行おうとするアプローチ • タスクに対する識別力を高めつつ、バイアスの変数との依存性が最小となる ように、敵対的学習に基づいてモデルを学習 58
  59. 59. Copyright © ABEJA, Inc. All rights reserved 論文紹介: Learning From Noisy Labels By Regularized Estimation of Annotator Confusion (CVPR 2019) • アノテーターの特性を学習することでノイジーなラベルから真の分布を見出 すアプローチ • 複数いるアノテーターのそれぞれのスキルや特徴をConfusion Matrix (CM)と して推定 59
  60. 60. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets (ACL2019) • 文章理解タスクにおけるアノテーターによるバイアスを調査 • 特に質の高い少数のアノテーターに大量の文を生成させると、データの多 様性の問題が起きやすい • アノテーターの識別子を特徴量に含むとモデルの性能が向上することから、 アノテーターのバイアスが学習されることを示唆する • テストセットのアノテーターはトレーニングセットのアノテーターとは別に するべきであるという提案がされている 60
  61. 61. Copyright © ABEJA, Inc. All rights reserved 論文紹介:REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets (ECCV2020) • データ内のバイアスの可視化を支援するツール、以下をバイアスを可視化 • オブジェクト、ジェンダー、ジオグラフィー • バイアスを軽減するためのステップを提案し、ユーザーを支援 61
  62. 62. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy • ImageNetの人に関するカテゴリに関しては人種・性別・年齢の偏りがある ことを調査 • アノテーションの方針を設計し直し、バイアスを取り除く試みを行った 62 一番上段がオリジナルのデータ、 以下は、それぞれ性別・肌・年齢に関して のバランスを取ったデータ
  63. 63. Copyright © ABEJA, Inc. All rights reserved LaMDAにおける倫理性 • Google社による対話システム(Google I/O 2021で発表) • AI原則に反した誤用を避けるように注意をして提供している 63 https://www.tensorflow.org/responsible_ai
  64. 64. Copyright © ABEJA, Inc. All rights reserved オープンソースにおける対策 Tensorflow • 責任ある機械学習モデルを作 るための様々な仕組みを内包 • 公平性、プライバシー、解 釈可能性、セキュリティ 64 Pytorch • 公平性を導入するライブラリ • 人工統計的均衡性などに基づい て公正なモデルを構築
  65. 65. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Toward a better trade-off between performance and fairness with kernel-based distribution matching (2019) • 2つのデータセット間のスコアの分布の違いについて、学習中にモデルにペ ナルティを与える • カーネルベースのアプローチにより、性能と精度のトレードオフを改善 65 Maximum Mean Discrepancy ・・・カーネル空間における平均の差
  66. 66. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスへの対策 • 世の中に存在するバイアスやマイノリティの存在を認識・理解 • データセットに対するバイアスを理解して改善 • モデルの推論根拠を理解・解析 66
  67. 67. Copyright © ABEJA, Inc. All rights reserved モデルの推論根拠の理解・解析について • データセットのバイアスの有無によって、推論結果が好ましい / 好ましくな い場合になったとして、その理由の理解や説明が求められることもある • これに対して、深層学習などの一部のモデルは、推論根拠を説明不可能であ ったり、人間が期待する推論プロセスを踏んでいないこともある 67
  68. 68. Copyright © ABEJA, Inc. All rights reserved 解釈可能なDNNに付いての研究 DNNの推論プロセスを可視化し、解釈することを目指す研究 68
  69. 69. Copyright © ABEJA, Inc. All rights reserved DNNにおける解釈可能性問題の難しさ • 精度と解釈可能性のトレードオフ • 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明 可能性を放棄することで精度向上を達成している面があり、解釈可能性は 原理的に部分的にしか実現されない • 解釈できたつもりの問題 • 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。 より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ とが発覚するケースがある。 69
  70. 70. Copyright © ABEJA, Inc. All rights reserved DNNにおける解釈可能性問題の難しさ • 精度と解釈可能性のトレードオフ • 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明 可能性を放棄することで精度向上を達成している面があり、解釈可能性は 原理的に部分的にしか実現されない • 解釈できたつもりの問題 • 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。 より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ とが発覚するケースがある。 70
  71. 71. Copyright © ABEJA, Inc. All rights reserved 推論根拠の提示 • 多くの場合、推論根拠は推論に用いた箇所のヒートマップとして与えられる 71
  72. 72. Copyright © ABEJA, Inc. All rights reserved ImageNetで学習されたモデルはテクスチャーを見る • ImageNetで学習されたDNNは、オブジェクトの形状ではなくテクスチャー をもとに推論しがちであることが明らかになった。 72
  73. 73. Copyright © ABEJA, Inc. All rights reserved バイアスに関する展望 • 機械学習を実用化するためには、これまで述べたようなデータのバイアスに 気をつける必要がある • 挙動を制御できないため、予期せぬ結果になることもしばしばある • 社会通念に従うようなモデルとするには、社会学的なアプローチも踏まえ ながら、正しくデータを作成する必要がある • 個人情報保護の観点や、倫理の観点も踏まえて実施することが大切 • 顔認識をする場合などは利用の許諾なども必要 73
  74. 74. Copyright © ABEJA, Inc. All rights reserved まとめ • アノテーションの重要性、技術、バイアスについて述べた • アノテーションの速度・精度を向上させるための技術は多数存在する • タスクの難易度に応じ、適切に技術を選定する • 大量でクリーンなデータを用意することは重要であるが、今後、その上で更 に公平・構成なデータとなるように気をつける必要ある 74
  75. 75. Copyright © ABEJA, Inc. All rights reserved 75

×