SlideShare uma empresa Scribd logo
1 de 51
2018年7月18日 Sansan株式会社R&D勉強会 第1弾
~自然言語処理領域に関わっていると避けて通れないあの話~
Eightニュースフィード活性化のための
自然言語処理の取り組み
Data Strategy & Operation Center, R&D Group 研究員 高橋寛治(@kanji250tr)
Sansan株式会社
自己紹介:高橋寛治 @kanji250tr
- 新卒2年目, R&D Group 研究員
- 言語処理まわりの研究開発
- キーワード抽出
- 企業タグ
- 大学時代も言語処理
- 機械翻訳の評価
- 表記ゆれを考慮した単語解析器
- 表記ゆれの機械翻訳への影響
1
目次
2
Eightとニュースフィードの紹介
Eightとは?
ニュースフィードと「企業タグ」
避けて通れないあの話
期待値のすり合わせ
クローリングとスクレイピング
なんだかんだ始めはルールベース
辞書整備
Your business network
個人向け名刺アプリ
正確にデータを入力
スマホで名刺を撮るだけで。
わたしたちがデータを正確に手入力して、
あなたのビジネスネットワークを構築します。
Eightは「無料」のサービスです。
一覧ですぐに探せる
登録された名刺は
「あなたのネットワーク」で一覧可能。
「ラベル」を利用して、グルーピングもできます。
情報は常に最新
Eightでつながると、
相手が転職や昇進などで名刺を変更した場合に
「通知」が届きます。
気軽に連絡
メールよりも。電話よりも。
気軽に連絡できる「メッセージ」なら、
ビジネスがもっとスムーズに。
パソコンからも
Eightは、PCやMacからも利用できます。
外出先でもデスクでも。
あなたのビジネスネットワークに
いつでもアクセス。
もっとアピール
あなたのプロフィールは、
Web上に公開できます。
メールの署名にリンクを入れて、
オンライン名刺として活用しましょう。
使ってね!
Eightのニュースフィード
Eightのニュースフィード
Twitterのタイムラインのようなもの
ユーザがビジネスニュースをシェアして
その感想を述べる
ユーザや企業がイベントの告知を行う
企業が求人を出す
オウンドメディア
12
Eightのニュースフィード
Twitterのタイムラインのようなもの
ユーザがビジネスニュースをシェアして
その感想を述べる
ユーザや企業がイベントの告知を行う
企業が求人を出す
オウンドメディア
13
今回紹介するタスクの大枠
シェアされるニュース記事中に含まれる
企業を抽出する
フィード活性化の仮説
- 機能:ニュースシェア時に企業をタグ付け、その企業の関係者(社員や、   社
員とつながっている人)に投稿を配信する
- 期待:企業を知っている人に読んでもらえる&知っている企業なので読む
- やりたいこと:ニュースに企業を紐付ける
15
避けて通れない話の前に、結果的にこうなりました
企業名の曖昧さ解消が困難なため、有望なタグ候補をリスト化した
16
URLを見て
OGP取得&タグ候補取得
取得したタグ候補を
人間が選択
投稿
~避けて通れないあの話~
~避けて通れないあの話~
簡単にできそう&効果ありそうなので
早急に開発をお願いします
期待値調整しながら要件定義
- ニュースから企業をタグ付けするとは?
19
ページの
取得
本文抽出 企業名抽出
法人番号
紐付け
URL タグリスト
期待値調整しながら要件定義
- ニュースから企業をタグ付けするとは?
20
ページの
取得
本文抽出 企業名抽出
法人番号
紐付け
URL タグリスト
運用とか含め大
変そう
辞書でおk
依頼側のイメージ
期待値調整しながら要件定義
- ニュースから企業をタグ付けするとは?
21
ページの
取得
本文抽出 企業名抽出
法人番号
紐付け
URL タグリスト
辞書の準備できるか
な…
一意に紐付け無理
じゃないか?
実際
本文抽出どうしよ
一意に紐付けは厳しいということをすり合わせ
- 長い企業名は一意に紐付きやすい
- 短い企業名は同名企業が多い
- 多い企業名だと900件以上
- 何らかの絞り込みを行い、候補を返
却して、ユーザに選んでもらう
22
全体像を描く
- 運用が楽と思われるサーバーレス構成で、最速で作ることを考える
- Lambdaに載るアルゴリズムでWebAPIを提供する
- アクセスが多少増えてもOK
23
ページを取得
本文抽出
法人番号の候補
を並べる
Eightに返す
Eightから
リクエスト
AWS
Lambda
企業名抽出
URL
API GatewayとLambdaを使ったAPI開発について詳細は
- 手前味噌ですが、Sansanのブログに記載しています
- Techの道も一歩から(https://jp.corp-sansan.com/blog/tech-no-michi)
- 第6回「API GatewayとAWS Lambda PythonでAPI開発」Vol. 1:API GatewayとAWS Lambdaを知る
- 第7回「API GatewayとAWS Lambda PythonでAPI開発」Vol. 2:ローカルでの開発環境構築
- 第8回「API GatewayとAWS Lambda PythonでAPI開発」Vol. 3:エラー処理
- 第9回「API GatewayとAWS Lambda PythonでAPI開発」Vol. 4:デプロイ
24
~避けて通れないあの話~
クローリングとスクレイピング
クローリングとスクレイピング
- ページを見ながら考える
26
ページの
取得
本文抽出 企業名抽出
法人番号
紐付け
URL タグリスト
【クローリング】
投げられたURLのペー
ジを取得
【スクレイピング】
取得したページから本
文を抽出
日本経済新聞さんの記事を例に本文抽出を考える
27
https://www.nikkei.com/article/DGXMZO32823810Q8A710C1XY0000/ より引用
綾瀬はるかさんと名刺交換しよう
あとで後ろでEight使って名刺交換できます!
28
その前に僕と名刺交換しましょう
29
20180718Eightニュースフィード活性化のための自然言語処理の取り組み
閑話休題:日本経済新聞さんの記事を例に本文抽出を考える
31
https://www.nikkei.com/article/DGXMZO32823810Q8A710C1XY0000/ より引用
どうやって本文を抽出するか?
- 当初はサイトごとに、パスを書いて本文を抽出
- サイトの変更などですぐに追従できなくなり、運用が面倒
- 自動での本文抽出を模索
- 中谷さんが開発されたExtractContentは9割ほどうまくいく*
- Python版を発見したが、2系しか対応していない
32
* http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html
Python3系で動くように改造
ExtractContent3を作った
- pip install extractcontent3 でインストールできるように
33
from extractcontent3 import ExtractContent
extractor = ExtractContent()
extractor.set_default({"threshold":50})
extractor.analyse(open("index.html").read())
text, title = extractor.as_text()
- オリジナル版およびFork元作者に圧倒的感謝m(_ _)m
https://github.com/kanjirz50/python-extractcontent3
~避けて通れないあの話~
なんだかんだスタートはルールベース
本文からどうやって企業名を抽出するか
- ページを見ながら考える
35
ページの
取得
本文抽出 企業名抽出
法人番号
紐付け
URL タグリスト
企業名の抽出をどうするか
https://www.nikkei.com/article/DGXMZO32823810Q8A710C1XY0000/ より引用 36
企業名の抽出をどうするか
https://www.nikkei.com/article/DGXMZO32823810Q8A710C1XY0000/ より引用 37
固
有
表
現
抽
出
?
アルゴリズムの検討
- 現在の要件
- 超特急で作る
- AWS Lambdaでサーバーレス
- 何がよさそうか?
- 超特急なため、学習データが用意できない
- 辞書ベースだと動作速度などはMeCabに依存(高速)
- ルールベースの戦略
- 形態素解析辞書に企業名を固有名詞+独自ラベルを付与し追加
- 形態素解析結果から、独自ラベルに該当する企業名を抽出
38
データ
手法問題設定
+時間
~避けて通れないあの話~
辞書整備
辞書整備
- 企業名辞書を作る
- スコアは「名詞-固有名詞-組織」でそれっぽいものを決め打ち
- EX_ORGという企業名属性を末尾に追加し、ルールベースで抽出
- とにかく企業名を追加すれば解決するかに思われた…
40
f"{company_name},1292,1292,5000,名詞,固有名詞,組織,*,*,*,{company_name},{reading},EX_ORG"
企業名は無限大 Part 1
- 一般名詞として存在する企業名が候補として頻出
- 世界
- ログイン
- アプリ
- している
- 毎日
- いったん、ブラックリストを作成して対策
- 説明しやすい
41
企業名は無限大 Part 2
- 省略形が頻出
- AWS
- ヤクルト
- 省略形:法人番号のリストを作成して対策
- 一意に決めた
42
企業名は無限大 Part 3
- 網羅しきれない名前や表記ゆれ
- アップルジャパン
- マネーフォワード
- SONY
- スバル
- 作業者にアノテートしてもらえる枠組みを作り、追加
- 簡単なWebアプリケーション+スプレッドシート
- スプレッドシート最強←アノテートを依頼しやすい
43
作業者は追加したい企業
名・削除したい企業名をス
プレッドシートに追加
スプレッドシートからの辞書更新の自動化
- アーキテクトチームにお願いしてCircle CIでよしなに
- CIは本番稼働に向けて調整中
45
1日1回起動 辞書作成
Git LFS
辞書更新
プルリク作成
AWS
Lambda
自動デプロイ
- 現状は、手作業でシェルスクリプトを走らせて手動デプロイ(泣)
運用された結果
46
定量的なフィードバック
フィードのインプレッション数向上
投稿にいいねがつきやすくなった
定性的な声
つながりの無い人からのコメント・つながり
申請が増え、ビジネスネットワークサービス
として人脈の広がりが感じられた
価値向上できた
今後やりたいこと
- 企業抽出の高度化に係り受け情報を利用する
- 「Sansan -> 発表した」を素性にする
47
Sansan(東京・渋谷)は10日、個人向けの名刺管理アプリ「Eight(エイト)」を使って、
女優の綾瀬はるかさんが出演するTBSのドラマとPR活動で協力すると発表した。
- 候補返却ではなく確信度の高いものを出して、一発確定させたい
- データの作成が必要そう
- 「Sansan」と「名刺」が共起すると、名刺管理のSansan
まとめ
- 名刺アプリEightのフィード活性化のための自然言語処理の取り組みである企業
タグ付け機能の裏側を紹介
- 自然言語処理領域の開発時に、避けて通れないあの話を紹介
- 要件定義
- クローリングとスクレイピング
- ルールや辞書ベース
- 辞書整備
48
Creating a resource from everyday business
encounters and transforming
the way the world works.
ビジネスの出会いを
 資産に変え、
働き方を革新する
20180718Eightニュースフィード活性化のための自然言語処理の取り組み

Mais conteúdo relacionado

Semelhante a 20180718Eightニュースフィード活性化のための自然言語処理の取り組み

データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料The Japan DataScientist Society
 
みんなのPython勉強会#35 Pythonのお仕事動向
みんなのPython勉強会#35 Pythonのお仕事動向みんなのPython勉強会#35 Pythonのお仕事動向
みんなのPython勉強会#35 Pythonのお仕事動向Yasuki Kishi
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりThe Japan DataScientist Society
 
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702小川 雄太郎
 
データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要Analytics2014
 
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則aslead
 
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例秀 齊藤
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介Takahiro Kubo
 
ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識
ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識
ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識Masaya Mori
 
【第6回テックヒルズ】検索基盤開発のための結合テスト環境の自動化
【第6回テックヒルズ】検索基盤開発のための結合テスト環境の自動化【第6回テックヒルズ】検索基盤開発のための結合テスト環境の自動化
【第6回テックヒルズ】検索基盤開発のための結合テスト環境の自動化Kotaro Ogino
 
君たちはどう学ぶか?生成AI時代のキャリア形成を考える
君たちはどう学ぶか?生成AI時代のキャリア形成を考える君たちはどう学ぶか?生成AI時代のキャリア形成を考える
君たちはどう学ぶか?生成AI時代のキャリア形成を考えるMasanobu Takagi
 
KUROKO IR説明資料
KUROKO IR説明資料KUROKO IR説明資料
KUROKO IR説明資料RelianceData
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
RのIDEであるRStudioでYouTubeを再生できるようにした話
RのIDEであるRStudioでYouTubeを再生できるようにした話RのIDEであるRStudioでYouTubeを再生できるようにした話
RのIDEであるRStudioでYouTubeを再生できるようにした話LINE Corporation
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
[GTC 2018] Inception Award Ridge-i発表資料
[GTC 2018] Inception Award Ridge-i発表資料[GTC 2018] Inception Award Ridge-i発表資料
[GTC 2018] Inception Award Ridge-i発表資料Ridge-i
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方Takahiro Kubo
 
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...Deep Learning Lab(ディープラーニング・ラボ)
 

Semelhante a 20180718Eightニュースフィード活性化のための自然言語処理の取り組み (20)

データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料
 
Ridge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study Day
Ridge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study DayRidge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study Day
Ridge-iの画像解析アルゴリズムの実用事例の紹介_DLLAB Case Study Day
 
みんなのPython勉強会#35 Pythonのお仕事動向
みんなのPython勉強会#35 Pythonのお仕事動向みんなのPython勉強会#35 Pythonのお仕事動向
みんなのPython勉強会#35 Pythonのお仕事動向
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
 
データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要
 
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
NRI流 検索ソリューション導入時にこれだけはおさえておきたい鉄則
 
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例
国内外AIコンペティションからみるAI技術者のキャリアパスの潮流およびAIコンペサイトSIGNATEにおけるAWS活用事例
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
 
ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識
ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識
ビッグデータ・AI 活用最前線:「Data Augmentation (データ拡張)」という新しい常識
 
【第6回テックヒルズ】検索基盤開発のための結合テスト環境の自動化
【第6回テックヒルズ】検索基盤開発のための結合テスト環境の自動化【第6回テックヒルズ】検索基盤開発のための結合テスト環境の自動化
【第6回テックヒルズ】検索基盤開発のための結合テスト環境の自動化
 
君たちはどう学ぶか?生成AI時代のキャリア形成を考える
君たちはどう学ぶか?生成AI時代のキャリア形成を考える君たちはどう学ぶか?生成AI時代のキャリア形成を考える
君たちはどう学ぶか?生成AI時代のキャリア形成を考える
 
KUROKO IR説明資料
KUROKO IR説明資料KUROKO IR説明資料
KUROKO IR説明資料
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
RのIDEであるRStudioでYouTubeを再生できるようにした話
RのIDEであるRStudioでYouTubeを再生できるようにした話RのIDEであるRStudioでYouTubeを再生できるようにした話
RのIDEであるRStudioでYouTubeを再生できるようにした話
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
[GTC 2018] Inception Award Ridge-i発表資料
[GTC 2018] Inception Award Ridge-i発表資料[GTC 2018] Inception Award Ridge-i発表資料
[GTC 2018] Inception Award Ridge-i発表資料
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方
 
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
 

Mais de Kanji Takahashi

論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical TurkKanji Takahashi
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword InformationKanji Takahashi
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学するKanji Takahashi
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine TranslationKanji Takahashi
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告Kanji Takahashi
 
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...Kanji Takahashi
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword UnitsKanji Takahashi
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationKanji Takahashi
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...Kanji Takahashi
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationKanji Takahashi
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine TranslationKanji Takahashi
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyKanji Takahashi
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Kanji Takahashi
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionKanji Takahashi
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationKanji Takahashi
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Kanji Takahashi
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用Kanji Takahashi
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...Kanji Takahashi
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...Kanji Takahashi
 
20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysisKanji Takahashi
 

Mais de Kanji Takahashi (20)

論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
論文読み会 Creating Speech and Language Data With Amazon’s Mechanical Turk
 
論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information論文読み会 Enriching Word Vectors with Subword Information
論文読み会 Enriching Word Vectors with Subword Information
 
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
第17回Machine Learning 15 minutes!:ビジネスの出会いを科学する
 
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
 
言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告言語処理学会第23回年次大会参加報告
言語処理学会第23回年次大会参加報告
 
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...20170203The Effects of Data Size and Frequency Range on Distributional Semant...
20170203The Effects of Data Size and Frequency Range on Distributional Semant...
 
20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units20161215Neural Machine Translation of Rare Words with Subword Units
20161215Neural Machine Translation of Rare Words with Subword Units
 
Enriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine TranslationEnriching Morphologically Poor Languages for Statistical Machine Translation
Enriching Morphologically Poor Languages for Statistical Machine Translation
 
A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...A Beam-Search Decoder for Normalization of Social Media Text with Application...
A Beam-Search Decoder for Normalization of Social Media Text with Application...
 
Reducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine TranslationReducing the Impact of Data Sparsity in Statistical Machine Translation
Reducing the Impact of Data Sparsity in Statistical Machine Translation
 
文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation文献紹介:Morphological analysis for Statistical Machine Translation
文献紹介:Morphological analysis for Statistical Machine Translation
 
Distributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their CompositionallyDistributed Representations of Words and Phrases and their Compositionally
Distributed Representations of Words and Phrases and their Compositionally
 
Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)Nlp2016参加報告(高橋)
Nlp2016参加報告(高橋)
 
Domain-spesific Paraphrase Extraction
Domain-spesific Paraphrase ExtractionDomain-spesific Paraphrase Extraction
Domain-spesific Paraphrase Extraction
 
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An InvestigationVietnamese Word Segmentation with CRFs and SVMs: An Investigation
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation
 
Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...Improving vietnamese word segmentation and pos tagging using MEM with various...
Improving vietnamese word segmentation and pos tagging using MEM with various...
 
日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用日本語機能表現の自動検出と統計的係り受け解析への応用
日本語機能表現の自動検出と統計的係り受け解析への応用
 
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
20150916How Far are We from Fully Automatic High Quality Grammatical Error Co...
 
20150728So similar and yet incompatible: Toward automated identification of s...
20150728So similar and yet incompatible:Toward automated identification of s...20150728So similar and yet incompatible:Toward automated identification of s...
20150728So similar and yet incompatible: Toward automated identification of s...
 
20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis20150701 Improving SMT quality with morpho-syntactic analysis
20150701 Improving SMT quality with morpho-syntactic analysis
 

Último

情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法ssuser370dd7
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~arts yokohama
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見Shumpei Kishi
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-LoopへTetsuya Nihonmatsu
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦Sadao Tokuyama
 
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...yoshidakids7
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)ssuser539845
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 

Último (13)

情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
ARスタートアップOnePlanetの Apple Vision Proへの情熱と挑戦
 
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...
Summary of "ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language M...
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 

20180718Eightニュースフィード活性化のための自然言語処理の取り組み