Enviar pesquisa
Carregar
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
•
7 gostaram
•
23,661 visualizações
S
Shuyo Nakatani
Seguir
コメントの指摘を受けて修正しました(2014/1/14)
Leia menos
Leia mais
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 20
Baixar agora
Baixar para ler offline
Recomendados
国際化時代の40カ国語言語判定
国際化時代の40カ国語言語判定
Shuyo Nakatani
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
Shuyo Nakatani
文字列検索のいろいろ
文字列検索のいろいろ
Kazuma Mikami
文字列アルゴリズム
文字列アルゴリズム
HCPC: 北海道大学競技プログラミングサークル
初心者がRSA暗号を教わったら自力でCTFの問題が解けるようになった話
初心者がRSA暗号を教わったら自力でCTFの問題が解けるようになった話
mariydi1
ChatGPTのビジネス活用とセキュリティ
ChatGPTのビジネス活用とセキュリティ
Daisuke Masubuchi
AtCoder Beginner Contest 004 解説
AtCoder Beginner Contest 004 解説
AtCoder Inc.
2020.07paiza
2020.07paiza
ssuser7faecc
Recomendados
国際化時代の40カ国語言語判定
国際化時代の40カ国語言語判定
Shuyo Nakatani
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
Shuyo Nakatani
文字列検索のいろいろ
文字列検索のいろいろ
Kazuma Mikami
文字列アルゴリズム
文字列アルゴリズム
HCPC: 北海道大学競技プログラミングサークル
初心者がRSA暗号を教わったら自力でCTFの問題が解けるようになった話
初心者がRSA暗号を教わったら自力でCTFの問題が解けるようになった話
mariydi1
ChatGPTのビジネス活用とセキュリティ
ChatGPTのビジネス活用とセキュリティ
Daisuke Masubuchi
AtCoder Beginner Contest 004 解説
AtCoder Beginner Contest 004 解説
AtCoder Inc.
2020.07paiza
2020.07paiza
ssuser7faecc
もしWebセキュリティのエンジニアがRFC7540の「HTTP/2アプリ」をWeb診断したら
もしWebセキュリティのエンジニアがRFC7540の「HTTP/2アプリ」をWeb診断したら
abend_cve_9999_0001
図解 フレンゼル法(フレンツェル法) 耳抜き法 Revised edition by Japanese
図解 フレンゼル法(フレンツェル法) 耳抜き法 Revised edition by Japanese
博行 門眞
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Shirou Maruyama
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
情報システム障害解析のための知識グラフ構築の試み / Constructing a knowledge graph for information sys...
情報システム障害解析のための知識グラフ構築の試み / Constructing a knowledge graph for information sys...
Shinji Takao
PEGで構文解析をする
PEGで構文解析をする
jiro4989
brainfuckを吐く自作言語bf-reusable
brainfuckを吐く自作言語bf-reusable
roodni
[222]neural machine translation (nmt) 동작의 시각화 및 분석 방법
[222]neural machine translation (nmt) 동작의 시각화 및 분석 방법
NAVER D2
URLで遊ぼう
URLで遊ぼう
Hiraku Nakano
20171005 告白に学ぶ http status code
20171005 告白に学ぶ http status code
Shinichi Takahashi
水耕栽培を始めたばかりの時に 知っておきたかったこと
水耕栽培を始めたばかりの時に 知っておきたかったこと
Mitsushige Ishiguro
ibus-skkをなんとかすっぺ会議
ibus-skkをなんとかすっぺ会議
emasaka
Ml professional bandit_chapter2
Ml professional bandit_chapter2
Takeru Maehara
分散システムの限界について知ろう
分散システムの限界について知ろう
Shingo Omura
ダブリング
ダブリング
satanic
目指せグラフマスター
目指せグラフマスター
HCPC: 北海道大学競技プログラミングサークル
Quine・難解プログラミングについて
Quine・難解プログラミングについて
mametter
REST API に疲れたあなたへ贈る GraphQL 入門
REST API に疲れたあなたへ贈る GraphQL 入門
Keisuke Tsukagoshi
LTspice超入門 マルツエレック marutsuelec
LTspice超入門 マルツエレック marutsuelec
マルツエレック株式会社 marutsuelec
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
Takuya Akiba
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
Shuyo Nakatani
人工知能と機械学習の違いって?
人工知能と機械学習の違いって?
Shuyo Nakatani
Mais conteúdo relacionado
Mais procurados
もしWebセキュリティのエンジニアがRFC7540の「HTTP/2アプリ」をWeb診断したら
もしWebセキュリティのエンジニアがRFC7540の「HTTP/2アプリ」をWeb診断したら
abend_cve_9999_0001
図解 フレンゼル法(フレンツェル法) 耳抜き法 Revised edition by Japanese
図解 フレンゼル法(フレンツェル法) 耳抜き法 Revised edition by Japanese
博行 門眞
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
Shirou Maruyama
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
情報システム障害解析のための知識グラフ構築の試み / Constructing a knowledge graph for information sys...
情報システム障害解析のための知識グラフ構築の試み / Constructing a knowledge graph for information sys...
Shinji Takao
PEGで構文解析をする
PEGで構文解析をする
jiro4989
brainfuckを吐く自作言語bf-reusable
brainfuckを吐く自作言語bf-reusable
roodni
[222]neural machine translation (nmt) 동작의 시각화 및 분석 방법
[222]neural machine translation (nmt) 동작의 시각화 및 분석 방법
NAVER D2
URLで遊ぼう
URLで遊ぼう
Hiraku Nakano
20171005 告白に学ぶ http status code
20171005 告白に学ぶ http status code
Shinichi Takahashi
水耕栽培を始めたばかりの時に 知っておきたかったこと
水耕栽培を始めたばかりの時に 知っておきたかったこと
Mitsushige Ishiguro
ibus-skkをなんとかすっぺ会議
ibus-skkをなんとかすっぺ会議
emasaka
Ml professional bandit_chapter2
Ml professional bandit_chapter2
Takeru Maehara
分散システムの限界について知ろう
分散システムの限界について知ろう
Shingo Omura
ダブリング
ダブリング
satanic
目指せグラフマスター
目指せグラフマスター
HCPC: 北海道大学競技プログラミングサークル
Quine・難解プログラミングについて
Quine・難解プログラミングについて
mametter
REST API に疲れたあなたへ贈る GraphQL 入門
REST API に疲れたあなたへ贈る GraphQL 入門
Keisuke Tsukagoshi
LTspice超入門 マルツエレック marutsuelec
LTspice超入門 マルツエレック marutsuelec
マルツエレック株式会社 marutsuelec
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
Takuya Akiba
Mais procurados
(20)
もしWebセキュリティのエンジニアがRFC7540の「HTTP/2アプリ」をWeb診断したら
もしWebセキュリティのエンジニアがRFC7540の「HTTP/2アプリ」をWeb診断したら
図解 フレンゼル法(フレンツェル法) 耳抜き法 Revised edition by Japanese
図解 フレンゼル法(フレンツェル法) 耳抜き法 Revised edition by Japanese
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
情報システム障害解析のための知識グラフ構築の試み / Constructing a knowledge graph for information sys...
情報システム障害解析のための知識グラフ構築の試み / Constructing a knowledge graph for information sys...
PEGで構文解析をする
PEGで構文解析をする
brainfuckを吐く自作言語bf-reusable
brainfuckを吐く自作言語bf-reusable
[222]neural machine translation (nmt) 동작의 시각화 및 분석 방법
[222]neural machine translation (nmt) 동작의 시각화 및 분석 방법
URLで遊ぼう
URLで遊ぼう
20171005 告白に学ぶ http status code
20171005 告白に学ぶ http status code
水耕栽培を始めたばかりの時に 知っておきたかったこと
水耕栽培を始めたばかりの時に 知っておきたかったこと
ibus-skkをなんとかすっぺ会議
ibus-skkをなんとかすっぺ会議
Ml professional bandit_chapter2
Ml professional bandit_chapter2
分散システムの限界について知ろう
分散システムの限界について知ろう
ダブリング
ダブリング
目指せグラフマスター
目指せグラフマスター
Quine・難解プログラミングについて
Quine・難解プログラミングについて
REST API に疲れたあなたへ贈る GraphQL 入門
REST API に疲れたあなたへ贈る GraphQL 入門
LTspice超入門 マルツエレック marutsuelec
LTspice超入門 マルツエレック marutsuelec
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
Destaque
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
Shuyo Nakatani
人工知能と機械学習の違いって?
人工知能と機械学習の違いって?
Shuyo Nakatani
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
Koji Matsuda
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
Shuyo Nakatani
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
Shuyo Nakatani
階層ディリクレ過程事前分布モデルによる画像領域分割
階層ディリクレ過程事前分布モデルによる画像領域分割
tn1031
猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測
Shuyo Nakatani
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
Shuyo Nakatani
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
Shuyo Nakatani
ドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoR
Shuyo Nakatani
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
LDA入門
LDA入門
正志 坪坂
Destaque
(12)
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
人工知能と機械学習の違いって?
人工知能と機械学習の違いって?
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
階層ディリクレ過程事前分布モデルによる画像領域分割
階層ディリクレ過程事前分布モデルによる画像領域分割
猫に教えてもらうルベーグ可測
猫に教えてもらうルベーグ可測
数式を綺麗にプログラミングするコツ #spro2013
数式を綺麗にプログラミングするコツ #spro2013
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
ドラえもんでわかる統計的因果推論 #TokyoR
ドラえもんでわかる統計的因果推論 #TokyoR
Active Learning 入門
Active Learning 入門
LDA入門
LDA入門
Mais de Shuyo Nakatani
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
Shuyo Nakatani
Generative adversarial networks
Generative adversarial networks
Shuyo Nakatani
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
Shuyo Nakatani
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Shuyo Nakatani
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
Shuyo Nakatani
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
Shuyo Nakatani
Zipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLP
Shuyo Nakatani
ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014
Shuyo Nakatani
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
Shuyo Nakatani
Short Text Language Detection with Infinity-Gram
Short Text Language Detection with Infinity-Gram
Shuyo Nakatani
[Karger+ NIPS11] Iterative Learning for Reliable Crowdsourcing Systems
[Karger+ NIPS11] Iterative Learning for Reliable Crowdsourcing Systems
Shuyo Nakatani
極大部分文字列を使った twitter 言語判定
極大部分文字列を使った twitter 言語判定
Shuyo Nakatani
人間言語判別 カタルーニャ語編
人間言語判別 カタルーニャ語編
Shuyo Nakatani
Extreme Extraction - Machine Reading in a Week
Extreme Extraction - Machine Reading in a Week
Shuyo Nakatani
言語判定へのいざない
言語判定へのいざない
Shuyo Nakatani
∞-gram を使った短文言語判定
∞-gram を使った短文言語判定
Shuyo Nakatani
CRF を使った Web 本文抽出 for WebDB Forum 2011
CRF を使った Web 本文抽出 for WebDB Forum 2011
Shuyo Nakatani
数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ
Shuyo Nakatani
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
Shuyo Nakatani
Mais de Shuyo Nakatani
(20)
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
Generative adversarial networks
Generative adversarial networks
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
Memory Networks (End-to-End Memory Networks の Chainer 実装)
Memory Networks (End-to-End Memory Networks の Chainer 実装)
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
[Yang, Downey and Boyd-Graber 2015] Efficient Methods for Incorporating Knowl...
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
Zipf? (ジップ則のひみつ?) #DSIRNLP
Zipf? (ジップ則のひみつ?) #DSIRNLP
ソーシャルメディアの多言語判定 #SoC2014
ソーシャルメディアの多言語判定 #SoC2014
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
Short Text Language Detection with Infinity-Gram
Short Text Language Detection with Infinity-Gram
[Karger+ NIPS11] Iterative Learning for Reliable Crowdsourcing Systems
[Karger+ NIPS11] Iterative Learning for Reliable Crowdsourcing Systems
極大部分文字列を使った twitter 言語判定
極大部分文字列を使った twitter 言語判定
人間言語判別 カタルーニャ語編
人間言語判別 カタルーニャ語編
Extreme Extraction - Machine Reading in a Week
Extreme Extraction - Machine Reading in a Week
言語判定へのいざない
言語判定へのいざない
∞-gram を使った短文言語判定
∞-gram を使った短文言語判定
CRF を使った Web 本文抽出 for WebDB Forum 2011
CRF を使った Web 本文抽出 for WebDB Forum 2011
数式をnumpyに落としこむコツ
数式をnumpyに落としこむコツ
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
アラビア語とペルシャ語の見分け方 #DSIRNLP 5
1.
アラビア語とペルシャ語の 見分け方 DSIRNLP#5 2014/1/11 Nakatani Shuyo
@ Cybozu Labs
2.
アラビア語とペルシャ語を 見分ける一番簡単な方法 5
3.
Chrome で開く
4.
ダメ? 7
5.
「ペルシャ語…… ペルシャってまだあったっけ」 なんて人いませんよね?
6.
ペルシャ語はイランの公用語 • 4000万人以上の話者 – タジキスタンのタジク語、アフガニスタンの ダリー語もほぼペルシャ語 via
http://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:MapOfPersianSpeakers.png
7.
アラビア語とペルシャ語とか wktk が止まらないよね 読める?
8.
読める? • wktk • ktkr •
kwsk • mjsk • mjd 全部読めちゃった人は 生活を見直しましょう • gkbr • ggrks 11
9.
母音を補完 • wktk →
wAkUtEkA → わくてか • ktkr → きたこれ → kItAkOrE • kwsk → kUwAsIkU → くわしく • mjsk → mAjIsUkA → まじすか • mjd → まじで → mAjIdE • gkbr → gAkUbUrU → がくぶる • ggrks → gUgUrEkAsU → ぐぐれかす 12
10.
実はアラビア語は 「全文 wktk 状態」 13
11.
アラビア文字 • 原則子音のみ表記し、母音は文脈から推定 – クルアーン(コーラン)や子供向け文章には母音記 号が付加される –
ウイグル語など一部は母音にも文字を割り当て アラビア語 綴り 読み 意味 كتب مكتب مكتبة ktb kataba book mktb makitab office/desk mktbẗ maktabaa library 14
12.
アラビア文字 • 右から左に書く&続け書きで形が変わる –ع ل
ى → على –ك ت ب → كتب –ل ا → ال 15
13.
アラビア語とペルシャ語 • どっちがどっち? من یک
گربه أنا لست القط • 難しそう? – そうでもないよ! 16
14.
アラビア語とペルシャ語 • 文法はぜんぜん違う – アラビア語はアフロ・アジア語族 •
語順は VSO型、be動詞にあたるものはない – ペルシャ語はインド・ヨーロッパ語族 • 語順は SOV型、名詞の性や格変化はない – が、言語の区別にはあまり役立たないかな… 17
15.
アラビア語とペルシャ語 • 文字セットは一部違う – 基本28字は両方で用いる –
アラビア語のみ用いる:ハムザ ( ءハムザ付き文字含む) とター・マルブータ ة – ペルシャ語のみ用いる:ペルシャ語で追加された6文字 ()ی گ ک ژ چ پ – いずれも頻度の高い文字が含まれるので、十分役に立つ • 数字セットも違うが…… – 「アラビア文字の数字」より「アラビア数字」の方がもっ ぱら使われるので役には立たない 18
16.
アラビア語とペルシャ語 • 語彙はぜんぜん違う(特に機能語) – アラビア語起源の単語もそれなりにある(特にイ スラム関連)が、異なる機能語が圧倒的に多いの で見分けるのは意外と容易 –
たまたま両言語共通の頻出単語 ( منmn) でも • アラビア語では min と読んで from の意味 • ペルシャ語では man と読んで I(一人称単数)の意味 19
17.
アラビア語とペルシャ語は 文字と単語でだいたい見分けられる 20
18.
見分け文字 アラビア語 ء أ ؤ إ ئ ة U+0621 U+0623 U+0624 U+0625 U+0626 U+0629 ペルシャ語 پ چ ژ ک گ ی U+067e U+0686 U+0698 U+06a9 U+06af U+06cc
19.
見分け単語 アラビア語 في ال هللا على كل أن وال in no God to each that or ペルシャ語 که از تو رو در این با that from you (face) in this with 22
20.
まとめ • 6個の文字&7個の単語をカウントする だけで – アラビア語ツイートは82%くらい –
ペルシャ語ツイートは97%くらい • 判別できます 23
Baixar agora