Mais conteúdo relacionado
Semelhante a レコードリンケージに基づく科研費分野-WoS分野マッピング (6)
Mais de National Institute of Informatics (19)
レコードリンケージに基づく科研費分野-WoS分野マッピング
- 3. 評価軸の一つとしての研究分野
• 研究分野
– 専門家による十分な議論を経て定義
• 例えば、経済協力開発機構(OECD)のFrascati Manual
– 加盟国の研究開発比較評価のために研究開発の統計手法について標準化
– 2007年には改訂した分野分類(Field of Science and Technology, FOS) を定義して公開
• 英国における研究評価のとりくみの例
– 4つの高等教育機関
• HEFCE(Higher Education Funding Council for England)、SFC(Scottish Funding Council)、
HEFCW(Higher Education Funding Council for Wales)、雇用学習省(Department for
Employment and Learning, Northern Ireland, DEL)
– 分野ごとの評価
• UoA (Unit of Assessment)
– 継続的な研究評価
• RAE(Research Assessment Exercise)2008
– 67の分野で構成されたUoA
• REF(Research Excellence Framework)2014
– 36の分野で構成されたUoA
• 日本における研究評価の取り組みの例
– 科学研究費助成事業(科研費)のアウトプット評価
• 成果文献の引用指数による評価(科学技術学術政策研究所)
– 「系・分野・分科・細目」 による研究分野区分
• 申請時の区分として利用とともに、評価軸としても利用
• ほぼ10年ごとに大改訂され、毎年小改訂 3
- 4. 研究評価ツール
• J-GLOBAL foresight (JST)
– 基礎データ
• JSTの書誌・引用データ等の学術データ
• Thomson RuetersのWoS, ESI, パテントデータ
– 分野分類
• JST科学技術分類表24分類
• InCites (Thomson Reuters)
– 基礎データ
• WoSの書誌・引用データ
– 分野分類
• WoSサブジェクトエリア251分類
• ESIサブジェクトエリア22分類
– WoS,ESI分野分類対応表
• OECD Frascati Manual
• 英国 RAE, REF
• オーストラリア ERA(Excellence in Research for Australia)
• ブラジル FAPESP(São Paulo Research Foundation)
• 中国 SCADC(State Council Academic Degree Committee)
• イタリア ANVUR(National Agency for the Evaluation of Universities and
Research Institutes) 4
- 9. 2009年度の科研費分野分類とWoS
分野分類を対象としたマッピング
• データセット
– KAKENに掲載された2009年度の実績報告書データ 59,012
件
• 研究分野
– 「系・分野・分科・細目」表の細目番号のついた50,304件
– 付与された細目番号は284通り
• 発表文献
– 報告書に記述された発表文献353,047件
– アスキー文字だけで構成される文献104,455件(上記の29.6%)
– 出版年度は2000年から2011年までの範囲で分布
– 99.8%にあたる104,195件の文献が2009年と2010年に分布
– 該当するWoSの論文書誌データ
• 論文
– DB Yearが2009年と2010年にあたる論文書誌データ3,843,104件
• サブジェクトエリア
– 雑誌に付与されたWoSサブジェクトエリア251分野
– 雑誌に付与されたESIサブジェクトエリア22分野
9
- 11. WoSの論文書誌XMLの例
11
<REC>
<issue recid="175215165" coverdate="200812" sortkey="3070202595" dbyear="2009">
….
<subjects count="1">
<subject code="BU" edition="SCI">ASTRONOMY & ASTROPHYSICS</subject>
</subjects>
….
<item issue="175215165" recid="175215166" coverdate="200812" sortkey="3070202594" refkey="6
….
<source_title>JOURNAL OF GEOPHYSICAL RESEARCH-SPACE PHYSICS</source_title>
<item_title>Ways in which ICME sheaths differ from magnetosheaths</item_title>
<bib_pages begin="" end="" pages="10">-</bib_pages>
<bib_issue year="2008" vol="113"/>
<authors count="2">
<primaryauthor>Siscoe, G</primaryauthor>
….
</REC>
- 12. 書誌の同一性判定
• i-linkageによるブロッキング
– 各ソース書誌(KAKEN)に対し、ランク5位までターゲット書誌
(WoS)を抽出
– 518,314件の書誌ペア候補
• SVMによる同一性判定
– 特徴ベクトルを設計
– 実装は、TinySVMを使用
– 1000件の正解データを用いて10分割交差検定を行った結果の
精度
• Accuracy 96.6
• Precision 97.01
• Recall 94.52
• F-Measure 95.69
– 41,697件の正判定書誌ペア
• 英文発表文献数に比較して、39.9%(41697/104455)の文献がWoSの論
文に紐づけられた
• 日本語もあわせた発表文献全体では、11.8%(41697/353047)の文献が
WoSの論文に紐づけられた 12
- 16. 16
JI:ERGONOMICS
JM:ETHNICSTUDIES
JO:FAMILYSTUDIES
JS:FILM,RADIO,TELEVISION
JU:FISHERIES
JW:FOLKLORE
JY:FOODSCIENCE&
KA:FORESTRY
KI:GASTROENTEROLOGY&
KM:GENETICS&HEREDITY
KU:GEOGRAPHY
KV:GEOGRAPHY,PHYSICAL
KY:GEOLOGY
LE:GEOSCIENCES,
LI:GERIATRICS&
LJ:GERONTOLOGY
LQ:HEALTHPOLICY&SERVICES
MA:HEMATOLOGY
MC:MATHEMATICAL&
ML:PRIMARYHEALTHCARE
MM:HISTORY
MQ:HISTORY&PHILOSOPHY
MR:HISTORYOFSOCIAL
MU:HORTICULTURE
MW:HOSPITALITY,LEISURE,
MY:PSYCHOLOGY,
NE:PUBLIC,ENVIRONMENTAL
NI:IMMUNOLOGY
NM:INDUSTRIALRELATIONS&
NN:INFECTIOUSDISEASES
NQ:PSYCHOLOGY,APPLIED
NS:NANOSCIENCE&
NU:INFORMATIONSCIENCE&
OA:INSTRUMENTS&
OE:INTERNATIONAL
OI:INTEGRATIVE&
OM:LAW
OO:MEDICALETHICS
OP:MEDICINE,LEGAL
OR:ASIANSTUDIES
OT:LINGUISTICS
OU:LIMNOLOGY
OX:LITERARYTHEORY&
OY:LANGUAGE&LINGUISTICS
OZ:LITERARYREVIEWS
PA:LITERATURE
PC:MANAGEMENT
PD:LITERATURE,AFRICAN,
PE:OPERATIONSRESEARCH&
PF:LITERATURE,AMERICAN
PG:LITERATURE,BRITISHISLES
PH:LITERATURE,GERMAN,
PI:MARINE&FRESHWATER
PJ:MATERIALSSCIENCE,PAPER
PK:MATERIALSSCIENCE,
PM:MATERIALSSCIENCE,
PN:MATHEMATICS,APPLIED
PO:MATHEMATICS,
PQ:MATHEMATICS
PS:SOCIALSCIENCES,
数学
- 17. 17
IG:ENGINEERING,BIOMEDICAL
IH:ENGINEERING,ENVIRONMENTAL
II:ENGINEERING,CHEMICAL
IJ:ENGINEERING,INDUSTRIAL
IK:ENGINEERING,MANUFACTURING
IL:ENGINEERING,MARINE
IM:ENGINEERING,CIVIL
IO:ENGINEERING,OCEAN
IP:ENGINEERING,PETROLEUM
IQ:ENGINEERING,ELECTRICAL&
IU:ENGINEERING,MECHANICAL
IX:ENGINEERING,GEOLOGICAL
IY:ENTOMOLOGY
JA:ENVIRONMENTALSCIENCES
JB:ENVIRONMENTALSTUDIES
JI:ERGONOMICS
JM:ETHNICSTUDIES
JO:FAMILYSTUDIES
JS:FILM,RADIO,TELEVISION
JU:FISHERIES
JW:FOLKLORE
JY:FOODSCIENCE&TECHNOLOGY
KA:FORESTRY
KI:GASTROENTEROLOGY&
KM:GENETICS&HEREDITY
KU:GEOGRAPHY
KV:GEOGRAPHY,PHYSICAL
KY:GEOLOGY
LE:GEOSCIENCES,MULTIDISCIPLINARY
LI:GERIATRICS&GERONTOLOGY
LJ:GERONTOLOGY
LQ:HEALTHPOLICY&SERVICES
MA:HEMATOLOGY
MC:MATHEMATICAL&
ML:PRIMARYHEALTHCARE
MM:HISTORY
MQ:HISTORY&PHILOSOPHYOF
MR:HISTORYOFSOCIALSCIENCES
MU:HORTICULTURE
MW:HOSPITALITY,LEISURE,SPORT&
MY:PSYCHOLOGY,DEVELOPMENTAL
NE:PUBLIC,ENVIRONMENTAL&
NI:IMMUNOLOGY
NM:INDUSTRIALRELATIONS&LABOR
NN:INFECTIOUSDISEASES
NQ:PSYCHOLOGY,APPLIED
NS:NANOSCIENCE&
NU:INFORMATIONSCIENCE&LIBRARY
OA:INSTRUMENTS&
OE:INTERNATIONALRELATIONS
OI:INTEGRATIVE&COMPLEMENTARY
OM:LAW
OO:MEDICALETHICS
OP:MEDICINE,LEGAL
OR:ASIANSTUDIES
OT:LINGUISTICS
OU:LIMNOLOGY
OX:LITERARYTHEORY&CRITICISM
OY:LANGUAGE&LINGUISTICS
OZ:LITERARYREVIEWS
PA:LITERATURE
PC:MANAGEMENT
PD:LITERATURE,AFRICAN,AUSTRALIAN,
PE:OPERATIONSRESEARCH&
PF:LITERATURE,AMERICAN
PG:LITERATURE,BRITISHISLES
PH:LITERATURE,GERMAN,DUTCH,
PI:MARINE&FRESHWATERBIOLOGY
PJ:MATERIALSSCIENCE,PAPER&
PK:MATERIALSSCIENCE,CERAMICS
PM:MATERIALSSCIENCE,
PN:MATHEMATICS,APPLIED
PO:MATHEMATICS,INTERDISCIPLINARY
PQ:MATHEMATICS
PS:SOCIALSCIENCES,MATHEMATICAL
PT:MEDICALINFORMATICS
PU:MECHANICS
PW:MEDICALLABORATORY
PY:MEDICINE,GENERAL&INTERNAL
PZ:METALLURGY&METALLURGICAL
QA:MEDICINE,RESEARCH&
QC:LITERATURE,ROMANCE
QD:LITERATURE,SLAVIC
QE:MATERIALSSCIENCE,BIOMATERIALS
QF:MATERIALSSCIENCE,
QG:MATERIALSSCIENCE,COATINGS&
QH:MATERIALSSCIENCE,COMPOSITES
QJ:MATERIALSSCIENCE,TEXTILES
内科系臨床医学
QG:MATERIALSSCIENCE,COATINGS&
QH:MATERIALSSCIENCE,COMPOSITES
QJ:MATERIALSSCIENCE,TEXTILES
QK:MEDIEVAL&RENAISSANCESTUDIES
QL:LOGIC
QQ:METEOROLOGY&ATMOSPHERIC
QU:MICROBIOLOGY
RA:MICROSCOPY
RB:ROBOTICS
RE:MINERALOGY
RO:MULTIDISCIPLINARYSCIENCES
RP:MUSIC
RQ:MYCOLOGY
RT:CLINICALNEUROLOGY
RU:NEUROSCIENCES
RX:NEUROIMAGING
RY:NUCLEARSCIENCE&TECHNOLOGY
RZ:NURSING
SA:NUTRITION&DIETETICS
SD:OBSTETRICS&GYNECOLOGY
SI:OCEANOGRAPHY
SR:REMOTESENSING
SU:OPHTHALMOLOGY
SY:OPTICS
TA:ORNITHOLOGY
TC:ORTHOPEDICS
TD:OTORHINOLARYNGOLOGY
TE:PALEONTOLOGY
TI:PARASITOLOGY
TM:PATHOLOGY
TQ:PEDIATRICS
TU:PHARMACOLOGY&PHARMACY
UA:PHILOSOPHY
UB:PHYSICS,APPLIED
UE:IMAGINGSCIENCE&
UF:PHYSICS,FLUIDS&PLASMAS
UH:PHYSICS,ATOMIC,MOLECULAR&
UI:PHYSICS,MULTIDISCIPLINARY
UK:PHYSICS,CONDENSEDMATTER
UM:PHYSIOLOGY
UN:PHYSICS,NUCLEAR
UP:PHYSICS,PARTICLES&FIELDS
UQ:PLANNING&DEVELOPMENT
UR:PHYSICS,MATHEMATICAL
UT:POETRY
UU:POLITICALSCIENCE
UY:POLYMERSCIENCE
VE:PSYCHIATRY
VI:PSYCHOLOGY
VJ:PSYCHOLOGY,MULTIDISCIPLINARY
VM:PUBLICADMINISTRATION
VP:PSYCHOLOGY,PSYCHOANALYSIS
VS:PSYCHOLOGY,MATHEMATICAL
VX:PSYCHOLOGY,EXPERIMENTAL
VY:RADIOLOGY,NUCLEARMEDICINE&
WC:REHABILITATION
WE:RESPIRATORYSYSTEM
WF:REPRODUCTIVEBIOLOGY
WH:RHEUMATOLOGY
WM:SOCIALISSUES
WQ:PSYCHOLOGY,SOCIAL
WU:SOCIALSCIENCES,
WV:SOCIALSCIENCES,BIOMEDICAL
WY:SOCIALWORK
XA:SOCIOLOGY
XE:SOILSCIENCE
XQ:SPECTROSCOPY
XW:SPORTSCIENCES
XY:STATISTICS&PROBABILITY
YA:SURGERY
YE:TELECOMMUNICATIONS
YG:THEATER
YI:RELIGION
YO:TOXICOLOGY
YP:TRANSPLANTATION
YQ:TRANSPORTATION
YR:TRANSPORTATIONSCIENCE&
YU:TROPICALMEDICINE
YY:URBANSTUDIES
ZA:UROLOGY&NEPHROLOGY
ZC:VETERINARYSCIENCES
ZD:PERIPHERALVASCULARDISEASE
ZE:VIROLOGY
ZK:WOMEN'SSTUDIES
ZM:ZOOLOGY
ZQ:MINING&MINERALPROCESSING
ZR:WATERRESOURCES
- 18. サブジェクトエリアごとの
67分科(ランク順)に対する頻度分
布
18
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67
系列1
系列2
系列3
系列4
系列5
系列6
系列7
系列8
系列9
系列10
系列11
系列12
系列13
系列14
系列15
系列16
系列17
系列18
系列19
系列20
系列21
系列22
系列23
67分科(ランク順)
系列はESIのサブジェクトエリア頻度
- 22. マッピングに対する考察
• 整数カウントと分数カウント
– 整数カウントと分数カウントで得られたソート後の分割表には、分類
の順序に若干の差異が見られた
– マッピングの若干の差異としてそのまま現れるため無視することはで
きない
• 有意な対応関係のための足切り
– より厳選したマッピングのためには足切りの頻度を数倍する
– 頻度順位1位の分類項目からランク順に累積頻度を計算して1/2に達し
たところでマッピングを打ち切る
• 書誌の同一性判定の精度
– 分割表の要素の精度は同一性判定の精度に依存
– 割表の要素には一定の同一性判定の誤差を含んだ論文数がカウントさ
れるので、標本の数が大きければ大数の法則により誤差は気にしなく
てよい方向に向かう
• 分類の粒度とマッピングの方向
– [4,10,67,284] x [22,251]の8通りの分割表が作成可能であり、マッピン
グの方向を含めると16通りのマッピング表を作成できる
– 論文中の表はその一部
22