SlideShare uma empresa Scribd logo
1 de 35
Baixar para ler offline
‫ﺩﺍﻧﺸﮕﺎﻩ ﺍﺻﻔﻬﺎﻥ‬
                          ‫ﺩﺍﻧﺸﮑﺪﻩ ﻓﻨﻲ ﻭ ﻣﻬﻨﺪﺳﻲ‬
                             ‫ﮔﺮﻭﻩ ﮐﺎﻣﭙﻴﻮﺗﺮ‬

    ‫ﻣﺴﻴﺮﻫﺎﯼ ﮐﻮﺗﺎﻩ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﻧﻮﺩﻫﺎﯼ‬
             ‫ﮔﺮﺍﻑ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ‬

        ‫‪Shortest Paths as Similarity‬‬
      ‫‪Measure Between Nodes of Graph‬‬
              ‫‪Of Web of Data‬‬
              ‫ﻣﺤﻘﻖ:‬                                   ‫ﺍﺳﺘﺎﺩ ﺭﺍﻫﻨﻤﺎ:‬
     ‫ﻫﺎﺩﻱ ﺧﺴﺮﻭﻱ ﻓﺎﺭﺳﺎﻧﯽ‬                          ‫ﺩﮐﺘﺮ ﻣﺤﻤﺪﻋﻠﯽ ﻧﻌﻤﺖ ﺑﺨﺶ‬


‫1‬
                          ‫ﻣﻬﺮ 0931‬                                  ‫62/7/0931‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬

                                        ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬    ‫•‬

                                                ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬     ‫•‬

                                                     ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬     ‫•‬

                                         ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬      ‫•‬

                                                      ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬     ‫•‬

                                            ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬      ‫•‬

                                                      ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬      ‫•‬

                                                       ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬   ‫•‬


‫2‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                          ‫62/7/0931‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬

                                        ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬    ‫•‬

                                                ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬     ‫•‬

                                                     ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬     ‫•‬

                                         ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬      ‫•‬

                                                      ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬     ‫•‬

                                            ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬      ‫•‬

                                                      ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬      ‫•‬

                                                       ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬   ‫•‬


‫3‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                          ‫62/7/0931‬
‫ﺍﺻﻮﻝ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ )‪(Linked Data Principles‬‬
                                                             ‫• ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ‪ URI‬ﺑﺮﺍﯼ ﺷﻨﺎﺳﺎﻳﻲ ﻣﻨﺎﺑﻊ ﺩﺭ ﻭﺏ‬
                                               ‫• ﺍﺯ ﭘﺮﻭﺗﮑﻞ ‪ HTTP‬ﺑﺮﺍﯼ ﺩﺳﺘﺮﺳﯽ ﺑﻪ ﺍﻳﻦ ﻧﺎﻣﻬﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺷﻮﺩ‬
‫• ﻫﻨﮕﺎﻣﯽ ﮐﻪ ﻳﮏ ﻓﺮﺩ، ﺩﺭﺧﻮﺍﺳﺖ ﻳﮏ ‪ URI‬ﺭﺍ ﻣﯽ ﮐﻨﺪ، ﺗﻤﺎﻣﯽ ﺍﻃﻼﻋﺎﺕ ﻣﻔﻴﺪ ﺑﻪ ﻓﺮﻣﺖ ‪ RDF‬ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﺷﻮﺩ‬
 ‫• ﻋﺒﺎﺭﺗﻬﺎﯼ ‪ RDF‬ﻻﺯﻡ ﺍﺳﺖ ﺑﻪ ﺩﻳﮕﺮ ‪ URI‬ﻫﺎ ﺍﻧﻮﺍﻉ ﻣﺨﺘﻠﻒ ﻟﻴﻨﮏ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﺑﻪ ﺻﻮﺭﺗﯽ ﮐﻪ ﺍﻓﺮﺍﺩ ﻗﺎﺩﺭ ﺑﺎﺷﻨﺪ‬
                                                        ‫ﺍﻃﻼﻋﺎﺕ ﺑﻴﺸﺘﺮﯼ ﺩﺭ ﻣﻮﺭﺩ ﺁﻥ ﻣﻮﺟﻮﺩﻳﺖ ﮐﺴﺐ ﮐﻨﻨﺪ.‬




‫4‬                                 ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                      ‫62/7/0931‬
‫ﺗﻌﺮﻳﻒ ﻣﻨﺎﺑﻊ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺍﺻﻮﻝ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ )ﻣﺜﺎﻝ(‬
    ‫‪http://dbpedia.org/page/Nigel_Clough‬‬




‫5‬                       ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬     ‫62/7/0931‬
‫ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ : ﺩﺭ ﺣﺎﻝ ﺣﺎﺿﺮ‬
                                                           ‫•‬




‫6‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬             ‫62/7/0931‬
                                                   ‫62/7/0931‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬

                                        ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬    ‫•‬

                                                ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬     ‫•‬

                                                     ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬     ‫•‬

                                         ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬      ‫•‬

                                                      ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬     ‫•‬

                                            ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬      ‫•‬

                                                      ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬      ‫•‬

                                                       ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬   ‫•‬


‫7‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                          ‫62/7/0931‬
‫ﻣﺴﺎﻟﻪ ﭘﺎﻳﺎﻥ ﻧﺎﻣﻪ ﻭ ﺯﻳﺮ ﻣﺴﺎﻳﻞ ﺁﻥ‬
                                           ‫ﺭﺗﺒﻪ ﺑﻨﺪﯼ ﻣﻨﺎﺑﻊ ﺩﺭ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ ﺑﻪ ﭼﻪ ﺷﮑﻠﯽ ﺍﻧﺠﺎﻡ ﺷﻮﺩ .‬    ‫•‬

                                                                                          ‫ﺍﻳﺪﻩ:‬          ‫•‬
                             ‫• ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﻨﺎﺑﻊ ﻭ ﺳﭙﺲ ﺍﻋﻤﺎﻝ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﺭﺗﺒﻪ ﺑﻨﺪﯼ ﺩﺭ ﻫﺮ ﺧﻮﺷﻪ‬

                                                                                   ‫ﻓﺎﺯﻫﺎﯼ ﭘﺮﻭﮊﻩ‬          ‫•‬
                                   ‫• ﺭﺗﺒﻪ ﺑﻨﺪﯼ ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﻫﺎ ﻭ ﻣﻮﺟﻮﺩﻳﺖ ﺩﺭ ﻫﺮ ‪dataset‬‬
    ‫• ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺑﺎ ﺩﺭ ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻧﻮﺩﻫﺎ ﻭ ﻟﻴﻨﮑﻬﺎ - ﺑﺪﻭﻥ ﺩﺭ ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﺧﺼﻮﺻﻴﺎﺕ ﻭ ﻣﻘﺎﺩﻳﺮ ﺧﺼﻮﺻﻴﺎﺕ‬
     ‫• ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺑﺎ ﺩﺭ ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻧﻮﺩﻫﺎ ﻭ ﻟﻴﻨﮑﻬﺎ – ﺑﺎ ﺩﺭ ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﺧﺼﻮﺻﻴﺎﺕ ﻭ ﻣﻘﺎﺩﻳﺮ ﺧﺼﻮﺻﻴﺎﺕ‬
                                       ‫• ﺭﺗﺒﻪ ﺑﻨﺪﯼ ﻋﻨﺎﺻﺮ ﺩﺭ ﻫﺮ ﺧﻮﺷﻪ ﻭ ﺍﺭﺍﺋﻪ ﺭﻭﺵ ﺭﺗﺒﻪ ﺑﻨﺪﯼ‬

                                                                                            ‫ﺯﻳﺮ ﻣﺴﺎﻟﻪ:‬   ‫•‬
                                                                               ‫• ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﻨﺎﺑﻊ‬
                                ‫• ﻧﻴﺎﺯ ﺑﻪ ﺩﺍﺷﺘﻦ ﺍﻟﮕﻮﺭﻳﺘﻤﯽ ﺗﻮﺍﻧﺎ ﺟﻬﺖ ﻳﺎﻓﺘﻦ ﻣﻴﺰﺍﻥ ﺗﺸﺎﺑﻪ ﺩﻭ ﺍﻳﺘﻢ‬

                                                                                           ‫ﺑﻨﺎﺑﺮﺍﻳﻦ‬      ‫•‬
             ‫ﺑﻪ ﭼﻪ ﺷﮑﻞ ﻣﯽ ﺗﻮﺍﻥ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﻣﻨﺎﺑﻊ ﻣﺨﺘﻠﻒ ﺩﺭ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ ﺭﺍ ﺍﻧﺪﺍﺯﻩ ﮔﻴﺮﯼ ﮐﺮﺩ؟‬       ‫•‬

‫8‬                                     ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                      ‫62/7/0931‬
‫ﻣﺴﺎﻟﻪ )ﺍﺩﺍﻣﻪ (‬

‫• ﻣﯽ ﺗﻮﺍﻥ ﮔﺮﺍﻑ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ ﺭﺍ ﺑﻪ ﻳﮏ ﮔﺮﺍﻑ ﺟﻬﺖ ﺩﺍﺭ ﺗﺒﺪﻳﻞ ﮐﺮﺩ ﻭ ﺳﭙﺲ ﺍﺯ ﺭﻭﺷﻬﺎﯼ ﻣﺒﺘﻨﯽ ﺑﺮ ﮔﺮﺍﻑ‬
                                                                                    ‫ﺍﺳﺘﻔﺎﺩﻩ ﮐﺮﺩ.‬

                             ‫ﺑﻨﺎﺑﺮﺍﻳﻦ ﻣﺴﺎﻟﻪ ﺍﺻﻠﯽ ﺗﺒﺪﻳﻞ ﺑﻪ ﻳﺎﻓﺘﻪ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺩﺭ ﮔﺮﺍﻑ ﺟﻬﺖ ﺩﺍﺭ ﺍﺳﺖ‬          ‫•‬

                                                                ‫ﻣﺜﺎﻝ: ﮔﺮﺍﻓﯽ ﺍﺳﺘﺨﺮﺍﺝ ﺷﺪﻩ ﺍﺯ ﺩﻱ ﺑﯽ ﭘﺪﻳﺎ‬    ‫•‬




‫9‬                                  ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                         ‫62/7/0931‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬

                                         ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬    ‫•‬

                                                 ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬     ‫•‬

                                                      ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬     ‫•‬

                                          ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬      ‫•‬

                                                       ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬     ‫•‬

                                             ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬      ‫•‬

                                                       ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬      ‫•‬

                                                        ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬   ‫•‬


‫01‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                          ‫62/7/0931‬
‫ﺭﺍﻩ ﺣﻞ ﺍﻭﻝ: ‪SimRank‬‬
         ‫ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﻫﺴﺘﻨﺪ ﺍﮔﺮ ﻧﻮﺩﻫﺎﯼ ﻭﺭﻭﺩﯼ ﺁﻥ ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﺑﺎﺷﻨﺪ‬    ‫•‬




‫11‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                    ‫62/7/0931‬
‫ﺭﺍﻩ ﺣﻞ ﺩﻭﻡ: ‪BipartiteRank‬‬
        ‫ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﻫﺴﺘﻨﺪ ﺍﮔﺮ ﻧﻮﺩﻫﺎﯼ ﺧﺮﻭﺟﯽ ﺁﻥ ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﺑﺎﺷﻨﺪ‬    ‫•‬




‫21‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                   ‫62/7/0931‬
‫ﺭﺍﻩ ﺣﻞ ﺳﻮﻡ: ‪PRank‬‬
     ‫ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﻫﺴﺘﻨﺪ ﺍﮔﺮ ﻧﻮﺩﻫﺎﯼ ﺧﺮﻭﺟﯽ ﻭ ﻭﺭﻭﺩﯼ ﺁﻥ ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﺑﺎﺷﻨﺪ‬    ‫•‬




‫31‬         ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                  ‫62/7/0931‬
‫ﻣﺸﮑﻼﺕ ﺭﺍﻩ ﺣﻠﻬﺎﯼ ﻗﺒﻠﯽ‬

                         ‫ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ >‪ <a,b‬ﻣﺸﺎﺑﻪ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ >‪ <b,a‬ﺍﺳﺖ.‬          ‫•‬

                                       ‫ﺗﻌﺪﺍﺩ ﺷﺒﺎﻫﺖ ﻫﺎﯼ ﺑﺪﺳﺖ ﺁﻣﺪﻩ ﺑﺴﻴﺎﺭ ﮐﻢ ﺍﺳﺖ.‬   ‫•‬

     ‫ﺑﺮﺍﯼ ﺍﺣﺮﺍﺯ ﺷﺮﺍﻳﻂ ﺷﺒﺎﻫﺖ، ﻻﺯﻡ ﺍﺳﺖ ﺟﺮﻳﺎﻥ ﻭﺭﻭﺩﻱ ﻳﺎ ﺧﺮﻭﺟﻲ ﻣﺸﺎﺑﻪ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ.‬     ‫•‬




‫41‬                      ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                   ‫62/7/0931‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬

                                         ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬    ‫•‬

                                                 ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬     ‫•‬

                                                      ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬     ‫•‬

                                          ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬      ‫•‬

                                                       ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬     ‫•‬

                                             ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬      ‫•‬

                                                       ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬      ‫•‬

                                                        ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬   ‫•‬


‫51‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                          ‫62/7/0931‬
‫ﺭﺍﻩ ﺣﻞ ﭘﻴﺸﻨﻬﺎﺩﯼ‬

               ‫ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺩﻭ ﻧﻮﺩ ﺩﺭ ﻳﮏ ﮔﺮﺍﻑ ﺟﻬﺖ ﺩﺍﺭ ﺑﻪ ﻣﻮﺍﺭﺩ ﺯﻳﺮ ﻭﺍﺑﺴﺘﻪ ﺍﺳﺖ‬        ‫•‬
                                             ‫• ﺗﻌﺪﺍﺩ ﻣﺴﻴﺮﻫﺎﯼ ﮐﻮﺗﺎﻩ ﺑﻴﻦ ﺩﻭ ﻧﻮﺩ‬
                                              ‫• ﻃﻮﻝ ﻣﺴﻴﺮﻫﺎﯼ ﮐﻮﺗﺎﻩ ﺑﻴﻦ ﺩﻭ ﻧﻮﺩ‬

     ‫ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺑﻴﻦ >‪<C,M‬ﺩﺭ ﺩﺳﺘﺮﺱ ﻧﻴﺴﺖ ﭼﺮﺍ ﮐﻪ ﻣﺴﻴﺮﯼ ﺑﻴﻦ ﺁﻧﻬﺎ ﻭﺟﻮﺩ ﻧﺪﺍﺭﺩ.‬           ‫•‬

                                                         ‫>‪ <M,C‬ﺑﺎﻳﺪ ﺷﺒﻴﻪ ﺑﺎﺷﻨﺪ.‬     ‫•‬

                                           ‫• ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺑﻴﻦ >‪ <M,C‬ﺑﺎﻳﺪ ﺍﺯ>‪<M,K‬‬
                                                                       ‫ﺑﻴﺸﺘﺮ ﺑﺎﺷﺪ.‬




‫61‬                ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                     ‫62/7/0931‬
‫ﻣﺪﻝ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ‬

                                                                                          ‫‪PPa,b‬‬            ‫•‬
‫• ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ ﺍﺣﺘﻤﺎﻝ ﺭﺳﻴﺪﻥ ﺍﺯ ﻧﻮﺩ ‪ a‬ﺑﻪ ﻧﻮﺩ ‪ b‬ﺑﻪ ﻓﺮﺽ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﺴﻴﺮﻫﺎﯼ ﺑﻪ ﻃﻮﻝ ‪ P‬ﻭ ﺑﻪ ﺻﻮﺭﺕ ﺯﻳﺮ‬
                                                                                ‫ﺗﻌﺮﻳﻒ ﻣﯽ ﺷﻮﺩ.‬



                                                                                   ‫‪Access Value‬‬            ‫•‬
                       ‫• ﺭﺳﻴﺪﻥ ﺍﺯ ﻧﻮﺩ ‪ a‬ﺑﻪ ﻧﻮﺩ ‪ b‬ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻫﻤﻪ ﻃﻮﻝ ﻣﺴﻴﺮﻫﺎ ﻭ ﺩﺍﺩﻥ ﻭﺯﻥ ﺑﻪ ﻣﺴﻴﺮﻫﺎ‬



‫ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻫﻤﻪ ﻃﻮﻝ ﻣﺴﻴﺮﻫﺎ ﺑﺴﻴﺎﺭ ﻫﺰﻳﻨﻪ ﺑﺮ ﺍﺳﺖ ﻭ ﺑﻨﺎﺑﺮﺍﻳﻦ ﺍﺯ ﺭﺍﺑﻄﻪ ﺯﻳﺮ ﺗﺨﻤﻴﻨﯽ ﺍﺯ ﺭﺍﺑﻄﻪ ﺑﺎﻻ ﺑﺪﺳﺖ ﺧﻮﺍﻫﺪ ﺁﻣﺪ‬    ‫•‬

                                                                                                           ‫•‬



 ‫71‬                                    ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                       ‫62/7/0931‬
‫ﻣﺪﻝ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ )ﺍﺩﺍﻣﻪ(‬

     ‫ﺿﺮﺍﻳﺐ ﻣﺴﻴﺮ ﺑﻪ ﻃﻮﻝ ‪ P‬ﺩﺭ ﺣﻮﺯﻩ ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺑﻪ ﺻﻮﺭﺕ ﺯﻳﺮ ﺍﻧﺘﺴﺎﺏ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ.‬    ‫•‬



                     ‫ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﺩﻭ ﻧﻮﺩ ‪ a‬ﻭ ‪ b‬ﺑﻪ ﺻﻮﺭﺕ ﺯﻳﺮ ﭘﻴﺸﻨﻬﺎﺩ ﻣﯽ ﺷﻮﺩ‬   ‫•‬

                                                                               ‫•‬




‫81‬                       ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                ‫62/7/0931‬
‫ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﺒﺘﻨﯽ ﺑﺮ ﻣﺪﻝ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺭﺍﻩ ﺣﻞ ﭘﻴﺸﻨﻬﺎﺩﯼ‬
                                               ‫1. ﺍﻳﺠﺎﺩ ﺧﻮﺷﻪ ﻫﺎﯼ ﺩﻭ ﻣﻨﺒﻌﯽ‬
                                     ‫2. ﺍﺩﻏﺎﻡ ﺩﻭ ﺧﻮﺷﻪ ﺑﺎ ﺑﺎﻻﺗﺮﻳﻦ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ‬
                        ‫3. ﺗﻮﻗﻒ ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺩﺭ ﺻﻮﺭﺕ ﺭﺳﻴﺪﻥ ﺑﻪ ﻣﻘﺪﺍﺭ ﺁﺳﺘﺎﻧﻪ‬




‫91‬       ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                      ‫62/7/0931‬
‫ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﺒﺘﻨﯽ ﺑﺮ ﻣﺪﻝ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺭﺍﻩ ﺣﻞ ﭘﻴﺸﻨﻬﺎﺩﯼ‬
‫ﺑﺮﺍﯼ ﺍﻳﺠﺎﺩ ﺧﻮﺷﻪ ﻫﺎﯼ ﺩﻭ ﻣﻨﺒﻌﯽ، ﺍﺯ ﺗﻮﺍﺑﻊ ﻣﺠﻤﻮﻉ، ﻣﺎﮐﺰﻳﻤﻢ، ﺗﻌﺪﺍﺩ، ﻣﻴﻨﻴﻤﻢ ﻭ ﻣﻴﺎﻧﮕﻴﻦ ﻣﯽ ﺗﻮﺍﻥ ﺍﺳﺘﻔﺎﺩﻩ ﻧﻤﻮﺩ.‬    ‫‪‬‬




     ‫ﺩﺭ ﭘﻴﺎﺩﻩ ﺳﺎﺯﯼ ﺻﻮﺭﺕ ﮔﺮﻓﺘﻪ، ﺍﺯ ﺗﺎﺑﻊ ﻣﺠﻤﻮﻉ ﺑﺮﺍﯼ ﻣﺤﺎﺳﺒﻪ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﺩﻭ ﻧﻮﺩ ﺍﺳﺘﻔﺎﺩﻩ ﺷﺪﻩ ﺍﺳﺖ.‬        ‫‪‬‬


                        ‫ﻓﺮﻣﻮﻝ ﺯﻳﺮ ﺑﺮﺍﯼ ﺗﺮﮐﻴﺐ ﺩﻭ ﮐﻼﺳﺘﺮ ﺩﺭ ﻣﺮﺣﻠﻪ ﺩﻭﻡ ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺍﺳﺘﻔﺎﺩﻩ ﺷﺪﻩ ﺍﺳﺖ.‬           ‫‪‬‬




‫02‬                                   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                      ‫62/7/0931‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬

                                         ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬    ‫•‬

                                                 ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬     ‫•‬

                                                      ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬     ‫•‬

                                          ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬      ‫•‬

                                                       ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬     ‫•‬

                                             ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬      ‫•‬

                                                       ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬      ‫•‬

                                                        ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬   ‫•‬


‫12‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                          ‫62/7/0931‬
‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬
‫• ﺍﺯ ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺩﯼ ﺑﯽ ﭘﺪﻳﺎ ﺑﺮﺍﯼ ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﻨﺎﺑﻊ ﺍﺳﺘﻔﺎﺩﻩ ﺷﺪﻩ ﺍﺳﺖ. ﮐﻪ ﺩﺭ ﺣﺎﻝ ﺣﺎﺿﺮ ﺑﺎﻟﻎ ﺑﺮ 6.1 ﻣﻴﻠﻴﻮﻥ‬
                                                                                         ‫ﻣﻮﺟﻮﺩﻳﺖ ﺩﺍﺭﺩ‬
               ‫• ﺑﺎﻟﻎ ﺑﺮ 063 ﻫﺰﺍﺭ ﺍﺯ ﻣﻨﺎﺑﻊ ﺩﯼ ﺑﯽ ﭘﺪﻳﺎ، ﺍﻓﺮﺍﺩ ﺭﺍ ﺗﻮﺻﻴﻒ ﻣﯽ ﮐﻨﻨﺪ. ﮐﻪ ﺍﻳﻦ ﺍﻓﺮﺍﺩ ﺗﻮﺳﻂ ﻟﻴﻨﮏ‬
                                                     ‫‪ Wikipageredirect‬ﺑﻪ ﻫﻤﺪﻳﮕﺮ ﺍﺷﺎﺭﻩ ﻣﯽ ﮐﻨﻨﺪ.‬

                                ‫ﻣﻨﺎﺑﻊ ﺗﻮﺳﻂ ﻟﻴﻨﮏ ‪ Wordnet‬ﺑﻪ ﺁﻧﺘﻮﻟﻮﮊﯼ ﺯﺑﺎﻧﯽ ﻭﺭﺩﻧﺖ ﻟﻴﻨﮏ ﺩﺍﺷﺘﻪ ﺍﻧﺪ.‬         ‫•‬

     ‫ﺍﺯ ﮐﻞ ﻣﻨﺎﺑﻊ ﺍﻓﺮﺍﺩ ﻣﻮﺟﻮﺩ ﺩﺭ ﺩﯼ ﺑﯽ ﭘﺪﻳﺎ ﺗﻨﻬﺎ 021 ﻫﺰﺍﺭ ﻋﺪﺩ ﺍﺯ ﺁﻧﻬﺎ ﺣﺎﻭﯼ ﻣﻘﺪﺍﺭ ﺑﺮﺍﯼ ﺍﻳﻦ ﻟﻴﻨﮏ ﻫﺴﺘﻨﺪ.‬    ‫•‬

                                                   ‫ﺍﻓﺮﺍﺩ ﺩﺭ ﺩﯼ ﺑﯽ ﭘﺪﻳﺎ، ﺑﻪ 03 ﮐﻼﺱ ﺩﺳﺘﻪ ﺑﻨﺪﯼ ﺷﺪﻩ ﺍﻧﺪ.‬    ‫•‬

                              ‫ﻫﺪﻑ ﺍﺯ ﺧﻮﺷﻪ ﺑﻨﺪﯼ، ﺗﻮﻟﻴﺪ ﻫﻤﻴﻦ ﮐﻼﺳﻬﺎ ﺑﺪﻭﻥ ﺩﺭ ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻟﻴﻨﮏ ﻭﺭﺩﻧﺖ‬           ‫•‬

 ‫• ﺑﻌﺪ ﺍﺯ ﻓﻴﻠﺘﺮﻳﻨﮓ ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺍﯼ ﺍﺳﺘﺎﻧﺪﺍﺭﺩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ ﮐﻪ ﻧﺴﺨﻪ ﺍﯼ ﺍﺯ ﺁﻥ ﺩﺭ ﻭﺏ ﺑﺮﺍﯼ ﺍﺳﺘﻔﺎﺩﻩ ﻫﺎﯼ ﺑﻌﺪﯼ‬
                                                                                ‫ﺍﻧﺘﺸﺎﺭ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ.‬



‫22‬                                    ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                     ‫62/7/0931‬
‫ﺗﻮﺯﻳﻊ ﮐﻼﺱ ﺍﻓﺮﺍﺩ ﺩﺭ ﻭﺭﺩﻧﺖ‬




‫32‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬               ‫62/7/0931‬
‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ )ﺍﺩﺍﻣﻪ(‬
                                                                 ‫•‬




‫42‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬               ‫62/7/0931‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬

                                         ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬    ‫•‬

                                                 ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬     ‫•‬

                                                      ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬     ‫•‬

                                          ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬      ‫•‬

                                                       ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬     ‫•‬

                                             ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬      ‫•‬

                                                       ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬      ‫•‬

                                                        ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬   ‫•‬


‫52‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                          ‫62/7/0931‬
‫ﻣﺘﺪﻫﺎﯼ ﺍﺭﺯﻳﺎﺑﯽ‬
                                                                                ‫ﺁﻧﺘﺮﻭﭘﻲ:‬      ‫•‬
       ‫• ﻋﺪﺩﯼ ﺍﺳﺖ ﮐﻪ ﻧﺸﺎﻥ ﺩﻫﻨﺪﻩ ﺍﻳﻦ ﺍﺳﺖ ﮐﻪ ﻋﻀﻮﻫﺎﯼ ﻳﮏ ﮐﻼﺳﺘﺮ ﺑﻪ ﻳﮏ ﮐﻼﺱ ﺗﻨﻬﺎ ﺗﻌﻠﻖ ﺩﺍﺭﻧﺪ‬




                                                                               ‫ﺩﻗﺖ:‬           ‫•‬
                       ‫• ﺩﺭﺻﺪﯼ ﺍﺯ ﻳﮏ ﮐﻼﺳﺘﺮ ﺍﺳﺖ ﮐﻪ ﺷﺎﻣﻞ ﺍﺷﻴﺎﺀ ﺍﺯ ﻳﮏ ﮐﻼﺱ ﻣﺸﺨﺺ ﺑﺎﺷﺪ.‬



                                                                                  ‫ﺑﺎﺯﻳﺎﺑﯽ‬     ‫•‬
‫• ﻋﺪﺩﻱ ﺍﺳﺖ ﮐﻪ ﻧﺸﺎﻥ ﺩﻫﻨﺪﻩ ﺍﻳﻦ ﺍﺳﺖ ﮐﻪ ﺍﻋﻀﺎﻱ ﻳﮏ ﮐﻼﺱ، ﺩﺭ ﻳﮏ ﮐﻼﺳﺘﺮ ﺑﺎ ﻫﻤﺪﻳﮕﺮ ﻭﺍﻗﻊ ﻣﯽ ﺷﻮﻧﺪ‬

                                                                           ‫‪F-Measure‬‬          ‫•‬
                                                                                              ‫•‬


  ‫62‬                              ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬               ‫62/7/0931‬
‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬

                                         ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬    ‫•‬

                                                 ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬     ‫•‬

                                                      ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬     ‫•‬

                                          ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬      ‫•‬

                                                       ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬     ‫•‬

                                             ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬      ‫•‬

                                                       ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬      ‫•‬

                                                        ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬   ‫•‬


‫72‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                          ‫62/7/0931‬
‫‪Top 5 Similar at SRi‬‬
                                                             ‫•‬




‫82‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬           ‫62/7/0931‬
‫ﻧﺘﺎﻳﺞ ﻣﻘﺎﻳﺴﻪ ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺑﺎ ﺭﻭﺷﻬﺎﯼ ﻗﺒﻠﯽ‬
                                                          ‫•‬




‫92‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬        ‫62/7/0931‬
‫ﻧﺘﺎﻳﺞ ﺑﻪ ﺻﻮﺭﺕ ﮔﺮﺍﻑ‬
                                                                 ‫•‬




‫03‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬               ‫62/7/0931‬
‫ﻧﺘﺎﻳﺞ ﺑﻪ ﺻﻮﺭﺕ ﮔﺮﺍﻑ‬
                                                                 ‫•‬




‫13‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬               ‫62/7/0931‬
‫ﮐﺎﺭﺑﺮﺩ ﻣﺴﺎﻟﻪ ﻣﻮﺭﺩ ﻧﻈﺮ‬

                                 ‫ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﻨﺎﺑﻊ ﻭ ﺳﺎﺯﻣﺎﻧﺪﻫﯽ ﺁﻧﻬﺎ ﺩﺭ ﺧﻮﺷﻪ ﻫﺎﯼ ﻣﺮﺗﺒﻂ‬         ‫•‬

                                      ‫ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﻘﺎﺩﻳﺮ ﺷﺒﺎﻫﺖ ﺑﺮﺍﯼ ﭘﻴﺸﻨﻬﺎﺩ ﻣﻨﺎﺑﻊ ﻣﺮﺗﺒﻂ ﺗﺮ‬   ‫•‬

                              ‫ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﻘﺎﺩﻳﺮ ﺷﺒﺎﻫﺖ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻘﺎﺩﻳﺮ ﻟﻴﻨﮏ ﺩﻳﮕﺮ ﻣﻨﺎﺑﻊ‬     ‫•‬

     ‫ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﻘﺎﺩﻳﺮ ﺷﺒﺎﻫﺖ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻘﺪﺍﺭ ﻟﻴﻨﮏ ‪ wordnet_type‬ﻣﻨﺎﺑﻊ ﺩﯼ ﺑﯽ ﭘﺪﻳﺎ‬            ‫•‬




‫23‬                    ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                         ‫62/7/0931‬
‫ﮐﺎﺭﺑﺮﺩ ﺩﺭ ﺷﺒﮑﻪ ﻫﺎﯼ ﺍﺟﺘﻤﺎﻋﯽ‬
               ‫ﺭﻭﺷﻲ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﻣﻨﺎﺑﻊ ﺩﺭ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ ﺍﺭﺍﺋﻪ ﺷﺪﻩ ﺍﺳﺖ‬        ‫•‬
                           ‫ﺗﻌﺪﺍﺩ ﺩﻭﺳﺖ ﻣﺸﺘﺮﮎ ﻫﺎﺩﯼ ﺑﺎ ﺑﻘﻴﻪ ﺍﻓﺮﺍﺩ ﺑﻪ ﺻﻮﺭﺕ ﺯﻳﺮ ﺍﺳﺖ‬            ‫•‬
                                                           ‫• ﻫﺎﺩﯼ- ﺷﻴﺮﻭﺍﻥ 64‬
                                                             ‫• ﻫﺎﺩﯼ- ﺍﻣﻴﺪ 34‬
                                                        ‫• ﻫﺎﺩﯼ -ﮐﺎﻇﻤﯽ ﻓﺮﺩ 32‬
                                                             ‫• ﻫﺎﺩﯼ- ﺍﺣﻤﺪ 21‬
                                                               ‫• ﻫﺎﺩﯼ-ﻧﺎﻭﻳﻦ 3‬

                                                          ‫ﺁﻳﺎ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﻫﺎﺩﯼ ﺑﺎ ﺍﻓﺮﺍﺩ‬
     ‫3‬    ‫64‬
                                                          ‫ﺩﺭ ﺩﻧﻴﺎﯼ ﻭﺍﻗﻌﯽ ﺑﻪ ﻫﻤﻴﻦ ﺷﮑﻞ‬
                 ‫34‬                                                ‫ﺍﺳﺖ؟؟؟؟؟؟؟؟؟؟؟؟؟؟‬
     ‫32‬
               ‫21‬




‫33‬                    ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                       ‫62/7/0931‬
‫ﻧﺘﻴﺠﻪ ﮔﻴﺮﯼ ﻭ ﮐﺎﺭﻫﺎﯼ ﺁﻳﻨﺪﻩ‬


        ‫ﺭﻭﺷﻲ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﻣﻨﺎﺑﻊ ﺩﺭ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ ﺍﺭﺍﺋﻪ ﺷﺪﻩ ﺍﺳﺖ‬    ‫•‬

                          ‫ﺍﻋﻤﺎﻝ ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺑﺮ ﺭﻭﯼ ﮔﺮﺍﻑ ﺷﺒﮑﻪ ﻫﺎﯼ ﺍﺟﺘﻤﺎﻋﯽ‬      ‫•‬

     ‫ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﺘﺪﻫﺎﻳﻲ ﻫﻤﭽﻮﻥ ﺷﺒﮑﻪ ﻫﺎﯼ ﻋﺼﺒﯽ ﺑﺮﺍﯼ ﺍﻧﺘﺴﺎﺏ ﻣﻘﺪﺍﺭ ﺩﻗﻴﻖ ﻭﺯﻥ ﻫﺎ‬      ‫•‬
                         ‫• ﺩﺭ ﻫﺮ ﺣﻮﺯﻩ ﺑﻪ ﺻﻮﺭﺕ ﺟﺪﺍﮔﺎﻧﻪ ﺑﺎﻳﺪ ﺍﻋﻤﺎﻝ ﺷﻮﺩ‬

          ‫ﺍﺭﺍﺋﻪ ﻳﮏ ﻣﺘﺪ ﻋﻤﻮﻣﯽ ﺩﺍﺭﺍﯼ ﻗﺎﺑﻠﻴﺖ ﺳﻔﺎﺭﺷﯽ ﺷﺪﻥ ﺑﺮﺍﯼ ﻫﺮ ﺣﻮﺯﻩ ﺧﺎﺹ‬          ‫•‬




‫43‬            ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬                    ‫62/7/0931‬
‫ﺑﺎ ﺗﺸﮑﺮ ﺍﺯ ﺣﺴﻦ ﺗﻮﺟﻪ ﺷﻤﺎ‬




‫53‬   ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬   ‫62/7/0931‬

Mais conteúdo relacionado

Mais procurados

جلسه 29 - تأملی درباره‌ی مفاهیم هوش مصنوعی یادگیری ماشین یادگیری عمیق - ناصر ...
جلسه 29 - تأملی درباره‌ی مفاهیم هوش مصنوعی یادگیری ماشین یادگیری عمیق - ناصر ...جلسه 29 - تأملی درباره‌ی مفاهیم هوش مصنوعی یادگیری ماشین یادگیری عمیق - ناصر ...
جلسه 29 - تأملی درباره‌ی مفاهیم هوش مصنوعی یادگیری ماشین یادگیری عمیق - ناصر ...Tabriz OpenTalks / جلسات باز تبریز
 
Process Mining with example
Process Mining with exampleProcess Mining with example
Process Mining with exampleBenyamin Salimi
 
ﺗﺤﻠﯿﻞ ﭘﯿﺎده ﺳﺎزي و اﺳﺘﻔﺎده از ﻣﺪل ﺳﺎزي اﻃﻼﻋﺎت ﺳﺎﺧﺘﻤﺎن درﺻﻨﻌﺖ ﺳﺎﺧﺖ اﯾﺮان برپای...
ﺗﺤﻠﯿﻞ ﭘﯿﺎده ﺳﺎزي و اﺳﺘﻔﺎده از ﻣﺪل ﺳﺎزي اﻃﻼﻋﺎت ﺳﺎﺧﺘﻤﺎن درﺻﻨﻌﺖ ﺳﺎﺧﺖ اﯾﺮان برپای...ﺗﺤﻠﯿﻞ ﭘﯿﺎده ﺳﺎزي و اﺳﺘﻔﺎده از ﻣﺪل ﺳﺎزي اﻃﻼﻋﺎت ﺳﺎﺧﺘﻤﺎن درﺻﻨﻌﺖ ﺳﺎﺧﺖ اﯾﺮان برپای...
ﺗﺤﻠﯿﻞ ﭘﯿﺎده ﺳﺎزي و اﺳﺘﻔﺎده از ﻣﺪل ﺳﺎزي اﻃﻼﻋﺎت ﺳﺎﺧﺘﻤﺎن درﺻﻨﻌﺖ ﺳﺎﺧﺖ اﯾﺮان برپای...amri k
 
Fo it 94-3-it workers
Fo it 94-3-it workersFo it 94-3-it workers
Fo it 94-3-it workersmb_dadkhah
 

Mais procurados (6)

جلسه 29 - تأملی درباره‌ی مفاهیم هوش مصنوعی یادگیری ماشین یادگیری عمیق - ناصر ...
جلسه 29 - تأملی درباره‌ی مفاهیم هوش مصنوعی یادگیری ماشین یادگیری عمیق - ناصر ...جلسه 29 - تأملی درباره‌ی مفاهیم هوش مصنوعی یادگیری ماشین یادگیری عمیق - ناصر ...
جلسه 29 - تأملی درباره‌ی مفاهیم هوش مصنوعی یادگیری ماشین یادگیری عمیق - ناصر ...
 
Homhub
HomhubHomhub
Homhub
 
Process Mining with example
Process Mining with exampleProcess Mining with example
Process Mining with example
 
ﺗﺤﻠﯿﻞ ﭘﯿﺎده ﺳﺎزي و اﺳﺘﻔﺎده از ﻣﺪل ﺳﺎزي اﻃﻼﻋﺎت ﺳﺎﺧﺘﻤﺎن درﺻﻨﻌﺖ ﺳﺎﺧﺖ اﯾﺮان برپای...
ﺗﺤﻠﯿﻞ ﭘﯿﺎده ﺳﺎزي و اﺳﺘﻔﺎده از ﻣﺪل ﺳﺎزي اﻃﻼﻋﺎت ﺳﺎﺧﺘﻤﺎن درﺻﻨﻌﺖ ﺳﺎﺧﺖ اﯾﺮان برپای...ﺗﺤﻠﯿﻞ ﭘﯿﺎده ﺳﺎزي و اﺳﺘﻔﺎده از ﻣﺪل ﺳﺎزي اﻃﻼﻋﺎت ﺳﺎﺧﺘﻤﺎن درﺻﻨﻌﺖ ﺳﺎﺧﺖ اﯾﺮان برپای...
ﺗﺤﻠﯿﻞ ﭘﯿﺎده ﺳﺎزي و اﺳﺘﻔﺎده از ﻣﺪل ﺳﺎزي اﻃﻼﻋﺎت ﺳﺎﺧﺘﻤﺎن درﺻﻨﻌﺖ ﺳﺎﺧﺖ اﯾﺮان برپای...
 
Fo it 94-3-it workers
Fo it 94-3-it workersFo it 94-3-it workers
Fo it 94-3-it workers
 
SDLC
SDLCSDLC
SDLC
 

Destaque

مقدمه ای بر داده های پيوندی
مقدمه ای بر داده های پيوندیمقدمه ای بر داده های پيوندی
مقدمه ای بر داده های پيوندیkhosravi82
 
Distributed Systems Tanenbaum Chapter 2
Distributed Systems Tanenbaum Chapter 2Distributed Systems Tanenbaum Chapter 2
Distributed Systems Tanenbaum Chapter 2Mahdi Eshraghi MHE
 
Structure attribute computation of similarities between nodes of a graph wit...
Structure attribute computation of similarities  between nodes of a graph wit...Structure attribute computation of similarities  between nodes of a graph wit...
Structure attribute computation of similarities between nodes of a graph wit...khosravi82
 
آینده وب از منظر داده های مکانی و سرویس های مبتنی بر نقشه
آینده وب از منظر داده های مکانی و سرویس های مبتنی بر نقشهآینده وب از منظر داده های مکانی و سرویس های مبتنی بر نقشه
آینده وب از منظر داده های مکانی و سرویس های مبتنی بر نقشهWeb Standards School
 
Role of Text Mining in Search Engine
Role of Text Mining in Search EngineRole of Text Mining in Search Engine
Role of Text Mining in Search EngineJay R Modi
 
Distributed web based systems
Distributed web based systemsDistributed web based systems
Distributed web based systemsReza Gh
 

Destaque (6)

مقدمه ای بر داده های پيوندی
مقدمه ای بر داده های پيوندیمقدمه ای بر داده های پيوندی
مقدمه ای بر داده های پيوندی
 
Distributed Systems Tanenbaum Chapter 2
Distributed Systems Tanenbaum Chapter 2Distributed Systems Tanenbaum Chapter 2
Distributed Systems Tanenbaum Chapter 2
 
Structure attribute computation of similarities between nodes of a graph wit...
Structure attribute computation of similarities  between nodes of a graph wit...Structure attribute computation of similarities  between nodes of a graph wit...
Structure attribute computation of similarities between nodes of a graph wit...
 
آینده وب از منظر داده های مکانی و سرویس های مبتنی بر نقشه
آینده وب از منظر داده های مکانی و سرویس های مبتنی بر نقشهآینده وب از منظر داده های مکانی و سرویس های مبتنی بر نقشه
آینده وب از منظر داده های مکانی و سرویس های مبتنی بر نقشه
 
Role of Text Mining in Search Engine
Role of Text Mining in Search EngineRole of Text Mining in Search Engine
Role of Text Mining in Search Engine
 
Distributed web based systems
Distributed web based systemsDistributed web based systems
Distributed web based systems
 

Srank shortest paths as distance between nodes of a graph with application in clustering

  • 1. ‫ﺩﺍﻧﺸﮕﺎﻩ ﺍﺻﻔﻬﺎﻥ‬ ‫ﺩﺍﻧﺸﮑﺪﻩ ﻓﻨﻲ ﻭ ﻣﻬﻨﺪﺳﻲ‬ ‫ﮔﺮﻭﻩ ﮐﺎﻣﭙﻴﻮﺗﺮ‬ ‫ﻣﺴﻴﺮﻫﺎﯼ ﮐﻮﺗﺎﻩ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﻧﻮﺩﻫﺎﯼ‬ ‫ﮔﺮﺍﻑ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ‬ ‫‪Shortest Paths as Similarity‬‬ ‫‪Measure Between Nodes of Graph‬‬ ‫‪Of Web of Data‬‬ ‫ﻣﺤﻘﻖ:‬ ‫ﺍﺳﺘﺎﺩ ﺭﺍﻫﻨﻤﺎ:‬ ‫ﻫﺎﺩﻱ ﺧﺴﺮﻭﻱ ﻓﺎﺭﺳﺎﻧﯽ‬ ‫ﺩﮐﺘﺮ ﻣﺤﻤﺪﻋﻠﯽ ﻧﻌﻤﺖ ﺑﺨﺶ‬ ‫1‬ ‫ﻣﻬﺮ 0931‬ ‫62/7/0931‬
  • 2. ‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬ ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬ ‫•‬ ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬ ‫•‬ ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬ ‫•‬ ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬ ‫•‬ ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫•‬ ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬ ‫•‬ ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫2‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 3. ‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬ ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬ ‫•‬ ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬ ‫•‬ ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬ ‫•‬ ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬ ‫•‬ ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫•‬ ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬ ‫•‬ ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫3‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 4. ‫ﺍﺻﻮﻝ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ )‪(Linked Data Principles‬‬ ‫• ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ‪ URI‬ﺑﺮﺍﯼ ﺷﻨﺎﺳﺎﻳﻲ ﻣﻨﺎﺑﻊ ﺩﺭ ﻭﺏ‬ ‫• ﺍﺯ ﭘﺮﻭﺗﮑﻞ ‪ HTTP‬ﺑﺮﺍﯼ ﺩﺳﺘﺮﺳﯽ ﺑﻪ ﺍﻳﻦ ﻧﺎﻣﻬﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺷﻮﺩ‬ ‫• ﻫﻨﮕﺎﻣﯽ ﮐﻪ ﻳﮏ ﻓﺮﺩ، ﺩﺭﺧﻮﺍﺳﺖ ﻳﮏ ‪ URI‬ﺭﺍ ﻣﯽ ﮐﻨﺪ، ﺗﻤﺎﻣﯽ ﺍﻃﻼﻋﺎﺕ ﻣﻔﻴﺪ ﺑﻪ ﻓﺮﻣﺖ ‪ RDF‬ﻧﺸﺎﻥ ﺩﺍﺩﻩ ﺷﻮﺩ‬ ‫• ﻋﺒﺎﺭﺗﻬﺎﯼ ‪ RDF‬ﻻﺯﻡ ﺍﺳﺖ ﺑﻪ ﺩﻳﮕﺮ ‪ URI‬ﻫﺎ ﺍﻧﻮﺍﻉ ﻣﺨﺘﻠﻒ ﻟﻴﻨﮏ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﺑﻪ ﺻﻮﺭﺗﯽ ﮐﻪ ﺍﻓﺮﺍﺩ ﻗﺎﺩﺭ ﺑﺎﺷﻨﺪ‬ ‫ﺍﻃﻼﻋﺎﺕ ﺑﻴﺸﺘﺮﯼ ﺩﺭ ﻣﻮﺭﺩ ﺁﻥ ﻣﻮﺟﻮﺩﻳﺖ ﮐﺴﺐ ﮐﻨﻨﺪ.‬ ‫4‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 5. ‫ﺗﻌﺮﻳﻒ ﻣﻨﺎﺑﻊ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺍﺻﻮﻝ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ )ﻣﺜﺎﻝ(‬ ‫‪http://dbpedia.org/page/Nigel_Clough‬‬ ‫5‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 6. ‫ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ : ﺩﺭ ﺣﺎﻝ ﺣﺎﺿﺮ‬ ‫•‬ ‫6‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬ ‫62/7/0931‬
  • 7. ‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬ ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬ ‫•‬ ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬ ‫•‬ ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬ ‫•‬ ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬ ‫•‬ ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫•‬ ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬ ‫•‬ ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫7‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 8. ‫ﻣﺴﺎﻟﻪ ﭘﺎﻳﺎﻥ ﻧﺎﻣﻪ ﻭ ﺯﻳﺮ ﻣﺴﺎﻳﻞ ﺁﻥ‬ ‫ﺭﺗﺒﻪ ﺑﻨﺪﯼ ﻣﻨﺎﺑﻊ ﺩﺭ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ ﺑﻪ ﭼﻪ ﺷﮑﻠﯽ ﺍﻧﺠﺎﻡ ﺷﻮﺩ .‬ ‫•‬ ‫ﺍﻳﺪﻩ:‬ ‫•‬ ‫• ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﻨﺎﺑﻊ ﻭ ﺳﭙﺲ ﺍﻋﻤﺎﻝ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﺭﺗﺒﻪ ﺑﻨﺪﯼ ﺩﺭ ﻫﺮ ﺧﻮﺷﻪ‬ ‫ﻓﺎﺯﻫﺎﯼ ﭘﺮﻭﮊﻩ‬ ‫•‬ ‫• ﺭﺗﺒﻪ ﺑﻨﺪﯼ ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﻫﺎ ﻭ ﻣﻮﺟﻮﺩﻳﺖ ﺩﺭ ﻫﺮ ‪dataset‬‬ ‫• ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺑﺎ ﺩﺭ ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻧﻮﺩﻫﺎ ﻭ ﻟﻴﻨﮑﻬﺎ - ﺑﺪﻭﻥ ﺩﺭ ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﺧﺼﻮﺻﻴﺎﺕ ﻭ ﻣﻘﺎﺩﻳﺮ ﺧﺼﻮﺻﻴﺎﺕ‬ ‫• ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺑﺎ ﺩﺭ ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻧﻮﺩﻫﺎ ﻭ ﻟﻴﻨﮑﻬﺎ – ﺑﺎ ﺩﺭ ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﺧﺼﻮﺻﻴﺎﺕ ﻭ ﻣﻘﺎﺩﻳﺮ ﺧﺼﻮﺻﻴﺎﺕ‬ ‫• ﺭﺗﺒﻪ ﺑﻨﺪﯼ ﻋﻨﺎﺻﺮ ﺩﺭ ﻫﺮ ﺧﻮﺷﻪ ﻭ ﺍﺭﺍﺋﻪ ﺭﻭﺵ ﺭﺗﺒﻪ ﺑﻨﺪﯼ‬ ‫ﺯﻳﺮ ﻣﺴﺎﻟﻪ:‬ ‫•‬ ‫• ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﻨﺎﺑﻊ‬ ‫• ﻧﻴﺎﺯ ﺑﻪ ﺩﺍﺷﺘﻦ ﺍﻟﮕﻮﺭﻳﺘﻤﯽ ﺗﻮﺍﻧﺎ ﺟﻬﺖ ﻳﺎﻓﺘﻦ ﻣﻴﺰﺍﻥ ﺗﺸﺎﺑﻪ ﺩﻭ ﺍﻳﺘﻢ‬ ‫ﺑﻨﺎﺑﺮﺍﻳﻦ‬ ‫•‬ ‫ﺑﻪ ﭼﻪ ﺷﮑﻞ ﻣﯽ ﺗﻮﺍﻥ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﻣﻨﺎﺑﻊ ﻣﺨﺘﻠﻒ ﺩﺭ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ ﺭﺍ ﺍﻧﺪﺍﺯﻩ ﮔﻴﺮﯼ ﮐﺮﺩ؟‬ ‫•‬ ‫8‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 9. ‫ﻣﺴﺎﻟﻪ )ﺍﺩﺍﻣﻪ (‬ ‫• ﻣﯽ ﺗﻮﺍﻥ ﮔﺮﺍﻑ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ ﺭﺍ ﺑﻪ ﻳﮏ ﮔﺮﺍﻑ ﺟﻬﺖ ﺩﺍﺭ ﺗﺒﺪﻳﻞ ﮐﺮﺩ ﻭ ﺳﭙﺲ ﺍﺯ ﺭﻭﺷﻬﺎﯼ ﻣﺒﺘﻨﯽ ﺑﺮ ﮔﺮﺍﻑ‬ ‫ﺍﺳﺘﻔﺎﺩﻩ ﮐﺮﺩ.‬ ‫ﺑﻨﺎﺑﺮﺍﻳﻦ ﻣﺴﺎﻟﻪ ﺍﺻﻠﯽ ﺗﺒﺪﻳﻞ ﺑﻪ ﻳﺎﻓﺘﻪ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺩﺭ ﮔﺮﺍﻑ ﺟﻬﺖ ﺩﺍﺭ ﺍﺳﺖ‬ ‫•‬ ‫ﻣﺜﺎﻝ: ﮔﺮﺍﻓﯽ ﺍﺳﺘﺨﺮﺍﺝ ﺷﺪﻩ ﺍﺯ ﺩﻱ ﺑﯽ ﭘﺪﻳﺎ‬ ‫•‬ ‫9‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 10. ‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬ ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬ ‫•‬ ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬ ‫•‬ ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬ ‫•‬ ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬ ‫•‬ ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫•‬ ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬ ‫•‬ ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫01‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 11. ‫ﺭﺍﻩ ﺣﻞ ﺍﻭﻝ: ‪SimRank‬‬ ‫ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﻫﺴﺘﻨﺪ ﺍﮔﺮ ﻧﻮﺩﻫﺎﯼ ﻭﺭﻭﺩﯼ ﺁﻥ ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﺑﺎﺷﻨﺪ‬ ‫•‬ ‫11‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 12. ‫ﺭﺍﻩ ﺣﻞ ﺩﻭﻡ: ‪BipartiteRank‬‬ ‫ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﻫﺴﺘﻨﺪ ﺍﮔﺮ ﻧﻮﺩﻫﺎﯼ ﺧﺮﻭﺟﯽ ﺁﻥ ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﺑﺎﺷﻨﺪ‬ ‫•‬ ‫21‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 13. ‫ﺭﺍﻩ ﺣﻞ ﺳﻮﻡ: ‪PRank‬‬ ‫ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﻫﺴﺘﻨﺪ ﺍﮔﺮ ﻧﻮﺩﻫﺎﯼ ﺧﺮﻭﺟﯽ ﻭ ﻭﺭﻭﺩﯼ ﺁﻥ ﺩﻭ ﻧﻮﺩ ﻣﺸﺎﺑﻪ ﺑﺎﺷﻨﺪ‬ ‫•‬ ‫31‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 14. ‫ﻣﺸﮑﻼﺕ ﺭﺍﻩ ﺣﻠﻬﺎﯼ ﻗﺒﻠﯽ‬ ‫ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ >‪ <a,b‬ﻣﺸﺎﺑﻪ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ >‪ <b,a‬ﺍﺳﺖ.‬ ‫•‬ ‫ﺗﻌﺪﺍﺩ ﺷﺒﺎﻫﺖ ﻫﺎﯼ ﺑﺪﺳﺖ ﺁﻣﺪﻩ ﺑﺴﻴﺎﺭ ﮐﻢ ﺍﺳﺖ.‬ ‫•‬ ‫ﺑﺮﺍﯼ ﺍﺣﺮﺍﺯ ﺷﺮﺍﻳﻂ ﺷﺒﺎﻫﺖ، ﻻﺯﻡ ﺍﺳﺖ ﺟﺮﻳﺎﻥ ﻭﺭﻭﺩﻱ ﻳﺎ ﺧﺮﻭﺟﻲ ﻣﺸﺎﺑﻪ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ.‬ ‫•‬ ‫41‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 15. ‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬ ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬ ‫•‬ ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬ ‫•‬ ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬ ‫•‬ ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬ ‫•‬ ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫•‬ ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬ ‫•‬ ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫51‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 16. ‫ﺭﺍﻩ ﺣﻞ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺩﻭ ﻧﻮﺩ ﺩﺭ ﻳﮏ ﮔﺮﺍﻑ ﺟﻬﺖ ﺩﺍﺭ ﺑﻪ ﻣﻮﺍﺭﺩ ﺯﻳﺮ ﻭﺍﺑﺴﺘﻪ ﺍﺳﺖ‬ ‫•‬ ‫• ﺗﻌﺪﺍﺩ ﻣﺴﻴﺮﻫﺎﯼ ﮐﻮﺗﺎﻩ ﺑﻴﻦ ﺩﻭ ﻧﻮﺩ‬ ‫• ﻃﻮﻝ ﻣﺴﻴﺮﻫﺎﯼ ﮐﻮﺗﺎﻩ ﺑﻴﻦ ﺩﻭ ﻧﻮﺩ‬ ‫ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺑﻴﻦ >‪<C,M‬ﺩﺭ ﺩﺳﺘﺮﺱ ﻧﻴﺴﺖ ﭼﺮﺍ ﮐﻪ ﻣﺴﻴﺮﯼ ﺑﻴﻦ ﺁﻧﻬﺎ ﻭﺟﻮﺩ ﻧﺪﺍﺭﺩ.‬ ‫•‬ ‫>‪ <M,C‬ﺑﺎﻳﺪ ﺷﺒﻴﻪ ﺑﺎﺷﻨﺪ.‬ ‫•‬ ‫• ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺑﻴﻦ >‪ <M,C‬ﺑﺎﻳﺪ ﺍﺯ>‪<M,K‬‬ ‫ﺑﻴﺸﺘﺮ ﺑﺎﺷﺪ.‬ ‫61‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 17. ‫ﻣﺪﻝ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ‬ ‫‪PPa,b‬‬ ‫•‬ ‫• ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ ﺍﺣﺘﻤﺎﻝ ﺭﺳﻴﺪﻥ ﺍﺯ ﻧﻮﺩ ‪ a‬ﺑﻪ ﻧﻮﺩ ‪ b‬ﺑﻪ ﻓﺮﺽ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﺴﻴﺮﻫﺎﯼ ﺑﻪ ﻃﻮﻝ ‪ P‬ﻭ ﺑﻪ ﺻﻮﺭﺕ ﺯﻳﺮ‬ ‫ﺗﻌﺮﻳﻒ ﻣﯽ ﺷﻮﺩ.‬ ‫‪Access Value‬‬ ‫•‬ ‫• ﺭﺳﻴﺪﻥ ﺍﺯ ﻧﻮﺩ ‪ a‬ﺑﻪ ﻧﻮﺩ ‪ b‬ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻫﻤﻪ ﻃﻮﻝ ﻣﺴﻴﺮﻫﺎ ﻭ ﺩﺍﺩﻥ ﻭﺯﻥ ﺑﻪ ﻣﺴﻴﺮﻫﺎ‬ ‫ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻫﻤﻪ ﻃﻮﻝ ﻣﺴﻴﺮﻫﺎ ﺑﺴﻴﺎﺭ ﻫﺰﻳﻨﻪ ﺑﺮ ﺍﺳﺖ ﻭ ﺑﻨﺎﺑﺮﺍﻳﻦ ﺍﺯ ﺭﺍﺑﻄﻪ ﺯﻳﺮ ﺗﺨﻤﻴﻨﯽ ﺍﺯ ﺭﺍﺑﻄﻪ ﺑﺎﻻ ﺑﺪﺳﺖ ﺧﻮﺍﻫﺪ ﺁﻣﺪ‬ ‫•‬ ‫•‬ ‫71‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 18. ‫ﻣﺪﻝ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ )ﺍﺩﺍﻣﻪ(‬ ‫ﺿﺮﺍﻳﺐ ﻣﺴﻴﺮ ﺑﻪ ﻃﻮﻝ ‪ P‬ﺩﺭ ﺣﻮﺯﻩ ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺑﻪ ﺻﻮﺭﺕ ﺯﻳﺮ ﺍﻧﺘﺴﺎﺏ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ.‬ ‫•‬ ‫ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﺩﻭ ﻧﻮﺩ ‪ a‬ﻭ ‪ b‬ﺑﻪ ﺻﻮﺭﺕ ﺯﻳﺮ ﭘﻴﺸﻨﻬﺎﺩ ﻣﯽ ﺷﻮﺩ‬ ‫•‬ ‫•‬ ‫81‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 19. ‫ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﺒﺘﻨﯽ ﺑﺮ ﻣﺪﻝ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺭﺍﻩ ﺣﻞ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫1. ﺍﻳﺠﺎﺩ ﺧﻮﺷﻪ ﻫﺎﯼ ﺩﻭ ﻣﻨﺒﻌﯽ‬ ‫2. ﺍﺩﻏﺎﻡ ﺩﻭ ﺧﻮﺷﻪ ﺑﺎ ﺑﺎﻻﺗﺮﻳﻦ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ‬ ‫3. ﺗﻮﻗﻒ ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺩﺭ ﺻﻮﺭﺕ ﺭﺳﻴﺪﻥ ﺑﻪ ﻣﻘﺪﺍﺭ ﺁﺳﺘﺎﻧﻪ‬ ‫91‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 20. ‫ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﺒﺘﻨﯽ ﺑﺮ ﻣﺪﻝ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺭﺍﻩ ﺣﻞ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫ﺑﺮﺍﯼ ﺍﻳﺠﺎﺩ ﺧﻮﺷﻪ ﻫﺎﯼ ﺩﻭ ﻣﻨﺒﻌﯽ، ﺍﺯ ﺗﻮﺍﺑﻊ ﻣﺠﻤﻮﻉ، ﻣﺎﮐﺰﻳﻤﻢ، ﺗﻌﺪﺍﺩ، ﻣﻴﻨﻴﻤﻢ ﻭ ﻣﻴﺎﻧﮕﻴﻦ ﻣﯽ ﺗﻮﺍﻥ ﺍﺳﺘﻔﺎﺩﻩ ﻧﻤﻮﺩ.‬ ‫‪‬‬ ‫ﺩﺭ ﭘﻴﺎﺩﻩ ﺳﺎﺯﯼ ﺻﻮﺭﺕ ﮔﺮﻓﺘﻪ، ﺍﺯ ﺗﺎﺑﻊ ﻣﺠﻤﻮﻉ ﺑﺮﺍﯼ ﻣﺤﺎﺳﺒﻪ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﺑﻴﻦ ﺩﻭ ﻧﻮﺩ ﺍﺳﺘﻔﺎﺩﻩ ﺷﺪﻩ ﺍﺳﺖ.‬ ‫‪‬‬ ‫ﻓﺮﻣﻮﻝ ﺯﻳﺮ ﺑﺮﺍﯼ ﺗﺮﮐﻴﺐ ﺩﻭ ﮐﻼﺳﺘﺮ ﺩﺭ ﻣﺮﺣﻠﻪ ﺩﻭﻡ ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﺍﺳﺘﻔﺎﺩﻩ ﺷﺪﻩ ﺍﺳﺖ.‬ ‫‪‬‬ ‫02‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 21. ‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬ ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬ ‫•‬ ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬ ‫•‬ ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬ ‫•‬ ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬ ‫•‬ ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫•‬ ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬ ‫•‬ ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫12‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 22. ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬ ‫• ﺍﺯ ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺩﯼ ﺑﯽ ﭘﺪﻳﺎ ﺑﺮﺍﯼ ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﻨﺎﺑﻊ ﺍﺳﺘﻔﺎﺩﻩ ﺷﺪﻩ ﺍﺳﺖ. ﮐﻪ ﺩﺭ ﺣﺎﻝ ﺣﺎﺿﺮ ﺑﺎﻟﻎ ﺑﺮ 6.1 ﻣﻴﻠﻴﻮﻥ‬ ‫ﻣﻮﺟﻮﺩﻳﺖ ﺩﺍﺭﺩ‬ ‫• ﺑﺎﻟﻎ ﺑﺮ 063 ﻫﺰﺍﺭ ﺍﺯ ﻣﻨﺎﺑﻊ ﺩﯼ ﺑﯽ ﭘﺪﻳﺎ، ﺍﻓﺮﺍﺩ ﺭﺍ ﺗﻮﺻﻴﻒ ﻣﯽ ﮐﻨﻨﺪ. ﮐﻪ ﺍﻳﻦ ﺍﻓﺮﺍﺩ ﺗﻮﺳﻂ ﻟﻴﻨﮏ‬ ‫‪ Wikipageredirect‬ﺑﻪ ﻫﻤﺪﻳﮕﺮ ﺍﺷﺎﺭﻩ ﻣﯽ ﮐﻨﻨﺪ.‬ ‫ﻣﻨﺎﺑﻊ ﺗﻮﺳﻂ ﻟﻴﻨﮏ ‪ Wordnet‬ﺑﻪ ﺁﻧﺘﻮﻟﻮﮊﯼ ﺯﺑﺎﻧﯽ ﻭﺭﺩﻧﺖ ﻟﻴﻨﮏ ﺩﺍﺷﺘﻪ ﺍﻧﺪ.‬ ‫•‬ ‫ﺍﺯ ﮐﻞ ﻣﻨﺎﺑﻊ ﺍﻓﺮﺍﺩ ﻣﻮﺟﻮﺩ ﺩﺭ ﺩﯼ ﺑﯽ ﭘﺪﻳﺎ ﺗﻨﻬﺎ 021 ﻫﺰﺍﺭ ﻋﺪﺩ ﺍﺯ ﺁﻧﻬﺎ ﺣﺎﻭﯼ ﻣﻘﺪﺍﺭ ﺑﺮﺍﯼ ﺍﻳﻦ ﻟﻴﻨﮏ ﻫﺴﺘﻨﺪ.‬ ‫•‬ ‫ﺍﻓﺮﺍﺩ ﺩﺭ ﺩﯼ ﺑﯽ ﭘﺪﻳﺎ، ﺑﻪ 03 ﮐﻼﺱ ﺩﺳﺘﻪ ﺑﻨﺪﯼ ﺷﺪﻩ ﺍﻧﺪ.‬ ‫•‬ ‫ﻫﺪﻑ ﺍﺯ ﺧﻮﺷﻪ ﺑﻨﺪﯼ، ﺗﻮﻟﻴﺪ ﻫﻤﻴﻦ ﮐﻼﺳﻬﺎ ﺑﺪﻭﻥ ﺩﺭ ﻧﻈﺮ ﮔﺮﻓﺘﻦ ﻟﻴﻨﮏ ﻭﺭﺩﻧﺖ‬ ‫•‬ ‫• ﺑﻌﺪ ﺍﺯ ﻓﻴﻠﺘﺮﻳﻨﮓ ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺍﯼ ﺍﺳﺘﺎﻧﺪﺍﺭﺩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ ﮐﻪ ﻧﺴﺨﻪ ﺍﯼ ﺍﺯ ﺁﻥ ﺩﺭ ﻭﺏ ﺑﺮﺍﯼ ﺍﺳﺘﻔﺎﺩﻩ ﻫﺎﯼ ﺑﻌﺪﯼ‬ ‫ﺍﻧﺘﺸﺎﺭ ﺩﺍﺩﻩ ﺷﺪﻩ ﺍﺳﺖ.‬ ‫22‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 23. ‫ﺗﻮﺯﻳﻊ ﮐﻼﺱ ﺍﻓﺮﺍﺩ ﺩﺭ ﻭﺭﺩﻧﺖ‬ ‫32‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 24. ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ )ﺍﺩﺍﻣﻪ(‬ ‫•‬ ‫42‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 25. ‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬ ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬ ‫•‬ ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬ ‫•‬ ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬ ‫•‬ ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬ ‫•‬ ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫•‬ ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬ ‫•‬ ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫52‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 26. ‫ﻣﺘﺪﻫﺎﯼ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫ﺁﻧﺘﺮﻭﭘﻲ:‬ ‫•‬ ‫• ﻋﺪﺩﯼ ﺍﺳﺖ ﮐﻪ ﻧﺸﺎﻥ ﺩﻫﻨﺪﻩ ﺍﻳﻦ ﺍﺳﺖ ﮐﻪ ﻋﻀﻮﻫﺎﯼ ﻳﮏ ﮐﻼﺳﺘﺮ ﺑﻪ ﻳﮏ ﮐﻼﺱ ﺗﻨﻬﺎ ﺗﻌﻠﻖ ﺩﺍﺭﻧﺪ‬ ‫ﺩﻗﺖ:‬ ‫•‬ ‫• ﺩﺭﺻﺪﯼ ﺍﺯ ﻳﮏ ﮐﻼﺳﺘﺮ ﺍﺳﺖ ﮐﻪ ﺷﺎﻣﻞ ﺍﺷﻴﺎﺀ ﺍﺯ ﻳﮏ ﮐﻼﺱ ﻣﺸﺨﺺ ﺑﺎﺷﺪ.‬ ‫ﺑﺎﺯﻳﺎﺑﯽ‬ ‫•‬ ‫• ﻋﺪﺩﻱ ﺍﺳﺖ ﮐﻪ ﻧﺸﺎﻥ ﺩﻫﻨﺪﻩ ﺍﻳﻦ ﺍﺳﺖ ﮐﻪ ﺍﻋﻀﺎﻱ ﻳﮏ ﮐﻼﺱ، ﺩﺭ ﻳﮏ ﮐﻼﺳﺘﺮ ﺑﺎ ﻫﻤﺪﻳﮕﺮ ﻭﺍﻗﻊ ﻣﯽ ﺷﻮﻧﺪ‬ ‫‪F-Measure‬‬ ‫•‬ ‫•‬ ‫62‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 27. ‫ﻓﻬﺮﺳﺖ ﻣﻄﺎﻟﺐ‬ ‫ﻣﻘﺪﻣﻪ ﺍﯼ ﺑﺮ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﻮﻧﺪﯼ‬ ‫•‬ ‫ﻣﺴﺎﻟﻪ ﮐﻠﯽ ﭘﺮﻭﭘﻮﺯﺍﻝ‬ ‫•‬ ‫ﻃﺮﺡ ﺯﻳﺮ ﻣﺴﺎﻟﻪ‬ ‫•‬ ‫ﺗﺎﺭﻳﺨﭽﻪ ﮐﺎﺭﻫﺎﯼ ﺍﻧﺠﺎﻡ ﺷﺪﻩ‬ ‫•‬ ‫ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ‬ ‫•‬ ‫ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺳﺎﺧﺘﻪ ﺷﺪﻩ‬ ‫•‬ ‫ﺭﻭﺵ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫ﻧﺘﺎﻳﺞ ﺍﺭﺯﻳﺎﺑﯽ‬ ‫•‬ ‫72‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 28. ‫‪Top 5 Similar at SRi‬‬ ‫•‬ ‫82‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 29. ‫ﻧﺘﺎﻳﺞ ﻣﻘﺎﻳﺴﻪ ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺑﺎ ﺭﻭﺷﻬﺎﯼ ﻗﺒﻠﯽ‬ ‫•‬ ‫92‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 30. ‫ﻧﺘﺎﻳﺞ ﺑﻪ ﺻﻮﺭﺕ ﮔﺮﺍﻑ‬ ‫•‬ ‫03‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 31. ‫ﻧﺘﺎﻳﺞ ﺑﻪ ﺻﻮﺭﺕ ﮔﺮﺍﻑ‬ ‫•‬ ‫13‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 32. ‫ﮐﺎﺭﺑﺮﺩ ﻣﺴﺎﻟﻪ ﻣﻮﺭﺩ ﻧﻈﺮ‬ ‫ﺧﻮﺷﻪ ﺑﻨﺪﯼ ﻣﻨﺎﺑﻊ ﻭ ﺳﺎﺯﻣﺎﻧﺪﻫﯽ ﺁﻧﻬﺎ ﺩﺭ ﺧﻮﺷﻪ ﻫﺎﯼ ﻣﺮﺗﺒﻂ‬ ‫•‬ ‫ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﻘﺎﺩﻳﺮ ﺷﺒﺎﻫﺖ ﺑﺮﺍﯼ ﭘﻴﺸﻨﻬﺎﺩ ﻣﻨﺎﺑﻊ ﻣﺮﺗﺒﻂ ﺗﺮ‬ ‫•‬ ‫ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﻘﺎﺩﻳﺮ ﺷﺒﺎﻫﺖ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻘﺎﺩﻳﺮ ﻟﻴﻨﮏ ﺩﻳﮕﺮ ﻣﻨﺎﺑﻊ‬ ‫•‬ ‫ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﻘﺎﺩﻳﺮ ﺷﺒﺎﻫﺖ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻘﺪﺍﺭ ﻟﻴﻨﮏ ‪ wordnet_type‬ﻣﻨﺎﺑﻊ ﺩﯼ ﺑﯽ ﭘﺪﻳﺎ‬ ‫•‬ ‫23‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 33. ‫ﮐﺎﺭﺑﺮﺩ ﺩﺭ ﺷﺒﮑﻪ ﻫﺎﯼ ﺍﺟﺘﻤﺎﻋﯽ‬ ‫ﺭﻭﺷﻲ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﻣﻨﺎﺑﻊ ﺩﺭ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ ﺍﺭﺍﺋﻪ ﺷﺪﻩ ﺍﺳﺖ‬ ‫•‬ ‫ﺗﻌﺪﺍﺩ ﺩﻭﺳﺖ ﻣﺸﺘﺮﮎ ﻫﺎﺩﯼ ﺑﺎ ﺑﻘﻴﻪ ﺍﻓﺮﺍﺩ ﺑﻪ ﺻﻮﺭﺕ ﺯﻳﺮ ﺍﺳﺖ‬ ‫•‬ ‫• ﻫﺎﺩﯼ- ﺷﻴﺮﻭﺍﻥ 64‬ ‫• ﻫﺎﺩﯼ- ﺍﻣﻴﺪ 34‬ ‫• ﻫﺎﺩﯼ -ﮐﺎﻇﻤﯽ ﻓﺮﺩ 32‬ ‫• ﻫﺎﺩﯼ- ﺍﺣﻤﺪ 21‬ ‫• ﻫﺎﺩﯼ-ﻧﺎﻭﻳﻦ 3‬ ‫ﺁﻳﺎ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﻫﺎﺩﯼ ﺑﺎ ﺍﻓﺮﺍﺩ‬ ‫3‬ ‫64‬ ‫ﺩﺭ ﺩﻧﻴﺎﯼ ﻭﺍﻗﻌﯽ ﺑﻪ ﻫﻤﻴﻦ ﺷﮑﻞ‬ ‫34‬ ‫ﺍﺳﺖ؟؟؟؟؟؟؟؟؟؟؟؟؟؟‬ ‫32‬ ‫21‬ ‫33‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 34. ‫ﻧﺘﻴﺠﻪ ﮔﻴﺮﯼ ﻭ ﮐﺎﺭﻫﺎﯼ ﺁﻳﻨﺪﻩ‬ ‫ﺭﻭﺷﻲ ﺑﺮﺍﯼ ﻳﺎﻓﺘﻦ ﻣﻴﺰﺍﻥ ﺷﺒﺎﻫﺖ ﻣﻨﺎﺑﻊ ﺩﺭ ﻭﺏ ﻣﺒﺘﻨﯽ ﺑﺮ ﺩﺍﺩﻩ ﺍﺭﺍﺋﻪ ﺷﺪﻩ ﺍﺳﺖ‬ ‫•‬ ‫ﺍﻋﻤﺎﻝ ﻣﺘﺪ ﭘﻴﺸﻨﻬﺎﺩﯼ ﺑﺮ ﺭﻭﯼ ﮔﺮﺍﻑ ﺷﺒﮑﻪ ﻫﺎﯼ ﺍﺟﺘﻤﺎﻋﯽ‬ ‫•‬ ‫ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﺘﺪﻫﺎﻳﻲ ﻫﻤﭽﻮﻥ ﺷﺒﮑﻪ ﻫﺎﯼ ﻋﺼﺒﯽ ﺑﺮﺍﯼ ﺍﻧﺘﺴﺎﺏ ﻣﻘﺪﺍﺭ ﺩﻗﻴﻖ ﻭﺯﻥ ﻫﺎ‬ ‫•‬ ‫• ﺩﺭ ﻫﺮ ﺣﻮﺯﻩ ﺑﻪ ﺻﻮﺭﺕ ﺟﺪﺍﮔﺎﻧﻪ ﺑﺎﻳﺪ ﺍﻋﻤﺎﻝ ﺷﻮﺩ‬ ‫ﺍﺭﺍﺋﻪ ﻳﮏ ﻣﺘﺪ ﻋﻤﻮﻣﯽ ﺩﺍﺭﺍﯼ ﻗﺎﺑﻠﻴﺖ ﺳﻔﺎﺭﺷﯽ ﺷﺪﻥ ﺑﺮﺍﯼ ﻫﺮ ﺣﻮﺯﻩ ﺧﺎﺹ‬ ‫•‬ ‫43‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬
  • 35. ‫ﺑﺎ ﺗﺸﮑﺮ ﺍﺯ ﺣﺴﻦ ﺗﻮﺟﻪ ﺷﻤﺎ‬ ‫53‬ ‫ﻣﺳﯾر ﮐوﺗﺎه ﺑرای ﯾﺎﻓﺗن ﻣﯾزان ﺷﺑﺎھت‬ ‫62/7/0931‬