SlideShare uma empresa Scribd logo
1 de 19
Information-theoretic co-clustering Authors / Inderjit S. Dhillon, SubramanyamMallela and Dharmendra S. Modha Conference / ACM SIGKDD ’03, August 24-27, 2003, Washington Presenter / Meng-Lun, Wu 1
Outline Introduction Problem Formulation Co-Clustering Algorithm Experimental Result Conclusions And Future Work 2
Introduction (cont.) Clustering is a fundamental tool in unsupervised learning. Most clustering algorithms focus on one-way clustering. Clustering 3
Introduction (cont.) It is often desirable to co-cluster or simultaneously cluster both dimensions. The normalized non-negative contingency table into a joint probability distribution between two discrete random variables. The optimal co-clustering is one that leads to the largest mutual information between the clustered random variables. 4
Introduction (cont.) The optimal co-clustering is one that minimizes the loss in mutual information. The mutual information of two random variables is a quantity that measures the mutual dependence of the two variables. Formally, the mutual information can be defined as: 5
Introduction (cont.) The Kullback-Leibler (K-L) divergence, measures the difference between two probability distributions. Given the true probability distribution p(x,y) and another distribution q(x,y) can be defined as: 6
Problem formulation Let X and Y be discrete random variables. X: {x1,…,xm}, Y: {y1,…,yn} p(X, Y) denote the joint probability distribution. Let the k clusters of X as:  Let the l clusters of Y as: {ŷ1, ŷ2, . . . , ŷl} 7
Problem formulation (cont.) Definition  An optimal co-clustering minimizes Subject to constraints on the number of row and column clusters. For a fixed co-clustering (CX,CY), we can write the loss in mutual information. 8
Problem formulation (cont.) 9
Problem formulation (cont.) q(X,Y) is a distribution of the form 0.18   0.18  0.14   0.14   0.18  0.18 0.5   0.5 0.15 0.15 0.15 0.15 0.2 0.2 10 0.3 0.3 0.4 Suppose
Co-CLUSTERING Algorithm Input :  The joint probability distribution p(X,Y), k the desired number of row clusters and l the desired number of column clusters. Output: The partition functions C†X and C†Y 11
Co-CLUSTERING Algorithm (cont.) 12 ^x3^x1 ^x3^x2
Co-CLUSTERING Algorithm (cont.) 13 ŷ2 ŷ1 ŷ1 ŷ2
Co-CLUSTERING Algorithm (cont.) 14 D(p||q)=0.02881
Experimental results For our experimental results we use various subsets of the 20-Newsgroup data(NG20). We use 1D-clustering to denote document clustering without any word clustering. Evaluation Measures Micro-averaged-precision Micro-averaged-recall 15
Experimental results (cont.) 16
Experimental results (cont.) 17
Experimental results (cont.) 18
CONCLUSIONS AND FUTURE WORK The information-theoretic formulation for co-clustering can be guaranteed to reach a local minimum in a finite number of steps. Co-clustering for joint distribution of two random variables. In this paper, the row and column clusters are pre-specified. We hope that an information-theoretic regularization procedure may allow us to select the number of clusters. 19

Mais conteúdo relacionado

Mais procurados

ตัวอย่างแผนธุรกิจSenateaccount
ตัวอย่างแผนธุรกิจSenateaccountตัวอย่างแผนธุรกิจSenateaccount
ตัวอย่างแผนธุรกิจSenateaccount
Nattakorn Sunkdon
 
ตัวอย่าง DFD level 1
ตัวอย่าง DFD level 1ตัวอย่าง DFD level 1
ตัวอย่าง DFD level 1
rubtumproject.com
 
Ch1 เงินสดและเงินฝากธนาคาร
Ch1 เงินสดและเงินฝากธนาคารCh1 เงินสดและเงินฝากธนาคาร
Ch1 เงินสดและเงินฝากธนาคาร
ple2516
 
ตย.ฎีกาเบิกเงิน(กง.10)
ตย.ฎีกาเบิกเงิน(กง.10)ตย.ฎีกาเบิกเงิน(กง.10)
ตย.ฎีกาเบิกเงิน(กง.10)
i_cavalry
 
ความหมายของสตอรี่บอร์ด
ความหมายของสตอรี่บอร์ดความหมายของสตอรี่บอร์ด
ความหมายของสตอรี่บอร์ด
rungtip boontiengtam
 
ใบงานที่ 2 การป้อนและแก้ไขข้อมูล
ใบงานที่ 2 การป้อนและแก้ไขข้อมูลใบงานที่ 2 การป้อนและแก้ไขข้อมูล
ใบงานที่ 2 การป้อนและแก้ไขข้อมูล
Meaw Sukee
 
การบริหารลูกหนี้ การบริหารสินค้า
การบริหารลูกหนี้ การบริหารสินค้าการบริหารลูกหนี้ การบริหารสินค้า
การบริหารลูกหนี้ การบริหารสินค้า
tumetr1
 
อุปกรณ์คอมพิวเตอร์
อุปกรณ์คอมพิวเตอร์อุปกรณ์คอมพิวเตอร์
อุปกรณ์คอมพิวเตอร์
Kingkan Kaikaew
 
Exim8เครดิตเพื่อการส่งออกและนำเข้า
Exim8เครดิตเพื่อการส่งออกและนำเข้าExim8เครดิตเพื่อการส่งออกและนำเข้า
Exim8เครดิตเพื่อการส่งออกและนำเข้า
Wannarat Wattananimitkul
 
ความรู้เกี่ยวกับระบบบัญชี
ความรู้เกี่ยวกับระบบบัญชีความรู้เกี่ยวกับระบบบัญชี
ความรู้เกี่ยวกับระบบบัญชี
Attachoke Putththai
 

Mais procurados (20)

การบริหารความเสี่ยงคณะฯ (February 9, 2022)
การบริหารความเสี่ยงคณะฯ (February 9, 2022)การบริหารความเสี่ยงคณะฯ (February 9, 2022)
การบริหารความเสี่ยงคณะฯ (February 9, 2022)
 
ตัวอย่างแผนธุรกิจSenateaccount
ตัวอย่างแผนธุรกิจSenateaccountตัวอย่างแผนธุรกิจSenateaccount
ตัวอย่างแผนธุรกิจSenateaccount
 
Case study : Samitivej Hospital
Case study : Samitivej HospitalCase study : Samitivej Hospital
Case study : Samitivej Hospital
 
แบบฝึกหัด เรื่อง พื้นฐานโปรแกรม-FLASH-CS6
แบบฝึกหัด เรื่อง พื้นฐานโปรแกรม-FLASH-CS6แบบฝึกหัด เรื่อง พื้นฐานโปรแกรม-FLASH-CS6
แบบฝึกหัด เรื่อง พื้นฐานโปรแกรม-FLASH-CS6
 
ตัวอย่าง DFD level 1
ตัวอย่าง DFD level 1ตัวอย่าง DFD level 1
ตัวอย่าง DFD level 1
 
Ch1 เงินสดและเงินฝากธนาคาร
Ch1 เงินสดและเงินฝากธนาคารCh1 เงินสดและเงินฝากธนาคาร
Ch1 เงินสดและเงินฝากธนาคาร
 
ใบงานที่ 2 เรื่องการทดลองสุ่ม
ใบงานที่ 2 เรื่องการทดลองสุ่มใบงานที่ 2 เรื่องการทดลองสุ่ม
ใบงานที่ 2 เรื่องการทดลองสุ่ม
 
ตย.ฎีกาเบิกเงิน(กง.10)
ตย.ฎีกาเบิกเงิน(กง.10)ตย.ฎีกาเบิกเงิน(กง.10)
ตย.ฎีกาเบิกเงิน(กง.10)
 
ความหมายของสตอรี่บอร์ด
ความหมายของสตอรี่บอร์ดความหมายของสตอรี่บอร์ด
ความหมายของสตอรี่บอร์ด
 
บทที่ 4 ชั้นกลาง 2 2003
บทที่ 4 ชั้นกลาง 2  2003บทที่ 4 ชั้นกลาง 2  2003
บทที่ 4 ชั้นกลาง 2 2003
 
ใบงานที่ 2 การป้อนและแก้ไขข้อมูล
ใบงานที่ 2 การป้อนและแก้ไขข้อมูลใบงานที่ 2 การป้อนและแก้ไขข้อมูล
ใบงานที่ 2 การป้อนและแก้ไขข้อมูล
 
การบริหารลูกหนี้ การบริหารสินค้า
การบริหารลูกหนี้ การบริหารสินค้าการบริหารลูกหนี้ การบริหารสินค้า
การบริหารลูกหนี้ การบริหารสินค้า
 
เฉลยบัญชีกลาง2 บริษัท เอ.อา.ดี จำกัด
เฉลยบัญชีกลาง2 บริษัท เอ.อา.ดี จำกัด เฉลยบัญชีกลาง2 บริษัท เอ.อา.ดี จำกัด
เฉลยบัญชีกลาง2 บริษัท เอ.อา.ดี จำกัด
 
อุปกรณ์คอมพิวเตอร์
อุปกรณ์คอมพิวเตอร์อุปกรณ์คอมพิวเตอร์
อุปกรณ์คอมพิวเตอร์
 
พฤติกรรมผู้บริโภค
 พฤติกรรมผู้บริโภค พฤติกรรมผู้บริโภค
พฤติกรรมผู้บริโภค
 
Drawing Pareto Diagram by Excel2007
Drawing Pareto Diagram by Excel2007Drawing Pareto Diagram by Excel2007
Drawing Pareto Diagram by Excel2007
 
Exim8เครดิตเพื่อการส่งออกและนำเข้า
Exim8เครดิตเพื่อการส่งออกและนำเข้าExim8เครดิตเพื่อการส่งออกและนำเข้า
Exim8เครดิตเพื่อการส่งออกและนำเข้า
 
บทที่ 3 การเขียนคำสั่งควบคุมแบบมีทางเลือก
บทที่ 3 การเขียนคำสั่งควบคุมแบบมีทางเลือกบทที่ 3 การเขียนคำสั่งควบคุมแบบมีทางเลือก
บทที่ 3 การเขียนคำสั่งควบคุมแบบมีทางเลือก
 
Chapter5
Chapter5Chapter5
Chapter5
 
ความรู้เกี่ยวกับระบบบัญชี
ความรู้เกี่ยวกับระบบบัญชีความรู้เกี่ยวกับระบบบัญชี
ความรู้เกี่ยวกับระบบบัญชี
 

Semelhante a Information Theoretic Co Clustering

Scalable Constrained Spectral Clustering
Scalable Constrained Spectral ClusteringScalable Constrained Spectral Clustering
Scalable Constrained Spectral Clustering
1crore projects
 
CS583-unsupervised-learning.ppt
CS583-unsupervised-learning.pptCS583-unsupervised-learning.ppt
CS583-unsupervised-learning.ppt
HathiramN1
 

Semelhante a Information Theoretic Co Clustering (20)

11ClusAdvanced.ppt
11ClusAdvanced.ppt11ClusAdvanced.ppt
11ClusAdvanced.ppt
 
11 clusadvanced
11 clusadvanced11 clusadvanced
11 clusadvanced
 
Chapter 11. Cluster Analysis Advanced Methods.ppt
Chapter 11. Cluster Analysis Advanced Methods.pptChapter 11. Cluster Analysis Advanced Methods.ppt
Chapter 11. Cluster Analysis Advanced Methods.ppt
 
A PSO-Based Subtractive Data Clustering Algorithm
A PSO-Based Subtractive Data Clustering AlgorithmA PSO-Based Subtractive Data Clustering Algorithm
A PSO-Based Subtractive Data Clustering Algorithm
 
Fuzzy c-Means Clustering Algorithms
Fuzzy c-Means Clustering AlgorithmsFuzzy c-Means Clustering Algorithms
Fuzzy c-Means Clustering Algorithms
 
Scalable Constrained Spectral Clustering
Scalable Constrained Spectral ClusteringScalable Constrained Spectral Clustering
Scalable Constrained Spectral Clustering
 
Bayesian Deep Learning
Bayesian Deep LearningBayesian Deep Learning
Bayesian Deep Learning
 
COMPARISON OF VOLUME AND DISTANCE CONSTRAINT ON HYPERSPECTRAL UNMIXING
COMPARISON OF VOLUME AND DISTANCE CONSTRAINT ON HYPERSPECTRAL UNMIXINGCOMPARISON OF VOLUME AND DISTANCE CONSTRAINT ON HYPERSPECTRAL UNMIXING
COMPARISON OF VOLUME AND DISTANCE CONSTRAINT ON HYPERSPECTRAL UNMIXING
 
Data Mining: Concepts and techniques: Chapter 11,Review: Basic Cluster Analys...
Data Mining: Concepts and techniques: Chapter 11,Review: Basic Cluster Analys...Data Mining: Concepts and techniques: Chapter 11,Review: Basic Cluster Analys...
Data Mining: Concepts and techniques: Chapter 11,Review: Basic Cluster Analys...
 
CLIM Program: Remote Sensing Workshop, Blocking Methods for Spatial Statistic...
CLIM Program: Remote Sensing Workshop, Blocking Methods for Spatial Statistic...CLIM Program: Remote Sensing Workshop, Blocking Methods for Spatial Statistic...
CLIM Program: Remote Sensing Workshop, Blocking Methods for Spatial Statistic...
 
ADAPTIVE FUZZY KERNEL CLUSTERING ALGORITHM
ADAPTIVE FUZZY KERNEL CLUSTERING ALGORITHMADAPTIVE FUZZY KERNEL CLUSTERING ALGORITHM
ADAPTIVE FUZZY KERNEL CLUSTERING ALGORITHM
 
ADAPTIVE FUZZY KERNEL CLUSTERING ALGORITHM
ADAPTIVE FUZZY KERNEL CLUSTERING ALGORITHMADAPTIVE FUZZY KERNEL CLUSTERING ALGORITHM
ADAPTIVE FUZZY KERNEL CLUSTERING ALGORITHM
 
Automated Clustering Project - 12th CONTECSI 34th WCARS
Automated Clustering Project - 12th CONTECSI 34th WCARS Automated Clustering Project - 12th CONTECSI 34th WCARS
Automated Clustering Project - 12th CONTECSI 34th WCARS
 
Ica group 3[1]
Ica group 3[1]Ica group 3[1]
Ica group 3[1]
 
CS583-unsupervised-learning.ppt
CS583-unsupervised-learning.pptCS583-unsupervised-learning.ppt
CS583-unsupervised-learning.ppt
 
CS583-unsupervised-learning.ppt learning
CS583-unsupervised-learning.ppt learningCS583-unsupervised-learning.ppt learning
CS583-unsupervised-learning.ppt learning
 
15857 cse422 unsupervised-learning
15857 cse422 unsupervised-learning15857 cse422 unsupervised-learning
15857 cse422 unsupervised-learning
 
Free vibration analysis of composite plates with uncertain properties
Free vibration analysis of composite plates  with uncertain propertiesFree vibration analysis of composite plates  with uncertain properties
Free vibration analysis of composite plates with uncertain properties
 
EDD CLUSTERING ALGORITHM FOR WIRELESS SENSOR NETWORKS
EDD CLUSTERING ALGORITHM FOR WIRELESS SENSOR NETWORKSEDD CLUSTERING ALGORITHM FOR WIRELESS SENSOR NETWORKS
EDD CLUSTERING ALGORITHM FOR WIRELESS SENSOR NETWORKS
 
Edd clustering algorithm for
Edd clustering algorithm forEdd clustering algorithm for
Edd clustering algorithm for
 

Mais de AllenWu

Collaborative filtering using orthogonal nonnegative matrix
Collaborative filtering using orthogonal nonnegative matrixCollaborative filtering using orthogonal nonnegative matrix
Collaborative filtering using orthogonal nonnegative matrix
AllenWu
 
Co clustering by-block_value_decomposition
Co clustering by-block_value_decompositionCo clustering by-block_value_decomposition
Co clustering by-block_value_decomposition
AllenWu
 

Mais de AllenWu (9)

A scalable collaborative filtering framework based on co clustering
A scalable collaborative filtering framework based on co clusteringA scalable collaborative filtering framework based on co clustering
A scalable collaborative filtering framework based on co clustering
 
Collaborative filtering with CCAM
Collaborative filtering with CCAMCollaborative filtering with CCAM
Collaborative filtering with CCAM
 
DSTree: A Tree Structure for the Mining of Frequent Sets from Data Streams
DSTree: A Tree Structure for the Mining of Frequent Sets from Data StreamsDSTree: A Tree Structure for the Mining of Frequent Sets from Data Streams
DSTree: A Tree Structure for the Mining of Frequent Sets from Data Streams
 
Co-clustering with augmented data
Co-clustering with augmented dataCo-clustering with augmented data
Co-clustering with augmented data
 
Ch4.mapreduce algorithm design
Ch4.mapreduce algorithm designCh4.mapreduce algorithm design
Ch4.mapreduce algorithm design
 
地震知識
地震知識地震知識
地震知識
 
Collaborative filtering using orthogonal nonnegative matrix
Collaborative filtering using orthogonal nonnegative matrixCollaborative filtering using orthogonal nonnegative matrix
Collaborative filtering using orthogonal nonnegative matrix
 
Co clustering by-block_value_decomposition
Co clustering by-block_value_decompositionCo clustering by-block_value_decomposition
Co clustering by-block_value_decomposition
 
Semantics In Digital Photos A Contenxtual Analysis
Semantics In Digital Photos A Contenxtual AnalysisSemantics In Digital Photos A Contenxtual Analysis
Semantics In Digital Photos A Contenxtual Analysis
 

Último

+971581248768>> SAFE AND ORIGINAL ABORTION PILLS FOR SALE IN DUBAI AND ABUDHA...
+971581248768>> SAFE AND ORIGINAL ABORTION PILLS FOR SALE IN DUBAI AND ABUDHA...+971581248768>> SAFE AND ORIGINAL ABORTION PILLS FOR SALE IN DUBAI AND ABUDHA...
+971581248768>> SAFE AND ORIGINAL ABORTION PILLS FOR SALE IN DUBAI AND ABUDHA...
?#DUbAI#??##{{(☎️+971_581248768%)**%*]'#abortion pills for sale in dubai@
 
Artificial Intelligence: Facts and Myths
Artificial Intelligence: Facts and MythsArtificial Intelligence: Facts and Myths
Artificial Intelligence: Facts and Myths
Joaquim Jorge
 

Último (20)

Manulife - Insurer Innovation Award 2024
Manulife - Insurer Innovation Award 2024Manulife - Insurer Innovation Award 2024
Manulife - Insurer Innovation Award 2024
 
GenAI Risks & Security Meetup 01052024.pdf
GenAI Risks & Security Meetup 01052024.pdfGenAI Risks & Security Meetup 01052024.pdf
GenAI Risks & Security Meetup 01052024.pdf
 
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdf
 
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost SavingRepurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
 
Exploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone ProcessorsExploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone Processors
 
A Domino Admins Adventures (Engage 2024)
A Domino Admins Adventures (Engage 2024)A Domino Admins Adventures (Engage 2024)
A Domino Admins Adventures (Engage 2024)
 
Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)
 
+971581248768>> SAFE AND ORIGINAL ABORTION PILLS FOR SALE IN DUBAI AND ABUDHA...
+971581248768>> SAFE AND ORIGINAL ABORTION PILLS FOR SALE IN DUBAI AND ABUDHA...+971581248768>> SAFE AND ORIGINAL ABORTION PILLS FOR SALE IN DUBAI AND ABUDHA...
+971581248768>> SAFE AND ORIGINAL ABORTION PILLS FOR SALE IN DUBAI AND ABUDHA...
 
HTML Injection Attacks: Impact and Mitigation Strategies
HTML Injection Attacks: Impact and Mitigation StrategiesHTML Injection Attacks: Impact and Mitigation Strategies
HTML Injection Attacks: Impact and Mitigation Strategies
 
Top 5 Benefits OF Using Muvi Live Paywall For Live Streams
Top 5 Benefits OF Using Muvi Live Paywall For Live StreamsTop 5 Benefits OF Using Muvi Live Paywall For Live Streams
Top 5 Benefits OF Using Muvi Live Paywall For Live Streams
 
Polkadot JAM Slides - Token2049 - By Dr. Gavin Wood
Polkadot JAM Slides - Token2049 - By Dr. Gavin WoodPolkadot JAM Slides - Token2049 - By Dr. Gavin Wood
Polkadot JAM Slides - Token2049 - By Dr. Gavin Wood
 
Top 10 Most Downloaded Games on Play Store in 2024
Top 10 Most Downloaded Games on Play Store in 2024Top 10 Most Downloaded Games on Play Store in 2024
Top 10 Most Downloaded Games on Play Store in 2024
 
AWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of TerraformAWS Community Day CPH - Three problems of Terraform
AWS Community Day CPH - Three problems of Terraform
 
A Year of the Servo Reboot: Where Are We Now?
A Year of the Servo Reboot: Where Are We Now?A Year of the Servo Reboot: Where Are We Now?
A Year of the Servo Reboot: Where Are We Now?
 
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, AdobeApidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
 
Artificial Intelligence: Facts and Myths
Artificial Intelligence: Facts and MythsArtificial Intelligence: Facts and Myths
Artificial Intelligence: Facts and Myths
 
TrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
TrustArc Webinar - Stay Ahead of US State Data Privacy Law DevelopmentsTrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
TrustArc Webinar - Stay Ahead of US State Data Privacy Law Developments
 
Real Time Object Detection Using Open CV
Real Time Object Detection Using Open CVReal Time Object Detection Using Open CV
Real Time Object Detection Using Open CV
 
Understanding Discord NSFW Servers A Guide for Responsible Users.pdf
Understanding Discord NSFW Servers A Guide for Responsible Users.pdfUnderstanding Discord NSFW Servers A Guide for Responsible Users.pdf
Understanding Discord NSFW Servers A Guide for Responsible Users.pdf
 

Information Theoretic Co Clustering

  • 1. Information-theoretic co-clustering Authors / Inderjit S. Dhillon, SubramanyamMallela and Dharmendra S. Modha Conference / ACM SIGKDD ’03, August 24-27, 2003, Washington Presenter / Meng-Lun, Wu 1
  • 2. Outline Introduction Problem Formulation Co-Clustering Algorithm Experimental Result Conclusions And Future Work 2
  • 3. Introduction (cont.) Clustering is a fundamental tool in unsupervised learning. Most clustering algorithms focus on one-way clustering. Clustering 3
  • 4. Introduction (cont.) It is often desirable to co-cluster or simultaneously cluster both dimensions. The normalized non-negative contingency table into a joint probability distribution between two discrete random variables. The optimal co-clustering is one that leads to the largest mutual information between the clustered random variables. 4
  • 5. Introduction (cont.) The optimal co-clustering is one that minimizes the loss in mutual information. The mutual information of two random variables is a quantity that measures the mutual dependence of the two variables. Formally, the mutual information can be defined as: 5
  • 6. Introduction (cont.) The Kullback-Leibler (K-L) divergence, measures the difference between two probability distributions. Given the true probability distribution p(x,y) and another distribution q(x,y) can be defined as: 6
  • 7. Problem formulation Let X and Y be discrete random variables. X: {x1,…,xm}, Y: {y1,…,yn} p(X, Y) denote the joint probability distribution. Let the k clusters of X as: Let the l clusters of Y as: {ŷ1, ŷ2, . . . , ŷl} 7
  • 8. Problem formulation (cont.) Definition An optimal co-clustering minimizes Subject to constraints on the number of row and column clusters. For a fixed co-clustering (CX,CY), we can write the loss in mutual information. 8
  • 10. Problem formulation (cont.) q(X,Y) is a distribution of the form 0.18 0.18 0.14 0.14 0.18 0.18 0.5 0.5 0.15 0.15 0.15 0.15 0.2 0.2 10 0.3 0.3 0.4 Suppose
  • 11. Co-CLUSTERING Algorithm Input : The joint probability distribution p(X,Y), k the desired number of row clusters and l the desired number of column clusters. Output: The partition functions C†X and C†Y 11
  • 12. Co-CLUSTERING Algorithm (cont.) 12 ^x3^x1 ^x3^x2
  • 13. Co-CLUSTERING Algorithm (cont.) 13 ŷ2 ŷ1 ŷ1 ŷ2
  • 14. Co-CLUSTERING Algorithm (cont.) 14 D(p||q)=0.02881
  • 15. Experimental results For our experimental results we use various subsets of the 20-Newsgroup data(NG20). We use 1D-clustering to denote document clustering without any word clustering. Evaluation Measures Micro-averaged-precision Micro-averaged-recall 15
  • 19. CONCLUSIONS AND FUTURE WORK The information-theoretic formulation for co-clustering can be guaranteed to reach a local minimum in a finite number of steps. Co-clustering for joint distribution of two random variables. In this paper, the row and column clusters are pre-specified. We hope that an information-theoretic regularization procedure may allow us to select the number of clusters. 19