Conquer and Divide经典例子之Strassen算法解决大型矩阵的相乘

时间:2025-01-03 20:35:56

通过汉诺塔问题理解递归的精髓中我讲解了怎么把一个复杂的问题一步步recursively划分了成简单显而易见的小问题。其实这个解决问题的思路就是算法中常用的divide and conquer, 这篇日志通过解决矩阵的乘法,来了解另外一个基本divide and conque思想的strassen算法。

矩阵A乘以B等于X, 则Xij = 
注意左乘右乘的区别,AB 与BA是不同的。
如果r = 1, 直接就是两个数的相乘。
如果r = 2, 例如
X = 
[ 1, 2; 
  3, 4];
Y = 
[ 2, 3;
 4, 5];
R = XY的计算十分简单,但是如果r很大,耗时是O(r^3)。为了简化,可以把X, Y各自划分成2X2的矩阵,每一个元素其实是有n/2行的矩阵
(注:这里仅讲解行数等于列数的情况。)

X = 
[A, B;
C, D];

Y = 
[E, F;
G, H]

所以XY =[
AE+BG, AF+BH;
CE+DG, CF+DH]

Strassen引入seven magic product 分别是P1, P2, P3 ,P4, P5, P6, P7
P1 = A(F-H)
P2 = (A+B)H
P3 = (C+D)E
P4 = D(G-E)
P5 = (A+D)(E+H)
P6 = (B-D)(G+H)
P7 = (A-C)(E+F)

这样XY = 
[P5+P4-P2+P6, P1+P2;
P3+P4, P1+P5-P3-P7]

然后通过递归的策略计算矩阵的相乘,递归的出口是n = 1.

关键点就是这些,附上代码吧。

    1. //multiply matrix multiplication
    2. import java.util.Scanner;
    3. public class Strassen{
    4. public Strassen(){}
    5. /** split a parent matrix into child matrics8*/
    6. public static void split(int[][] P, int[][] C, int iB, int jB){
    7. for(int i1=0, i2 = iB; i1<C.length; i1++, i2++)
    8. for(int j1=0, j2=jB; j1<C.length; j1++, j2++)
    9. C[i1][j1] = P[i2][j2];
    10. }
    11. /**join child matric into parent matrix*/
    12. public static void join(int[][] C, int[][] P, int iB, int jB){
    13. for(int i1=0, i2 = iB; i1<C.length; i1++, i2++)
    14. for(int j1=0, j2=jB; j1<C.length; j1++, j2++)
    15. P[i2][j2]=C[i1][j1];
    16. }
    17. /**add two matrics into one*/
    18. public static int[][] add(int[][] A, int[][] B){
    19. //A and B has the same dimension
    20. int n = A.length;
    21. int[][] C = new int[n][n];
    22. for (int i=0; i<n; i++)
    23. for(int j=0; j<n; j++)
    24. C[i][j] = A[i][j] + B[i][j];
    25. return C;
    26. }
    27. //subtract one matric by another
    28. public static int[][] sub(int[][] A, int[][] B){
    29. //A and B has the same dimension
    30. int n = A.length;
    31. int[][] C = new int[n][n];
    32. for (int i=0; i<n; i++)
    33. for(int j=0; j<n; j++)
    34. C[i][j] = A[i][j] - B[i][j];
    35. return C;
    36. }
    37. //Multiply matrix
    38. public static int[][] multiply(int[][] A, int[][] B){
    39. int n = A.length;
    40. int[][] R = new int[n][n];
    41. /**exit*/
    42. if(n==1)
    43. R[0][0] = A[0][0]+B[0][0];
    44. else{
    45. //divide A into 4 submatrix
    46. int[][] A11 = new int[n/2][n/2];
    47. int[][] A12 = new int[n/2][n/2];
    48. int[][] A21 = new int[n/2][n/2];
    49. int[][] A22 = new int[n/2][n/2];
    50. split(A, A11, 0, 0);
    51. split(A, A12, 0, n/2);
    52. split(A, A21, n/2, 0);
    53. split(A, A22, n/2, n/2);
    54. //divide B into 4 submatric
    55. int[][] B11 = new int[n/2][n/2];
    56. int[][] B12 = new int[n/2][n/2];
    57. int[][] B21 = new int[n/2][n/2];
    58. int[][] B22 = new int[n/2][n/2];
    59. split(B, B11, 0, 0);
    60. split(B, B12, 0, n/2);
    61. split(B, B21, n/2, 0);
    62. split(B, B22, n/2, n/2);
    63. //seven magic products
    64. int[][] P1 = multiply(A11, sub(B12, B22));
    65. int[][] P2 = multiply(add(A11,A12), B22);
    66. int[][] P3 = multiply(add(A21, A22), B11);
    67. int[][] P4 = multiply(A22, sub(B21, B11));
    68. int[][] P5 = multiply(add(A11, A22), add(B11, B22));
    69. int[][] P6 = multiply(sub(A12, A22), add(B21, B22));
    70. int[][] P7 = multiply(sub(A11, A21), add(B11, B12));
    71. //new 4 submatrix
    72. int[][] R11 = add(add(P5, sub(P4, P2)), P6);
    73. int[][] R12 = add(P1, P2);
    74. int[][] R21 = add(P3, P4);
    75. int[][] R22 = sub(sub(add(P1, P5), P3), P7);
    76. //joint together
    77. join(R11, R, 0, 0);
    78. join(R12, R, 0, n/2);
    79. join(R21, R, n/2, 0);
    80. join(R22, R, n/2, n/2);
    81. }
    82. return R;
    83. }
    84. //main
    85. public static void main(String[] args){
    86. Scanner scan = new Scanner(System.in);
    87. System.out.println("Strassen Multiplication Algorithm Test\n");
    88. Strassen s = new Strassen();
    89. System.out.println("Fetch the matric A and B...");
    90. int N = scan.nextInt();
    91. int[][] A = new int[N][N];
    92. int[][] B = new int[N][N];
    93. for (int i = 0; i < N; i++)
    94. for (int j = 0; j < N; j++)
    95. A[i][j] = scan.nextInt();
    96. for (int i = 0; i < N; i++)
    97. for (int j = 0; j < N; j++)
    98. B[i][j] = scan.nextInt();
    99. System.out.println("Fetch Completed!");
    100. int[][] C = s.multiply(A, B);
    101. System.out.println("\nmatrices A = ");
    102. for (int i = 0; i < N; i++){
    103. for (int j = 0; j < N; j++)
    104. System.out.print(A[i][j] +" ");
    105. System.out.println();
    106. }
    107. System.out.println("\nmatrices B =");
    108. for (int i = 0; i < N; i++) {
    109. for (int j = 0; j < N; j++)
    110. System.out.print(B[i][j] +" ");
    111. System.out.println();
    112. }
    113. System.out.println("\nProduct of matrices A and  B  = ");
    114. for (int i = 0; i < N; i++)
    115. {
    116. for (int j = 0; j < N; j++)
    117. System.out.print(C[i][j] +" ");
    118. System.out.println();
    119. }
    120. }
    121. }