Edit chap09.

EvanLi · EvanLi · commit d29ce04e516a · 2019-08-22T13:48:11.000Z
diff --git a/算法图解/chap09-动态规划.ipynb b/算法图解/chap09-动态规划.ipynb
@@ -17,7 +17,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": 1,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -66,7 +66,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": 2,
    "metadata": {},
    "outputs": [
     {
@@ -78,7 +78,7 @@
        " [0, 1500, 1500, 2000, 3500]]"
       ]
      },
-     "execution_count": 11,
+     "execution_count": 2,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -93,7 +93,7 @@
     "            if weight[i-1] > W: #当前物品重量大于背包重量，则取i-1个物品时的值\n",
     "                dp[i][W] = dp[i-1][W]\n",
     "            else: #当前物品重量小于背包重量，则取两者（不取这个物品、取这个物品）的最大值\n",
-    "                dp[i][W] = max(dp[i-1][W],value[i-1]+dp[i-1][W-weight[i-1]])\n",
+    "                dp[i][W] = max(dp[i-1][W],value[i-1]+dp[i-1][W-weight[i-1]]) #i从1开始，所以是value[i-1],weight[i-1]\n",
     "    return dp\n",
     "\n",
     "C = 4 #背包容量\n",
@@ -200,7 +200,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 12,
+   "execution_count": 3,
    "metadata": {},
    "outputs": [
     {
@@ -214,7 +214,7 @@
        " [0, 6, 9, 15, 18, 20, 25]]"
       ]
      },
-     "execution_count": 12,
+     "execution_count": 3,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -226,11 +226,290 @@
     "dp = knapsack_dp(value,weight,C)\n",
     "dp"
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 9.3 最长公共子串(Longest Common Substring)\n",
+    "\n",
+    "- 动态规划可帮助你在给定约束条件下找到最优解。在背包问题中，你必须在背包容量给定的情况下，偷到价值最高的商品。\n",
+    "- 在问题可分解为彼此独立且离散的子问题时，就可使用动态规划来解决。要设计出动态规划解决方案可能很难，这正是本节要介绍的。下面是一些通用的小贴士。\n",
+    " - 每种动态规划解决方案都涉及网格。\n",
+    " - 单元格中的值通常就是你要优化的值。在前面的背包问题中，单元格的值为商品的价值。\n",
+    " - 每个单元格都是一个子问题，因此你应考虑如何将问题分成子问题，这有助于你找出网格的坐标轴。\n",
+    "\n",
+    "下面再来看一个例子。假设你管理着网站dictionary.com。用户在该网站输入单词时，你需要给出其定义。\n",
+    "\n",
+    "但如果用户拼错了，你必须猜测他原本要输入的是什么单词。\n",
+    "\n",
+    "例如，Alex想查单词fish，但不小心输入了hish。在你的字典中，根本就没有这样的单词，但有几个类似的单词。\n",
+    "\n",
+    "在这个例子中，只有两个类似的单词，真是太小儿科了。实际上，类似的单词很可能有数千个。\n",
+    "\n",
+    "Alex输入了hish，那他原本要输入的是fish还是vista呢？\n",
+    "\n",
+    "### 9.3.1 绘制网格\n",
+    "\n",
+    "- 单元格中的值是什么？\n",
+    "- 如何将这个问题划分为子问题？\n",
+    "- 网格的坐标轴是什么？\n",
+    "\n",
+    "网格如下：\n",
+    "\n",
+    "![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822192521.png)\n",
+    "\n",
+    "### 9.3.2 填充网格\n",
+    "\n",
+    "我使用下面的公式来计算每个单元格的值。\n",
+    "\n",
+    "![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822192839.png)\n",
+    "\n",
+    "实现这个公式的伪代码类似于下面这样。\n",
+    "```python\n",
+    "if word_a[i] == word_b[j]: # 两个字母相同\n",
+    "    cell[i][j] = cell[i-1][j-1] + 1\n",
+    "else: # 两个字母不同\n",
+    "    cell[i][j] = 0\n",
+    "```\n",
+    "\n",
+    "查找单词hish和vista的最长公共子串时，网格如下。\n",
+    "\n",
+    "![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822193257.png)\n",
+    "\n",
+    "需要注意的一点是，这个问题的最终答案并不在最后一个单元格中！对于前面的背包问题，最终答案总是在最后的单元格中。\n",
+    "\n",
+    "但对于最长公共子串问题，答案为**网格中最大的数字**——它可能并不位于最后的单元格中。\n",
+    "\n",
+    "**具体实现代码如下：**\n",
+    "\n",
+    "可参考[GeeksforGeeks: Longest Common Substring | DP-29](https://www.geeksforgeeks.org/longest-common-substring-dp-29/)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "2"
+      ]
+     },
+     "execution_count": 4,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# Python3 implementation of Finding  \n",
+    "# Length of Longest Common Substring  \n",
+    "\n",
+    "# Returns length of longest common  \n",
+    "# substring of s1[0..m-1] and s2[0..n-1] \n",
+    "\n",
+    "def LCSubStr(s1,s2):\n",
+    "    # 最长公共子串(Longest Common Substring)\n",
+    "    m = len(s1)\n",
+    "    n = len(s2)\n",
+    "    dp = [[0]*(n+1) for _ in range(m+1)] #初始化，添加一行、一列0 一共m+1行，n+1列\n",
+    "    result = 0  #保存最长公共字串的长度\n",
+    "    for i in range(1,m+1):\n",
+    "        for j in range(1,n+1):\n",
+    "            if s1[i-1] == s2[j-1]: # 相同\n",
+    "                dp[i][j] = dp[i-1][j-1]+1\n",
+    "                result = max(result, dp[i][j])\n",
+    "            else: # 不同\n",
+    "                dp[i][j] = 0\n",
+    "    return result\n",
+    "\n",
+    "s1 = [1,3,4,5,6,7,7,8]\n",
+    "s2 = [3,5,7,4,8,6,7,8,2]\n",
+    "LCSubStr(s1,s2)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 9.4 最长公共子序列(Longest Common Subsequence，LCS)\n",
+    "\n",
+    "假设Alex不小心输入了fosh，他原本想输入的是fish还是fort呢？如果我们使用最长公共子串公式来比较它们：\n",
+    "\n",
+    "![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822193436.png)\n",
+    "\n",
+    "最长公共子串的长度相同，都包含两个字母！但fosh与fish更像。\n",
+    "\n",
+    "所以这里应该比较的是**最长公共子序列**：两个单词中**都有的序列**包含的**字母数**。\n",
+    "\n",
+    "**最长公共子序列（LCS,Longest Common Subsequence）**：它不要求所求得的字符在所给的字符串中是连续的,而**最长公共子串**则要求字符串是连续的。\n",
+    "\n",
+    "如何计算最长公共子序列呢？\n",
+    "\n",
+    "### 9.4.1 动态规划算法\n",
+    "\n",
+    "下面是填写各个单元格时使用的公式：\n",
+    "\n",
+    "![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822194836.png)\n",
+    "\n",
+    "最终的网格如下：\n",
+    "\n",
+    "![](https://raw.githubusercontent.com/hostimg/img/gh-pages/s/20190822194437.png)\n",
+    "\n",
+    "伪代码如下：\n",
+    "\n",
+    "```python\n",
+    "if word_a[i] == word_b[j]:\n",
+    "    cell[i][j] = cell[i-1][j-1] + 1\n",
+    "else:\n",
+    "    cell[i][j] = max(cell[i-1][j], cell[i][j-1])\n",
+    "```"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "**具体实现代码如下：**\n",
+    "\n",
+    "可参考[GeeksforGeeks: Longest Common Subsequence | DP-4](https://www.geeksforgeeks.org/longest-common-subsequence-dp-4/)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "5\n"
+     ]
+    },
+    {
+     "data": {
+      "text/plain": [
+       "[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],\n",
+       " [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],\n",
+       " [0, 1, 1, 1, 1, 1, 1, 1, 1, 1],\n",
+       " [0, 1, 1, 1, 2, 2, 2, 2, 2, 2],\n",
+       " [0, 1, 2, 2, 2, 2, 2, 2, 2, 2],\n",
+       " [0, 1, 2, 2, 2, 2, 3, 3, 3, 3],\n",
+       " [0, 1, 2, 3, 3, 3, 3, 4, 4, 4],\n",
+       " [0, 1, 2, 3, 3, 3, 3, 4, 4, 4],\n",
+       " [0, 1, 2, 3, 3, 4, 4, 4, 5, 5]]"
+      ]
+     },
+     "execution_count": 5,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# Dynamic Programming implementation of LCS problem \n",
+    "def LCS(s1,s2):\n",
+    "    # 最长公共子序列(Longest Common Subsequence)\n",
+    "    m = len(s1)\n",
+    "    n = len(s2)\n",
+    "    dp = [[0]*(n+1) for _ in range(m+1)] #初始化，添加一行、一列0 一共m+1行，n+1列\n",
+    "    result = 0  #保存最长公共字串的长度\n",
+    "    for i in range(1,m+1):\n",
+    "        for j in range(1,n+1):\n",
+    "            if s1[i-1] == s2[j-1]: # 相同\n",
+    "                dp[i][j] = dp[i-1][j-1]+1\n",
+    "                result = max(result, dp[i][j])\n",
+    "            else: # 不同\n",
+    "                dp[i][j] = max(dp[i-1][j],dp[i][j-1])\n",
+    "    return dp,result\n",
+    "\n",
+    "s1 = [1,3,4,5,6,7,7,8]\n",
+    "s2 = [3,5,7,4,8,6,7,8,2]\n",
+    "dp,result = LCS(s1,s2)\n",
+    "print(result)\n",
+    "dp"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### 9.4.2 递归算法\n",
+    "\n",
+    "考虑两个字符串的最后一个字符：\n",
+    "\n",
+    "- 1.如果最后一个字符相同，可以转化为均去掉最后一个字符之后的LCS，在加上1\n",
+    "- 2.如果最后一个字符不同，可以转化为：s1去掉最后一个字符和s2的LCS，以及s2去掉最后一个字符和s1的LCS，两者取大值。如：\n",
+    "\n",
+    "`LCS(“ABCDGH”, “AEDFHR”) = MAX ( LCS(“ABCDG”, “AEDFHR”), LCS(“ABCDGH”, “AEDFH”) )`\n",
+    "\n",
+    "上述朴素递归方法的时间复杂度在最坏情况下为$O(2^n)$ ，当X和Y的所有字符不匹配时，即LCS的长度为0时，发生最坏情况。\n",
+    "\n",
+    "**具体代码如下：**"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Length of LCS is  4\n"
+     ]
+    }
+   ],
+   "source": [
+    "# A Naive recursive Python implementation of LCS problem \n",
+    "  \n",
+    "def LCS(X, Y, m, n): \n",
+    "    if m == 0 or n == 0: \n",
+    "        return 0\n",
+    "    elif X[m-1] == Y[n-1]: \n",
+    "        return 1 + LCS(X, Y, m-1, n-1)\n",
+    "    else: \n",
+    "        return max(LCS(X, Y, m, n-1), LCS(X, Y, m-1, n))\n",
+    "  \n",
+    "  \n",
+    "# Driver program to test the above function \n",
+    "X = \"AGGTAB\"\n",
+    "Y = \"GXTXAYB\"\n",
+    "print(\"Length of LCS is \", LCS(X , Y, len(X), len(Y))) "
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "**动态规划的实际应用**：\n",
+    "\n",
+    "- 生物学家根据最长公共序列来确定DNA链的相似性，进而判断度两种动物或疾病有多相似。最长公共序列还被用来寻找多发性硬化症治疗方案。\n",
+    "- 你使用过诸如 git diff 等命令吗？它们指出两个文件的差异，也是使用动态规划实现的。\n",
+    "- 前面讨论了字符串的相似程度。编辑距离（levenshtein distance）指出了两个字符串的相似程度，也是使用动态规划计算得到的。编辑距离算法的用途很多，从拼写检查到判断用户上传的资料是否是盗版，都在其中。\n",
+    "- 你使用过诸如Microsoft Word等具有断字功能的应用程序吗？它们如何确定在什么地方断字以确保行长一致呢？使用动态规划！"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 9.5 小结\n",
+    "\n",
+    "- 需要在给定约束条件下优化某种指标时，动态规划很有用。\n",
+    "- 问题可分解为离散子问题时，可使用动态规划来解决。\n",
+    "- 每种动态规划解决方案都涉及网格。\n",
+    "- 单元格中的值通常就是你要优化的值。\n",
+    "- 每个单元格都是一个子问题，因此你需要考虑如何将问题分解为子问题。\n",
+    "- 没有放之四海皆准的计算动态规划解决方案的公式。"
+   ]
   }
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "Python 3 (system-wide)",
+   "display_name": "Python 3",
    "language": "python",
    "name": "python3"
   },