Add KMP algorithm.

EvanLi · EvanLi · commit 0d48e3de136a · 2019-09-27T00:51:37.000+08:00
diff --git a/常见算法/KMP算法-字符串匹配.ipynb b/常见算法/KMP算法-字符串匹配.ipynb
@@ -4,17 +4,362 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "字符串匹配的KMP算法\n",
+    "# 字符串匹配——KMP算法\n",
     "\n",
-    "http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html"
+    "[字符串匹配的KMP算法-阮一峰](http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html)\n",
+    "\n",
+    "[从头到尾彻底理解KMP（2014年8月22日版）-July](https://blog.csdn.net/v_july_v/article/details/7041827)\n",
+    "\n",
+    "有一个字符串\"BBC ABCDAB ABCDABCDABDE\"，我想知道，里面是否包含另一个字符串\"ABCDABD\"？\n",
+    "\n",
+    "## 1.暴力匹配方法Brute Force(BF)算法：\n",
+    "\n",
+    " 如果用暴力匹配的思路，并假设现在文本串S匹配到 i 位置，模式串P匹配到 j 位置，则有：\n",
+    "\n",
+    "如果当前字符匹配成功（即S[i] == P[j]），则i++，j++，继续匹配下一个字符；\n",
+    "\n",
+    "如果失配（即S[i]! = P[j]），令i = i - (j - 1)，j = 0。相当于每次匹配失败时，i 回溯并向前移动一位，j 被置为0。\n",
+    "\n",
+    "代码："
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "4"
+      ]
+     },
+     "execution_count": 1,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "def BFAlgo(s,p):\n",
+    "    slen = len(s)\n",
+    "    plen = len(p)\n",
+    "    i = j = 0\n",
+    "    while i < slen and j < plen:\n",
+    "        if s[i] == p[j]: #匹配到则继续往下匹配\n",
+    "            i += 1\n",
+    "            j += 1 #i=slen或者j=plen时退出while循环\n",
+    "        else: # 不匹配则回溯\n",
+    "            i = i - j + 1\n",
+    "            j = 0\n",
+    "    if j == plen:\n",
+    "        return i - j\n",
+    "    else:\n",
+    "        return -1\n",
+    "\n",
+    "s = \"abbaabbaaba\"\n",
+    "p = \"abbaaba\"\n",
+    "BFAlgo(s,p)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 2.KMP算法\n",
+    "\n",
+    "### [字符串匹配的KMP算法-阮一峰](http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html)\n",
+    "\n",
+    "#### 1.部分匹配表\n",
+    "\n",
+    "针对搜索词，算出一张《部分匹配表》（Partial Match Table）,LPS（longest prefix suffix） 最长前缀后缀公共元素长度\n",
+    "\n",
+    "![](http://www.ruanyifeng.com/blogimg/asset/201305/bg2013050109.png)\n",
+    "\n",
+    "\n",
+    "\"部分匹配值\"就是\"前缀\"和\"后缀\"的最长的共有元素的长度。以\"ABCDABD\"为例，\n",
+    "\n",
+    "\n",
+    "－　\"A\"的前缀和后缀都为空集，共有元素的长度为0；\n",
+    "\n",
+    "－　\"AB\"的前缀为[A]，后缀为[B]，共有元素的长度为0；\n",
+    "\n",
+    "－　\"ABC\"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；\n",
+    "\n",
+    "－　\"ABCD\"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；\n",
+    "\n",
+    "－　\"ABCDA\"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为\"A\"，长度为1；\n",
+    "\n",
+    "－　\"ABCDAB\"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为\"AB\"，长度为2；\n",
+    "\n",
+    "－　\"ABCDABD\"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。\n",
+    "\n",
+    "#### 2.匹配，移动\n",
+    "\n",
+    "先找到和待匹配字符串第一位相同的字符，一直匹配到第一个不匹配的字符。\n",
+    "\n",
+    "![](http://www.ruanyifeng.com/blogimg/asset/201305/bg2013050107.png)\n",
+    "\n",
+    "已知空格与D不匹配时，前面六个字符\"ABCDAB\"是匹配的。查表可知，最后一个匹配字符B对应的\"部分匹配值\"为2，因此按照下面的公式算出向后移动的位数：\n",
+    "\n",
+    "```\n",
+    "移动位数 = 已匹配的字符数 - 对应的部分匹配值\n",
+    "```\n",
+    "\n",
+    "因为 6 - 2 等于4，所以将搜索词向后移动4位。\n",
+    "\n",
+    "![](http://www.ruanyifeng.com/blogimg/asset/201305/bg2013050110.png)\n",
+    "\n",
+    "可以看出，p串最前面的两个AB移动到了对应于s串的AB的位置。"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### [从头到尾彻底理解KMP（2014年8月22日版）-July](https://blog.csdn.net/v_july_v/article/details/7041827)\n",
+    "\n",
+    "假设现在文本串S匹配到 i 位置，模式串P匹配到 j 位置\n",
+    "\n",
+    "- 如果j = -1，或者当前字符匹配成功（即S[i] == P[j]），都令i++，j++，继续匹配下一个字符；\n",
+    "- 如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]。此举意味着失配时，模式串P相对于文本串S向右移动了j - next [j] 位。\n",
+    "    - 换言之，当匹配失败时，模式串向右移动的位数为：失配字符所在位置 - 失配字符对应的next 值（next 数组的求解会在下文的3.3.3节中详细阐述），即移动的实际位数为：j - next[j]，且此值大于等于1。\n",
+    "    \n",
+    "很快，你也会意识到next 数组各值的含义：代表当前字符之前的字符串中，有多大长度的相同前缀后缀。例如如果next [j] = k，代表j 之前的字符串中有最大长度为k 的相同前缀后缀。\n",
+    "\n",
+    "此也意味着在某个字符失配时，该字符对应的next 值会告诉你下一步匹配中，模式串应该跳到哪个位置（跳到next [j] 的位置）。如果next [j] 等于0或-1，则跳到模式串的开头字符，若next [j] = k 且 k > 0，代表下次匹配跳到j 之前的某个字符，而不是跳到开头，且具体跳过了k 个字符。\n",
+    "\n",
+    "转换成代码表示(nextArr求解见下文)："
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def KMPAlgo(s,p):\n",
+    "    i=j=0\n",
+    "    slen = len(s)\n",
+    "    plen = len(p)\n",
+    "    while i < slen and j < plen:\n",
+    "        #如果j = -1，或者当前字符匹配成功（即S[i] == P[j]），都令i++，j++  \n",
+    "        if j==-1 or s[i] == s[j]:\n",
+    "            i += 1\n",
+    "            j += 1\n",
+    "        #如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]\n",
+    "        else:\n",
+    "            j = nextArr[j] #nextArr[j]即为j所对应的next值\n",
+    "    if j == plen:\n",
+    "        return i - j\n",
+    "    else:\n",
+    "        return -1"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "**步骤：**\n",
+    "\n",
+    "#### 1.寻找前缀后缀最长公共元素长度\n",
+    "\n",
+    "如abab为0，0，1，2\n",
+    "\n",
+    "#### 2.求next数组\n",
+    "\n",
+    "next 数组考虑的是除当前字符外的最长相同前缀后缀，所以通过第1步骤求得各个前缀后缀的公共元素的最大长度后，只要稍作变形即可：将第1步骤中求得的值整体右移一位，然后初值赋为-1，如下表格所示：\n",
+    "\n",
+    "-1，0，0，1\n",
+    "\n",
+    "如对于aba来说，第3个字符a之前的字符串ab中有长度为0的相同前缀后缀，所以第3个字符a对应的next值为0；\n",
+    "\n",
+    "而对于abab来说，第4个字符b之前的字符串aba中有长度为1的相同前缀后缀a，所以第4个字符b对应的next值为1。\n",
+    "\n",
+    "#### 3.根据next数组进行匹配\n",
+    "\n",
+    "![](https://img-blog.csdn.net/20140812223633281)\n",
+    "\n",
+    " 综上，KMP的next 数组相当于告诉我们：当模式串中的某个字符跟文本串中的某个字符匹配失配时，模式串下一步应该跳到哪个位置。如模式串中在j 处的字符跟文本串在i 处的字符匹配失配时，下一步用next [j] 处的字符继续跟文本串i 处的字符匹配，相当于模式串向右移动 j - next[j] 位。"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "[-1, 0, 0, 1, 2]"
+      ]
+     },
+     "execution_count": 3,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# next数组计算\n",
+    "def getNext(p):\n",
+    "    plen = len(p)\n",
+    "    nextArr = [0]*plen\n",
+    "    nextArr[0] = -1\n",
+    "    k = -1\n",
+    "    j = 0\n",
+    "    while j < plen-1: # p[k]表示前缀，p[j]表示后缀\n",
+    "        if k == -1 or p[j] == p[k]:\n",
+    "            k += 1\n",
+    "            j += 1\n",
+    "            nextArr[j] = k\n",
+    "        else:\n",
+    "            k = nextArr[k]\n",
+    "    return nextArr\n",
+    "\n",
+    "getNext(\"ababb\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "#### 4.Next 数组的优化\n",
+    "\n",
+    " 行文至此，咱们全面了解了暴力匹配的思路、KMP算法的原理、流程、流程之间的内在逻辑联系，以及next 数组的简单求解（《最大长度表》整体右移一位，然后初值赋为-1）和代码求解，最后基于《next 数组》的匹配，看似洋洋洒洒，清晰透彻，但以上忽略了一个小问题。\n",
+    "\n",
+    " 比如，如果用之前的next 数组方法求模式串“abab”的next 数组，可得其next 数组为-1 0 0 1（0 0 1 2整体右移一位，初值赋为-1），当它跟下图中的文本串去匹配的时候，发现b跟c失配，于是模式串右移j - next[j] = 3 - 1 =2位。\n",
+    "\n",
+    "![](http://hi.csdn.net/attachment/201106/14/8394323_1308075859Zfue.jpg)\n",
+    "\n",
+    "右移2位后，b又跟c失配。事实上，因为在上一步的匹配中，已经得知p[3] = b，与s[3] = c失配，而右移两位之后，让p[ next[3] ] = p[1] = b 再跟s[3]匹配时，必然失配。问题出在哪呢？\n",
+    "\n",
+    "![](http://hi.csdn.net/attachment/201106/14/8394323_13080758591kyV.jpg)\n",
+    "\n",
+    "问题出在不该出现p[j] = p[ next[j] ]。为什么呢？理由是：当p[j] != s[i] 时，下次匹配必然是p[ next [j]] 跟s[i]匹配，如果p[j] = p[ next[j] ]，必然导致后一步匹配失败（因为p[j]已经跟s[i]失配，然后你还用跟p[j]等同的值p[next[j]]去跟s[i]匹配，很显然，必然失配），所以不能允许p[j] = p[ next[j ]]。如果出现了p[j] = p[ next[j] ]咋办呢？如果出现了，则需要再次递归，即令next[j] = next[ next[j] ]。\n",
+    "\n",
+    "所以，咱们得修改下求next 数组的代码。\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "[-1, 0, -1, 0, 2, -1, 0, -1, 0]"
+      ]
+     },
+     "execution_count": 4,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "# 优化过后的next 数组求法\n",
+    "def getNext(p):\n",
+    "    plen = len(p)\n",
+    "    nextArr = [0]*plen\n",
+    "    nextArr[0] = -1\n",
+    "    k = -1\n",
+    "    j = 0\n",
+    "    while j < plen-1: # p[k]表示前缀，p[j]表示后缀\n",
+    "        if k == -1 or p[j] == p[k]:\n",
+    "            k += 1\n",
+    "            j += 1\n",
+    "            #较之前next数组求法，改动在下面4行\n",
+    "            if p[j] != p[k]:\n",
+    "                nextArr[j] = k\n",
+    "            else:\n",
+    "                #因为不能出现p[j] = p[ next[j ]]，所以当出现时需要继续递归，k = next[k] = next[next[k]]\n",
+    "                nextArr[j] = nextArr[k]\n",
+    "        else:\n",
+    "            k = nextArr[k]\n",
+    "    return nextArr\n",
+    "\n",
+    "getNext(\"ababcabab\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "对于优化后的next数组可以发现一点：如果模式串的后缀跟前缀相同，那么它们的next值也是相同的，例如模式串abcabc，它的前缀后缀都是abc，其优化后的next数组为：-1 0 0 -1 0 0，前缀后缀abc的next值都为-1 0 0。"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## 3.KMP算法完整代码"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "15\n"
+     ]
+    }
+   ],
+   "source": [
+    "# 优化过后的next 数组求法\n",
+    "def getNext(p):\n",
+    "    plen = len(p)\n",
+    "    nextArr = [0]*plen\n",
+    "    nextArr[0] = -1\n",
+    "    k = -1\n",
+    "    j = 0\n",
+    "    while j < plen-1: # p[k]表示前缀，p[j]表示后缀\n",
+    "        if k == -1 or p[j] == p[k]:\n",
+    "            k += 1\n",
+    "            j += 1\n",
+    "            #较之前next数组求法，改动在下面4行\n",
+    "            if p[j] != p[k]:\n",
+    "                nextArr[j] = k\n",
+    "            else:\n",
+    "                #因为不能出现p[j] = p[ next[j ]]，所以当出现时需要继续递归，k = next[k] = next[next[k]]\n",
+    "                nextArr[j] = nextArr[k]\n",
+    "        else:\n",
+    "            k = nextArr[k]\n",
+    "    return nextArr\n",
+    "\n",
+    "def KMPAlgo(s,p):\n",
+    "    #KMP算法\n",
+    "    i = j = 0\n",
+    "    slen = len(s)\n",
+    "    plen = len(p)\n",
+    "    nextArr = getNext(p)\n",
+    "    while i < slen and j < plen:\n",
+    "        #如果j = -1，或者当前字符匹配成功（即S[i] == P[j]），都令i++，j++  \n",
+    "        if j==-1 or s[i] == p[j]:\n",
+    "            i += 1\n",
+    "            j += 1\n",
+    "        #如果j != -1，且当前字符匹配失败（即S[i] != P[j]），则令 i 不变，j = next[j]\n",
+    "        else:\n",
+    "            j = nextArr[j] #nextArr[j]即为j所对应的next值\n",
+    "    if j == plen:\n",
+    "        return i - j\n",
+    "    else:\n",
+    "        return -1\n",
+    "\n",
+    "if __name__==\"__main__\":\n",
+    "    s = \"BBC ABCDAB ABCDABCDABDE\"\n",
+    "    p = \"ABCDABD\"\n",
+    "    print(KMPAlgo(s,p))"
    ]
   }
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "tf36",
+   "display_name": "Python 3",
    "language": "python",
-   "name": "tf36"
+   "name": "python3"
   },
   "language_info": {
    "codemirror_mode": {
@@ -26,7 +371,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.6.8"
+   "version": "3.7.3"
   }
  },
  "nbformat": 4,