插入排序
InsertionSort(A, length)
for j=2 to A.length
i = j - 1
key = A[j]
while i > 0 && key < A[i]
A[i + 1] = A[i]
i = i - 1
A[i + 1] = key
归并排序
Merge(A, p, q, r)
n1 = q - p + 1
n2 = r - q
let L1[1...n1 + 1] be a new array
let L2[1...n2 + 1] be a new array
for i = 1 to n1
L1[i] = A[p + i - 1]
for i = 1 to n2
L2[i] = A[q + i]
L[n1 + 1] = INT_MAX
L[n2 + 1] = INT_MAX
i = 1
j = 1
for k=q to r
if L1[i] <= L2[j]
A[k] = L1[i]
i = i + 1
else
A[k] = L2[j]
j = j + 1
MergeSort(A, p, r)
if p < r
q = (r - p) / 2
MergeSort(A, p, q)
MergeSort(A, q + 1, r)
Merge(A, p, q, r)
冒泡排序
BubbleSort(A)
for i = 1 to A.length - 1
for j = A.lenght downto i + 1
if A[j] < A[j - 1]
exchange A[j] with A[j - 1]
堆排序
left(i)
return 2 * i
right(i)
return 2 * i + 1
HEAPIFY(A, i)
l = left(i)
r = right(i)
if l <= A.heap-size && A[i] <= A[l]
large = l
else
large = i
if r <= A.heap-size && A[large] <= A[r]
large = r
if large != i
exchange A[i] with A[large]
HEAPIFY(A, large)
BuildHeap(A)
A.heapsize = A.length
for i = A.length / 2 downto 1
HeapINF(i)
HeapSort(A)
BuildHeap(A)
for A.length downto 2
exchange A[heapsize] with A[1]
A.heap-size = A.heap-size - 1
HEAPIFY(A, 1)
快速排序
Partition (A, p, r)
x = A[r]
i = p - 1
for j = p to r - 1
if A[j] <= x
i = i + 1
exchange A[j] wight A[i]
exchange A[i + 1] with A[r]
return i + 1
QuickSort(A, p, r)
if p < r
q = Partition(A, p, r)
QuickSort(A, p, q - 1)
QuickSort(A, q + 1, r)
计数排序
CountingSort(A, B, k)
let C[0 ... k] be a new array
for i = 0 to k
C[i] = 0
for i = 1 to A.length
C[A[i]] = C[A[i]] + 1
for i = 1 to k
C[i] = C[i] + C[i - 1]
for i = A.length downto 1
B[C[A[i]]] = A[i]
C[A[i]] = C[A[i]] - 1
桶排序
BucketSort(A)
n = A.length
let B[0 ... n - 1] be a new Array
for i = 0 to n - 1
let B[i] be a empty list
for i = 1 to n
insert A[i] to B[n * A[i]]
for i = 0 to n - 1
use InsertionSort to sort B[i]
concatenate the lists B[0], B[1], ... B[n - 1] together in order
优先级队列的数据结构底层,特性,应用
优先级队列(Priority Queue)是一种特殊的队列,其数据项拥有优先级,可以根据优先级来确定出队顺序。在底层实现上,优先级队列可以通过多种数据结构来实现,常见的包括堆(Heap)和有序数组。
在堆(通常是二叉堆或者斐波那契堆)实现下,优先级队列的特性包括:插入:在O(log n)时间内将新元素插入到合适的位置。删除最高优先级元素:在O(log n)时间内移除并返回具有最高优先级的元素。获取最高优先级元素:在O(1)时间内获取具有最高优先级的元素。
有序数组实现 在有序数组实现下,优先级队列的特性包括:插入:需要在O(n)时间内找到合适的位置插入新元素,并保持数组有序。删除最高优先级元素:在O(1)时间内移除并返回具有最高优先级的元素。 获取最高优先级元素:在O(1)时间内获取具有最高优先级的元素。
如何判断一棵树是搜索树?
节点数值大小判断:对于每个节点,其左子树中的所有节点的值都应该小于当前节点的值,而右子树中的所有节点的值都应该大于当前节点的值。这是二叉搜索树的一个重要性质。
中序遍历判断:对树进行中序遍历,如果得到的节点值序列是递增的,则该树是搜索树。因为中序遍历对于二叉搜索树来说会得到一个递增的节点值序列。
递归判断:可以使用递归的方法来判断树的每个节点是否满足搜索树的条件。对于每个节点,需要判断其值是否在一定范围内,并且递归地判断其左子树和右子树是否也满足搜索树的条件。
数组和链表的区别?使用场景有什么区别?
存储方式:数组:在内存中以连续的方式存储元素。链表:通过指针将节点链接在一起,每个节点可以存储元素值以及指向下一个节点的指针。
插入和删除操作:数组:插入和删除操作可能需要移动大量元素,特别是在中间或开头位置进行操作时。链表:插入和删除元素效率较高,只需要改变相邻节点的指针即可。
随机访问:数组:支持根据索引快速访问元素,时间复杂度为 O(1)。链表:不支持直接根据索引访问元素,需要从头节点开始沿着指针遍历到目标位置,时间复杂度为 O(n)。
空间复杂度:数组:由于需要在内存中保持连续的空间,可能存在一定的空间浪费。链表:不需要连续的内存空间,可以更加灵活地利用内存。
使用场景的区别:当需要频繁进行随机访问或者对数组元素进行增删操作时,数组通常更适合。例如,需要实现栈、队列等数据结构时,可以选择数组。当需要频繁进行插入和删除操作、元素个数不固定、或者对内存空间使用要求较高时,链表通常更适合。例如,实现链表、队列等数据结构时,可以选择链表。
Hash为什么查找很快?
因为Hash不需要去检索数据,而是通过哈希函数直接计算,判断是否存在,存在则直接返回。
1 红黑树
红黑树与AVL的比较:
AVL是严格平衡树,因此在增加或者删除节点的时候,根据不同情况,旋转的次数比红黑树要多;
红黑是用非严格的平衡来换取增删节点时候旋转次数的降低;
所以简单说,如果你的应用中,搜索的次数远远大于插入和删除,那么选择AVL,如果搜索,插入删除次数几乎差不多,应该选择RB。
红黑树详解: https://xieguanglei.github.io/blog/post/red-black-tree.html
教你透彻了解红黑树: https://github.com/julycoding/The-Art-Of-Programming-By-July/blob/master/ebook/zh/03.01.md
哈希冲突的解决办法
哈希冲突是指不同的输入数据经过哈希函数计算后得到相同的哈希值,这种情况在使用哈希表等数据结构时会导致冲突。以下是一些常见的哈希冲突解决办法:
- 链地址法(Separate Chaining): 将哈希表的每个槽(bucket)设为一个链表或者其他数据结构,当发生哈希冲突时,将新元素追加到对应槽位上的链表中。这种方法需要额外的存储空间来存储链表节点,但是当有很多哈希冲突时,它可以提供较好的性能。
- 开放寻址法(Open Addressing): 当发生哈希冲突时,通过一定的探测序列向后顺延,寻找下一个可用的插入位置。常见的探测序列包括线性探测、二次探测和双重散列等。开放寻址法避免了存储链表节点的开销,但是当装载因子较高时性能可能下降严重。
- 再哈希(Rehashing): 当哈希表中元素数量达到一定阈值时,触发再哈希操作,即重新构建一个更大的哈希表,并将所有元素重新插入到新的哈希表中。这样可以通过增大哈希表容量来减少哈希冲突的概率。
- 建立公共溢出区: 将散列表分为基本表和溢出表两部分,当发生冲突时,将冲突的记录存入溢出表。这种方法可以避免链地址法中频繁动态分配内存的开销。
- 使用链表加速查找: 在发生哈希冲突时,可以采用链表形式来加速查找冲突元素,例如 Java 中的 HashMap 就使用了链表形式来解决冲突。
选择合适的哈希冲突解决办法取决于实际场景和需求,通常需要根据数据分布、性能要求和空间复杂度等方面进行综合考量。
二叉树的前中后序遍历的非递归与递归实现(已知前中序遍历,求后续遍历)
|
|
树的基本概念(入树的高度)
一般的二叉查找树的查询复杂度是跟目标结点到树根的距离(即深度)有关,因此当结点的深度普遍较大时,查询的均摊复杂度会上升,为了更高效的查询,平衡树应运而生了。
它是一 棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。
其高度一般都良好地维持在O(log(n)),大大降低了操作的时间复杂度。
几乎所有平衡树的操作都基于树旋转操作,通过旋转操作可以使得树趋于平衡。
二分查找及其实现
图的邻接表和邻接矩阵的表示
DFS
BFS
最短路径
实现哈希表 // 通过哈希来划分解题
优先级队列 //通过队列来序列化操作解题
字符串处理
动态规划
旋转数组查找
逆置链表
逆置后面k个节点
判断链表是否有环
链表快排
链表归并
排序矩阵查找一个数
快排、堆排:无序数组查找第k大的元素
判断是否是平衡二叉树
二叉树层次遍历
环形打印矩阵
求字符串的最长回文长度
编程题
1 台阶问题/斐波那契
一只青蛙一次可以跳上1级台阶,也可以跳上2级。求该青蛙跳上一个n级的台阶总共有多少种跳法。
|
|
第二种记忆方法
|
|
第三种方法
|
|
2 变态台阶问题
一只青蛙一次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级。求该青蛙跳上一个n级的台阶总共有多少种跳法。
|
|
3 矩形覆盖
我们可以用2*1的小矩形横着或者竖着去覆盖更大的矩形。请问用n个2*1的小矩形无重叠地覆盖一个2*n的大矩形,总共有多少种方法?
第
2*n个矩形的覆盖方法等于第2*(n-1)加上第2*(n-2)的方法。
|
|
4 杨氏矩阵查找
在一个m行n列二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。
使用Step-wise线性搜索。
|
|
6 链表成对调换
1->2->3->4转换成2->1->4->3.
|
|
8 合并两个有序列表
知乎远程面试要求编程
尾递归
|
|
循环算法
思路:
定义一个新的空列表
比较两个列表的首个元素
小的就插入到新列表里
把已经插入新列表的元素从旧列表删除
直到两个旧列表有一个为空
再把旧列表加到新列表后面
|
|
pop弹出
|
|
9 交叉链表求交点
其实思想可以按照从尾开始比较两个链表,如果相交,则从尾开始必然一致,只要从尾开始比较,直至不一致的地方即为交叉点,如图所示

|
|
另外一种比较正规的方法,构造链表类
|
|
修改了一下:
|
|
思路: http://humaoli.blog.163.com/blog/static/13346651820141125102125995/
10 二分查找
|
|
参考: http://blog.csdn.net/u013205877/article/details/76411718
冒泡
|
|
11 快排
|
|
更多排序问题可见:数据结构与算法-排序篇-Python描述
|
|
12 找零问题
|
|
思路: http://blog.csdn.net/wdxin1322/article/details/9501163
方法: http://www.cnblogs.com/ChenxofHit/archive/2011/03/18/1988431.html
13 广度遍历和深度遍历二叉树
给定一个数组,构建二叉树,并且按层次打印这个二叉树
14 二叉树节点
|
|
15 层次遍历
|
|
|
|
16 深度遍历
|
|
17 前中后序遍历
深度遍历改变顺序就OK了
|
|
|
|
18 求最大树深
|
|
19 求两棵树是否相同
|
|
20 前序中序求后序
推荐: http://blog.csdn.net/hinyunsin/article/details/6315502
|
|
21 单链表逆置
|
|
思路: http://blog.csdn.net/feliciafay/article/details/6841115
方法: http://www.xuebuyuan.com/2066385.html?mobile=1
22 两个字符串是否是变位词
|
|
23 动态规划问题
-
假设你的键盘只有以下键:A,Ctrl + A,Ctrl + C,Ctrl + V。
这里 Ctrl+A,Ctrl+C,Ctrl+V 分别代表「全选」,「复制」,「粘贴」,组合键算一次按键。
如果你只能按键盘 N 次,请写一个程序可以产生最多数量的 A. 也就是说输入是 N(你按键盘的次数),输出是 M(产生的A的个数)。
加分项:打印出中间你按下的那些键。
问题细节:
- Ctrl+A 算一次按键。
- Ctrl+A,Ctrl+C,Ctrl+V 并不能让现有的字符数量加倍,需要再按一次 Ctrl+V 才行,所以说 3 次按键可以让现有字符翻倍的说法是错误的,应该是 4 次。
初步想法:
- 看了这道题第一反应,这是个 DP 问题,然后想了一会儿给出第一个状态转移方程(这个是错的)。
1F[i] = max{F[i-1], F[i-4]*2}然后发现一个问题,存在一种情况,就是剪贴板中存在一定数量的字符,这时候是可以继续粘贴的。然后写出第二个状态转移方程(很可惜这个仍然是错的)。
1F[i] = max{F[i-1], F[i-4]*2, F[i-1]+a}这里的 a 表示剪贴板中已经存在的字符。
这里存在一个问题,输出几个结果就可以看到,当 i=20 的时候结果可以输出 128 个字符。这个结果是错的,正确答案应该是 150 个。
跟踪结果可以看到,这时候的按键顺序为:AAAA Ctrl+acvvvv Ctrl+acvvvv Ctrl+acvv(A 代表按下 A,Ctrl+acv 代表「全选」「复制」「粘贴」,下同)
可是正确结果应该是 AAAAAA Ctrl+acvvvvv Ctrl+vvvvv
问题出在哪儿了呢?很容易可以得到,正确结果中在 i=10 的时候输出的结果是 12 而不是最优解 16. 所以这里有个问题,每一步的最优并不一定导致全局的最优。
维基百科教育我们,动态规划问题需要具有的一个性质是「最优子结构」,可是这道题不满足,所以这压根儿就不是一道 DP 题。
深搜(DFS):
- 到这里暂时思路断了,那就写个「万金油」搜索吧,很容易可以得到下面的代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36# -*- coding: UTF-8 -*- # author: TheLover_Z ### version 1: DFS def search(m, clipboard_num, n, keys): global max_m global key_pressed if (n == 0 and m > max_m): max_m = m key_pressed = keys return if (n >= 1 and clipboard_num < 1): # press a keys += '[a]' search(m + 1, clipboard_num, n - 1, keys) if (n >= 1 and clipboard_num > 1): # press control-v keys += '[c-v]' search(m + clipboard_num, clipboard_num, n - 1, keys) if (n >= 4): # press control-acvv keys += '[c-acvv]' search(m * 2, m, n - 4, keys) def main(): n = 45 global max_m max_m = 0 global key_pressed key_pressed = '' search(0, 0, n, key_pressed) print ">> pressed %s times can get maximum %s chars " % (n, max_m) print ">> solution: %s" % (key_pressed) if __name__ == '__main__': main()经测试,当 n=45 用时 2.068443 秒。
-
两个整数数组各有100亿条数据,并已经排序,保存在磁盘上,内存10M。
问:
(1)如何取得交集?时间和空间效率分别是多少?Python 集合set()操作方法
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19import os os.system('sort -u -n s1.num > s1.ns') os.system('sort -u -n s2.num > s2.ns') i1 = open('s1.ns', 'r') i2 = open('s2.ns', 'r') try: d1 = i1.next() d2 = i2.next() while True: if (d1 < d2): d1 = i1.next() elif (d2 < d1): d2 = i2.next() else: print d1, d1 = i1.next() d2 = i2.next() except StopIteration: pass(2)如果其中一个数组只有100条数据,如何优化算法取得交集?时间和空间效率分别是多少?
对一个数据中的100个数字在另一个数组中进行二分查找。时间复杂度是O(logn), 空间复杂度是O(1)
(3)用自己熟悉的语言实现第2个问题,要求可以正确运行;假设已经提供函数read_elt(arrary_name, index)可以用来读取某个数组的第index个元素,元素个数分别用m=100和n=10^10表示。