linux sort去重与pandas去重的不同

mac2025-07-28  6

第一篇博客献给跟我一样的linux初学者们~

先看一下我们的数据

^I是tab键,$为回车

pandas会自动忽略空行,会把空格当做一个字符

df.drop_duplicates([0],inplace=True)

去重的结果:第一行被忽略了,多个NaN和多个空格被去重,带空格的和ab和不带空格的ab被区分出来

先看一下使用sort去重的语法

sort [-bcdfimMnr][-o<输出文件>][-t<分隔字符>][+<起始栏位>-<结束栏位>][--help][--verison][文件] -t选项,后面可以设定间隔符。-k 指定从第几列到第几列作为去重标准,只写一个数默认为以从它开始到一行结束作为去重标准。-u 选项它的作用很简单,就是在输出行中去除重复行。 sort -t $'\t' -u -k1,1 test.txt

去重的结果:空行被保留,nan被去掉,空格被去重

最新回复(0)