分割成一个包含两个元素列表的列
对于一个已知分隔符的简单分割(例如,用破折号分割或用空格分割).str.split() 方法就足够了 。 它在字符串的列(系列)上运行,并返回列表(系列)。
1
2
3
4
5
6
7
8
9
10
11
12
13
|
>>> import pandas as pd
>>> df = pd.DataFrame({ 'AB' : [ 'A1-B1' , 'A2-B2' ]})
>>> df
AB
0 A1 - B1
1 A2 - B2
>>> df[ 'AB_split' ] = df[ 'AB' ]. str .split( '-' )
>>> df
AB AB_split
0 A1 - B1 [A1, B1]
1 A2 - B2 [A2, B2]
|
分割成两列,每列包含列表的相应元素
下面来看下如何从:分割成一个包含两个元素列表的列至分割成两列,每列包含列表的相应元素。
1
2
3
4
5
6
7
8
9
10
11
|
>>> df[ 'AB' ]. str [ 0 ]
0 A
1 A
Name: AB, dtype: object
>>> df[ 'AB' ]. str [ 1 ]
0 1
1 2
Name: AB, dtype: object
|
因此可以得到
1
2
3
4
5
6
7
8
9
10
11
|
>>> df[ 'AB' ]. str .split( '-' , 1 ). str [ 0 ]
0 A1
1 A2
Name: AB, dtype: object
>>> df[ 'AB' ]. str .split( '-' , 1 ). str [ 1 ]
0 B1
1 B2
Name: AB, dtype: object
|
可以通过如下代码将pandas的一列分成两列:
1
2
3
4
5
6
|
>>> df[ 'A' ], df[ 'B' ] = df[ 'AB' ]. str .split( '-' , 1 ). str
>>> df
AB AB_split A B
0 A1 - B1 [A1, B1] A1 B1
1 A2 - B2 [A2, B2] A2 B2
|
补充知识:pandas某一列中每一行拆分成多行的方法
在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数据进行拆分成多条,以方便使用。
在pandas中如何对DataFrame进行相关操作呢,经查阅相关资料,发现了一个简单的办法,
info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))
看起来非常之长,分开来看,流程如下:
将需要拆分的数据使用split拆分工具拆分,并使用expand功能拆分成多列
将拆分后的多列数据进行列转行操作(stack),合并成一列
将生成的复合索引重新进行reset保留原始的索引,并命名
将上面处理后的DataFrame和原始DataFrame进行join操作,默认使用的是索引进行连接
具体操作如下:
预操作:生成需要使用的DataFrame
1
2
3
4
5
6
|
# 用来生成DataFrame的工具
from pydbgen import pydbgen
myDB = pydbgen.pydb()
# 生成一个DataFrame
info = myDB.gen_dataframe( 10 ,[ 'name' , 'phone' , 'city' , 'state' ])
|
结果如下:
|
name |
phone-number |
city |
state |
---|---|---|---|---|
0 |
Hannah Richard |
810-859-7815 |
Irwinville |
Louisiana |
1 |
Ronald Berry |
591-564-0585 |
Glen Ellen |
Minnesota |
2 |
Caitlin Barron |
969-840-8580 |
Dubois |
Oklahoma |
3 |
Felicia Stephens |
154-858-1233 |
Veedersburg |
Alaska |
4 |
Shelly Dennis |
343-104-9365 |
Mattapex |
Virginia |
5 |
Nicholas Hill |
992-239-1954 |
Moneta |
Minnesota |
6 |
Steve Bradshaw |
164-081-7811 |
Ten Broeck |
Colorado |
7 |
Gail Johnston |
155-259-9514 |
Wayan |
Virginia |
8 |
John Gray |
409-892-4716 |
Darlington |
Pennsylvania |
9 |
Katherine Bautista |
185-861-1677 |
McNab |
Texas |
假如现在我们要对city列进行进行拆分,按照空格拆分,转换成多行的数据,
第一步:拆分,生成多列
info_city = info['city'].str.split(' ', expand=True)
结果如下:
|
0 |
1 |
---|---|---|
0 |
Irwinville |
None |
1 |
Glen |
Ellen |
2 |
Dubois |
None |
3 |
Veedersburg |
None |
4 |
Mattapex |
None |
5 |
Moneta |
None |
6 |
Ten |
Broeck |
7 |
Wayan |
None |
8 |
Darlington |
None |
9 |
McNab |
None |
可以看到已经将原始数据拆分成了2列,对于无法拆分的数据为None
第二步:行转列
info_city = info_city.stack()
结果如下:
|
|
|
---|---|---|
0 |
0 |
Irwinville |
1 |
0 |
Glen |
|
1 |
Ellen |
2 |
0 |
Dubois |
3 |
0 |
Veedersburg |
4 |
0 |
Mattapex |
5 |
0 |
Moneta |
6 |
0 |
Ten |
|
1 |
Broeck |
7 |
0 |
Wayan |
8 |
0 |
Darlington |
9 |
0 |
McNab |
其中前面两列是索引,返回的是一个series,没有名字的series
第三步:重置索引,并命名(并删除多于的索引)
info_city = info_city.reset_index(level=1, drop=True)
结果如下:
|
|
---|---|
0 |
Irwinville |
1 |
Glen |
1 |
Ellen |
2 |
Dubois |
3 |
Veedersburg |
4 |
Mattapex |
5 |
Moneta |
6 |
Ten |
6 |
Broeck |
7 |
Wayan |
8 |
Darlington |
9 |
McNab |
第四步:和原始数据合并
info_new = info.drop(['city'], axis=1).join(info_city)
结果如下:
|
name |
phone-number |
state |
city |
---|---|---|---|---|
0 |
Hannah Richard |
810-859-7815 |
Louisiana |
Irwinville |
1 |
Ronald Berry |
591-564-0585 |
Minnesota |
Glen |
1 |
Ronald Berry |
591-564-0585 |
Minnesota |
Ellen |
2 |
Caitlin Barron |
969-840-8580 |
Oklahoma |
Dubois |
3 |
Felicia Stephens |
154-858-1233 |
Alaska |
Veedersburg |
4 |
Shelly Dennis |
343-104-9365 |
Virginia |
Mattapex |
5 |
Nicholas Hill |
992-239-1954 |
Minnesota |
Moneta |
6 |
Steve Bradshaw |
164-081-7811 |
Colorado |
Ten |
6 |
Steve Bradshaw |
164-081-7811 |
Colorado |
Broeck |
7 |
Gail Johnston |
155-259-9514 |
Virginia |
Wayan |
8 |
John Gray |
409-892-4716 |
Pennsylvania |
Darlington |
9 |
Katherine Bautista |
185-861-1677 |
Texas |
McNab |
需要特别注意的是,需要使用原始的连接新生成的,因为新生成的是一个series没有join方法,也可以通过将生成的series通过to_frame方法转换成DataFrame,这样就没有什么差异了
写了这么多,记住下面的就行了:
info.drop([‘city'], axis=1).join(info[‘city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename(‘city'))
如果原数据中已经是list了,可以将info[‘city'].str.split(' ', expand=True)这部分替换成info[‘city'].apply(lambda x: pd.Series(x)),就可以达到相同的目的。
以上这篇Pandas实现一列数据分隔为两列就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持服务器之家。
原文链接:https://blog.csdn.net/Dennis_Shaw/article/details/96136723