Notice
Recent Posts
Recent Comments
Link
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

짱이 될거야

2022-09-22: pyspark csv write(cast) 본문

Today I Learned

2022-09-22: pyspark csv write(cast)

jeong57 2022. 9. 22. 22:16

pyspark에서 rdd.map을 써서 dataframe에 array를 넣었다.

이후 그 dataframe을 csv 파일로 저장해야 하는데, 계속해서 에러가 나왔다.

자세히 분석해보면 csv 파일에는 <arr> struct가 들어갈 수 없다는 내용이다.

 

해결할 수 있는 방법은 dataframe에 있는 array를 string으로 바꿔서 csv로 저장하는 것이다.

예를 들어, "content" column의 값이 array라고 가정하자.

그러면 "content" 열을 선택하고, 거기 있는 값 전체를 "string"로 바꾼다.

df2 = df2.withColumn('content', f.col('content').cast('string'))
df2.write.csv('./data')

 

Comments