짱이 될거야
2022-09-22: pyspark csv write(cast) 본문
pyspark에서 rdd.map을 써서 dataframe에 array를 넣었다.
이후 그 dataframe을 csv 파일로 저장해야 하는데, 계속해서 에러가 나왔다.
자세히 분석해보면 csv 파일에는 <arr> struct가 들어갈 수 없다는 내용이다.
해결할 수 있는 방법은 dataframe에 있는 array를 string으로 바꿔서 csv로 저장하는 것이다.
예를 들어, "content" column의 값이 array라고 가정하자.
그러면 "content" 열을 선택하고, 거기 있는 값 전체를 "string"로 바꾼다.
df2 = df2.withColumn('content', f.col('content').cast('string'))
df2.write.csv('./data')
'Today I Learned' 카테고리의 다른 글
2022-10-07: 프로젝트 회고-KPT, Timeline (0) | 2022.10.07 |
---|---|
2022-09-28: [vuex] unknown getter (vuex.esm.js?e4c8:1023) (0) | 2022.09.28 |
2022-09-21(2): pyspark에서 dataframe 활용하기 모음 (1) | 2022.09.21 |
2022-09-21: pyspark dataframe에서 okt 사용하기, PicklingError (0) | 2022.09.21 |
2022-09-19(2): pandas csv 파일 맞춤법 검사 (with XML ParseError) (2) | 2022.09.19 |
Comments