목록Today I Learned (21)
짱이 될거야
이번에는 pyspark에서 dataframe으로 할 수 있는 것들을 다 정리해보고자 한다. 내가 프로젝트를 하면서 꼭 필요했던 것만 정리해둔 것으로 나중에 나도 기억이 나지 않을 때 참고할 예정이다. [1] csv를 가져와서 dataframe 만들기 1. csv에 컬럼명이 있는 경우 먼저, csv가 저장되어 있는 경로를 변수 PATH에다가 저장해둔다(재사용 위해). 그 다음, SparkSession.builder로 spark를 만들고 거기에다 read.csv로 저장해둔 csv 파일을 읽어와서 dataframe을 만든다. header=True: 컬럼명이 있는 csv encoding='cp949': 폴더에 저장해둔 csv를 열어보면 한글이 깨져있는 경우가 있는데, 그것을 복구시키기 위해서 인코딩을 해준다. ..
Python에서 형태소를 분석할 수 있는 라이브러리로 Konlpy가 있다. Konlpy 안에서도 여러 방법이 있는데, 그 중에서 특히 Okt는 형태소 분석에 사용되는 사전을 커스터마이징할 수 있고 오타도 대략적으로 잡아줘서 이번에 사용해보게 되었다. 환경은 다음과 같다. 우선 hadoop 위에서 spark를 돌리고 spark에서는 pyspark를 활용한다. spark로 schema을 만들고, 해당 schema에 맞게 csv를 가져와서 dataframe을 만든다. 그 다음에는 dataframe에서 한 행씩 돌려서, 특정 열에 있는 값을 형태소분석 한 값으로 교체한다. 여기서 문제는 크게 두 가지였다. 1. dataframe에서 값을 어떻게 변경하는가(기존 값에서 형태소 분석을 한 값으로 바꾸기) 2. Pi..
hanspell을 활용한 csv 맞춤법 검사 pandas를 활용해 csv를 가져오고, 그 중 한 열에 대해 모든 행의 맞춤법 검사를 했다. (hanspell 활용) 그 코드는 아래와 같다. import pandas as pd from hanspell import spell_checker # Read csv file with pandas data = pd.read_csv(PATH, encoding='cp949') for description in data.description: result = spell_checker.check(description).checked # 맞춤법 검사 print(result) 참고 hanspell: 네이버에서 지원하는 한글 맞춤법 검사 라이브러리 (Python) encodin..
저번 크롤링 코드는 구글링해서 찾은 코드를 그대로 따라한 것이었는데, 다른 사이트에서 여러 번 크롤링을 하면서 코드를 많이 수정해야 했다. 2022.09.06 - [Today I Learned] - 2022-09-06: Python 네이버 쇼핑몰 후기 웹 크롤링 1탄 이번 크롤링 2탄은 잘못된 부분을 수정하고 일어날 수 있는 오류들을 모아둔 것을 소개한다. 첫 번째 문제점. Pagination error Chrome WebDriver를 사용하면 사용자가 클릭하는 것과 똑같다고 생각하면 된다. 쇼핑몰 사이트마다 pagination 구조가 다른데, 현재 예시 쇼핑몰 사이트의 경우에는 1~10까지의 버튼으로 구성돼 있다. 이 때 주의할 것은 '이전', '이후' 버튼이 숨어져 있다는 것이다. 10페이지까지는 '..
Linux 환경에서 Ubuntu를 활용해 pyspark를 사용하려고 한다. python 언어로 제공하는 한글 맞춤법 검사기인 hanspell을 쓰려고 했는데, 계속해서 설치가 되지 않았다. Ubuntu에 설치되어 있는 Python 버전은 3.10.4이다. 시행착오들 1. pip를 사용해서 py-hanspell을 설치하려고 했다. : 에러 문구가 뜨면서 설치가 되지 않았다. pip install py-hanspell 2. 구글링을 하다보니 git clone을 해서 하면 바로 된다고 해서 해봤다.: 계속 feature version에는 "-"를 쓰지 못하기 때문에 경로를 읽을 수 없다는 에러가 뜬다. # 먼저 git을 설치한다. $ sudo apt-get install git $ sudo git clone ..
VMWare에서 한글을 사용해야 할 때 아래 과정을 따라 하면 된다. 구글에 많은 예시가 나와있었는데, 내가 설치한 Ubuntu 버전이 제일 최신 거라서 그런지 많이 달랐다. 몇 시간을 갈아 넣어서 얻은 결과이다. Ubuntu에서 한글 언어 추가하기 1. VMWare 화면 우측 상단의 바를 클릭하면 다음과 같이 Settings를 설정할 수 있다. (이때, EN 표시는 뜨지 않는 게 정상이다.) 2. Settings를 누르고 Region & Languages에 들어간 다음, Manage Installed Languages를 누른다. 3. 그럼 뭔가를 설치하겠냐고 묻는데, 일단 설치한다. 4. 아래와 같은 언어 지원 화면이 뜨고, 여기서 Install/Remove Languages...를 누른다. 5. 그러..