목록분류 전체보기 (120)
짱이 될거야
저번 크롤링 코드는 구글링해서 찾은 코드를 그대로 따라한 것이었는데, 다른 사이트에서 여러 번 크롤링을 하면서 코드를 많이 수정해야 했다. 2022.09.06 - [Today I Learned] - 2022-09-06: Python 네이버 쇼핑몰 후기 웹 크롤링 1탄 이번 크롤링 2탄은 잘못된 부분을 수정하고 일어날 수 있는 오류들을 모아둔 것을 소개한다. 첫 번째 문제점. Pagination error Chrome WebDriver를 사용하면 사용자가 클릭하는 것과 똑같다고 생각하면 된다. 쇼핑몰 사이트마다 pagination 구조가 다른데, 현재 예시 쇼핑몰 사이트의 경우에는 1~10까지의 버튼으로 구성돼 있다. 이 때 주의할 것은 '이전', '이후' 버튼이 숨어져 있다는 것이다. 10페이지까지는 '..
스타벅스 글레이즈드 라떼 먹고싶다. 오늘 오전에 Spark 만지고, 오후에는 프로젝트 정리를 하고 스타벅스 갔다오려고 했는데 결국 시간이 없어서 못 갔다. 블랙 글레이즈드 라떼 진짜 맛있는데 이번 주 내에 꼭 먹을거다.
Linux 환경에서 Ubuntu를 활용해 pyspark를 사용하려고 한다. python 언어로 제공하는 한글 맞춤법 검사기인 hanspell을 쓰려고 했는데, 계속해서 설치가 되지 않았다. Ubuntu에 설치되어 있는 Python 버전은 3.10.4이다. 시행착오들 1. pip를 사용해서 py-hanspell을 설치하려고 했다. : 에러 문구가 뜨면서 설치가 되지 않았다. pip install py-hanspell 2. 구글링을 하다보니 git clone을 해서 하면 바로 된다고 해서 해봤다.: 계속 feature version에는 "-"를 쓰지 못하기 때문에 경로를 읽을 수 없다는 에러가 뜬다. # 먼저 git을 설치한다. $ sudo apt-get install git $ sudo git clone ..
VMWare에서 한글을 사용해야 할 때 아래 과정을 따라 하면 된다. 구글에 많은 예시가 나와있었는데, 내가 설치한 Ubuntu 버전이 제일 최신 거라서 그런지 많이 달랐다. 몇 시간을 갈아 넣어서 얻은 결과이다. Ubuntu에서 한글 언어 추가하기 1. VMWare 화면 우측 상단의 바를 클릭하면 다음과 같이 Settings를 설정할 수 있다. (이때, EN 표시는 뜨지 않는 게 정상이다.) 2. Settings를 누르고 Region & Languages에 들어간 다음, Manage Installed Languages를 누른다. 3. 그럼 뭔가를 설치하겠냐고 묻는데, 일단 설치한다. 4. 아래와 같은 언어 지원 화면이 뜨고, 여기서 Install/Remove Languages...를 누른다. 5. 그러..
https://www.acmicpc.net/problem/1966 1966번: 프린터 큐 여러분도 알다시피 여러분의 프린터 기기는 여러분이 인쇄하고자 하는 문서를 인쇄 명령을 받은 ‘순서대로’, 즉 먼저 요청된 것을 먼저 인쇄한다. 여러 개의 문서가 쌓인다면 Queue 자료구조에 www.acmicpc.net N(1 ≤ N ≤ 100), M(0 ≤ M < N)으로 입력이 크진 않지만 pop()을 써야 하기 때문에 deque를 활용해야 한다. 중요도가 같은 문서가 여러 개 있을 수도 있기 때문에, 중요도 입력 리스트에다가 인덱스를 함께 달아줬다. (lst[i], i)와 같이 튜플 형태로 deque에 넣었다. 문제 해결 방식은 다음과 같다. 인쇄되는 순서는 변수 cnt로 설정하고, 초기값을 0으로 둔다. 먼저..
Spark를 사용하는 이유 Spark는 HDFS에 저장된 데이터를 하둡 코어 라이브러리를 호출함으로써 메모리로 불러온 후, 변환 및 계산 등을 거쳐 최종 원하는 결과물을 산출합니다. 스파크는 인메모리 프로세싱을 하기 때문에 Disk I/O 가 많이 일어나는 하둡의 맵-리듀스보다 특정 작업 (ex. multi-pass map reduce)에서는 더 빠르게 수행될 수 있습니다. 결론 Hadoop은 기본적으로 디스크로부터 map/reduce할 데이터를 불러오고, 처리 결과를 디스크로 씁니다. 따라서, 데이터의 읽기/쓰기 속도는 느린 반면, 디스크 용량 만큼의 데이터를 한번에 처리 할 수 있습니다. 반면, spark는 메모리로부터 map/reduce할 데이터를 불러오고, 처리 결과를 메모리로 씁니다. 따라서, ..