목록Today I Learned (21)
짱이 될거야
Spark를 사용하는 이유 Spark는 HDFS에 저장된 데이터를 하둡 코어 라이브러리를 호출함으로써 메모리로 불러온 후, 변환 및 계산 등을 거쳐 최종 원하는 결과물을 산출합니다. 스파크는 인메모리 프로세싱을 하기 때문에 Disk I/O 가 많이 일어나는 하둡의 맵-리듀스보다 특정 작업 (ex. multi-pass map reduce)에서는 더 빠르게 수행될 수 있습니다. 결론 Hadoop은 기본적으로 디스크로부터 map/reduce할 데이터를 불러오고, 처리 결과를 디스크로 씁니다. 따라서, 데이터의 읽기/쓰기 속도는 느린 반면, 디스크 용량 만큼의 데이터를 한번에 처리 할 수 있습니다. 반면, spark는 메모리로부터 map/reduce할 데이터를 불러오고, 처리 결과를 메모리로 씁니다. 따라서, ..
1. Excel 파일 읽어오기 먼저, VSCode에 python 파일을 하나 만들고, pandas library를 import 한다. import pandas as pd 이후, 읽어올 엑셀 파일 경로를 변수에 저장해둔다. 매번 경로를 적지 않고 변수를 사용하면 훨씬 편리하다. # 읽어올 엑셀 파일 지정 filename = './data.xlsx' 이제 엑셀 파일을 읽어와야 하는데, pandas의 read_excel을 활용한다. # 엑셀 파일 읽어 오기 df = pd.read_excel(filename, engine='openpyxl') 이 때 openpyxl이 없다는 에러가 뜰 수 있는데, pip install openpyxl을 하면 해결된다. 2. Excel 파일에 열 추가하기 엑셀 파일에 열을 추가하..
파이썬 언어로 네이버 쇼핑몰 후기를 웹 크롤링 했다. 크롤링 예시: LG전자 LG퓨리케어 FS061PSSA 네이버 쇼핑몰 후기 크롤링 참고 사이트 https://velog.io/@kjh1337/%EB%84%A4%EC%9D%B4%EB%B2%84-%EC%87%BC%ED%95%91%EB%AA%B0-%EB%A6%AC%EB%B7%B0-%ED%81%AC%EB%A1%A4%EB%A7%81 https://github.com/Jimin980921/Text_mining/blob/master/Project/textmining_project_crawling.ipynb GitHub - Jimin980921/Text_mining: 텍스트마이닝을 이용한 소비자분석 _네이버쇼핑 리뷰크롤링 텍스트마이닝을 이용한 소비자분석 _네이버쇼핑 ..
이제 깃허브를 꾸며야 할 때가 온 것 같다. 기존 README 파일에 있던 백준 티어 아이콘이 마음에 안 들어서 다른 것으로 바꿨다. https://gitmemories.com/hyp3rflow/github-readme-solvedac hyp3rflow/github-readme-solvedac: 백준, solved.ac 통계로 github stats card를 만들어... 백준, solved.ac 통계로 github stats card를 만들어주는 서비스 gitmemories.com 위 사이트를 참고해서, README 파일에 아래 코드를 넣었다. ![hyp3rflow's solved.ac stats](https://github-readme-solvedac.hyp3rflow.vercel.app/api/?h..
https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C HTTP 상태 코드 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 아래는 HTTP(하이퍼텍스트 전송 프로토콜) 응답 상태 코드의 목록이다. IANA가 현재 공식 HTTP 상태 코드 레지스트리를 관리하고 있다. 모든 HTTP 응답 코드는 5개의 ko.wikipedia.org 프로젝트 중 서버와 웹 API를 연결하는 과정에서 여러 상태코드가 나왔는데, 그것들을 해결하는 과정에서 위 사이트를 참고했다. 위 사이트에 헤더 부분에 다음과 같은 내용이 있다. 1xx (정보): 요청을 받았으며 프로세스를 계속한다 2xx (성공): 요청을 성공적으로 받았으며 인식했고..
어제 Phaser 실습에 성공했는데, 다른 노트북에서 처음부터 실행하려고 하니까 실패했다. 1. index.html 2. hide_on_complete.js class Example extends Phaser.Scene { constructor () { super(); } preload () { this.load.spritesheet('invader', 'assets/tests/invaders/invader1.png', { frameWidth: 32, frameHeight: 32 }); this.load.spritesheet('boom', 'assets/sprites/explosion.png', { frameWidth: 64, frameHeight: 64, endFrame: 23 }); } create ..