일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 머신러닝
- 분류
- supervised learning
- 지도학습
- ChatGPT
- LLM
- Classification
- 티스토리챌린지
- GPT-4
- regression
- Machine Learning
- 오블완
- OpenAI
- LG
- 딥러닝
- 회귀
- AI
- deep learning
- PCA
- gpt
- LG Aimers 4th
- LG Aimers
- 해커톤
- Today
- Total
목록KHUDA 5th/Data Engineering (7)
SYDev
데이터 엔지니어링 심화트랙 5주차 정리 내용 Chapter 29. 비지도 학습 29.1. 활용 사례 데이터 이상치 탐지: 데이터셋 내 다수의 값이 하나의 큰 그룹으로 군집화되고, 나머지 값은 몇몇 소그룹으로 군집화되는 경우 해당 소그룹을 추가 조사하여 이상치를 탐지할 수 있다. 토픽 모델링: 많은 양의 텍스트 문서를 사전에 학습하여 서로 다른 텍스트 문서 사이의 공통적인 주체를 도출할 수 있다. 29.2. 모델 확장성 29.3 k-평균 >>> from pyspark.ml.feature import VectorAssembler >>> va = VectorAssembler()\ ... .setInputCols(["Quantity", "UnitPrice"])\ ... .setOutputCol("features..
데이터 엔지니어링 심화트랙 4주차 정리 내용 6부에서는 스파크에서 제공하는 고급 분석 및 머신러닝을 위한 다양한 API를 다룰 예정 Chapter 24. 고급 분석과 머신러닝 개요 6부에서 다룰 스파크 고급 분석 도구는 다음과 같다. 데이터 전처리: 데이터 정제 및 피처 엔지니어링 지도 학습(supervised learning) 비지도 학습(unsupervised learning) 추천 엔진(recommendation learning) 그래프 분석(graph analytics) 딥러닝(deep learning) 24.1. 고급 분석 고급 분석: 데이터 기반의 인사이트를 도출 -> 핵심 문제 해결 or 예측 or 추천을 하기 위한 기술 머신러닝에서 일반적으로 활용되는 작업 features 기반 label ..
Data Engineering 2주차 세션에서 진행한 실습 위주로 정리 예정 실습을 진행하기 이전에 git과 docker가 필요했는데, docker를 이때 처음 사용해봤다. Docker Docker: 애플리케이션을 신속하게 구축, 테스트 및 배포할 수 있는 소프트웨어 플랫폼 소프트웨어를 컨테이너라는 표준화된 유닛으로 패키징 컨테이너에는 라이브러리, 시스템 도구, 코드, 런타임 등 소프트웨어를 실행하는 데 필요한 모든 것이 포함되어 있음 Docker를 사용하면 환경에 구애받지 않고 애플리케이션을 신속하게 배포 및 확장할 수 있다. Docker는 컨테이너를 위한 운영 체제 가상 머신이 서버 하드웨어를 가상화하는 방식과 비슷하게 컨테이너는 서버 운영 체제를 가상화한다. Docker는 각 서버에 설치되며 컨테이..
데이터 엔지니어링 심화트랙 2주차 정리 내용 Chapter 7. 집계 연산 집계(aggregation)는 무언가를 함께 모으는 행위이며 빅데이터 분석의 초석이다. 키나 그룹을 지정하고 하나 이상의 컬럼을 변환하는 방법을 지정하는 집계 함수를 사용 집계 함수는 여러 입력값이 주어지면 그룹별로 결과를 생성 지정된 집계 함수에 따라 그룹화된 결과는 RelationalGroupedDataset을 반환 -> 구매 이력 데이터를 사용해 파티션을 훨씬 적은 수로 분할할 수 있도록 리파티셔닝하고, 빠르게 접근할 수 있도록 캐싱 7.1. 집계 함수 모든 집계는 사용한 DataFame의 .stat 속성을 이용하는 특별한 경우를 제외한다면 함수를 사용한다. 7.1.1. count 다음 예제에서 count 함수는 액션이 아닌..
데이터 엔지니어링 심화트랙 1주차 정리 내용 Chapter 4. 구조적 API 개요 구조적 API는 비정형 로그 파일부터 반정형 CSV 파일, 매우 정형적인 파케이(Parquet) 파일까지 다양한 유형의 데이터를 처리할 수 있다. 구조적 API에는 Dataset, DataFRame, SQL테이블과 뷰의 세 가지 분산 컬렉션 API가 있다. batch, streaming 처리에서 구조적 API를 사용할 수 있다. 구조적 API를 활용하면 배치 작업을 스트리밍 작업으로 손쉽게 변환 가능하다. 이 장에서 다음 세 가지 기본 개념을 이해하고 넘어가야 한다. typed/untyped API의 개념과 차이점 핵심 용어 스파크가 구조적 API의 데이터 흐름을 해석하고 클러스터에서 실행하는 방식 4.1. DataFra..
pip 이용해서 무언가 설치하려하면 다음과 같은 에러가 발생 error: externally-managed-environment × This environment is externally managed ╰─> To install Python packages system-wide, try brew install xyz, where xyz is the package you are trying to install. If you wish to install a non-brew-packaged Python package, create a virtual environment using python3 -m venv path/to/venv. Then use path/to/venv/bin/python and path/t..
데이터 엔지니어링 심화트랙 1주차 정리 내용 Chapter 1. 아파치 스파크란 아파치 스파크: 통합 컴퓨팅 엔진이며 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합 파이썬, 자바, 스칼라, R 지원 1.5.2 스파크 대화형 콘솔 실행하기 가이드에 따라 파일 설치하고 나면 다음과 같은 폴더를 받을 수 있다. 해당 디렉토리로 가서 ./bin/pyspark 실행하면 다음과 같이 SparkSession 객체가 출력된다. >> 파일이 실행 안 돼서 한참동안 헤매다가 JAVA 설치하니까 바로 실행성공.. Chapter 2. 스파크 간단히 살펴보기 DataFreame과 SQL을 사용해 클러스터, 스파크 애플리케이션 그리고 구조적 API를 살펴본다. 이 과정에서 스파크의 핵심 용어와 개념을 접하고 사용법을..