-
알고리즘 소개 : XGBoostR 이모저모 2019. 3. 30. 18:01
알고리즘 소개 : XGBoost XGBoost(eXtreme Gradient Boosting)는 병렬처리와 최적화를 장점으로 내세우는 Gradient boosting 알고리즘 으로 릴리즈된 이래 Kaggle 대회에서 좋은 성적을 보이며 많은 관심을 끈 방법론입니다. LightGBM, CatBoost 등 다른 gradient boosting 알고리즘이 나오면서 어떤 것이 더 좋은 성능을 보이는지는 계속 논란이 되고 있지만 XGBoost는 여전히 준수한 성능 및 속도와 information gain 기반 importance 산출 기능을 제공해 많은 사랑을 받고 있습니다. 이번 포스팅에선 이 XGBoost에 대해 소개해보고자 합니다. 1. CART 분명 시작글과 제목에선 XGBoost를 소개한다고 했는데, 갑..
-
R과 데이터프레임(3)R 이모저모 2019. 3. 24. 21:41
R에서의 데이터프레임 기초와 활용방법(3) 저번 포스팅에선 R에서 dplyr패키지를 이용해서 데이터프레임을 다루는 방법들을 소개하고, 간단한 문제풀이 느낌의 리뷰도 해보았습니다. 이번 포스팅에선 dplyr 관련 포스팅을 마무리 지어보도록 하겠습니다. 1. dplyr과 데이터 병합 데이터 분석 업무를 하다 보면 여러 DB에 흩어져 있는 데이터들 중 쓸모 있는 것들을 선별해서 하나의 데이터 셋으로 병합해야 하는 경우가 많습니다. dplyr을 쓰지 않는다면 merge를 사용하는 경우가 많지만 merge는 데이터 크기가 크고 키 값이 복잡해지면 처리속도 때문에 마냥 기다려 주기가 버겁습니다. 이 점을 해결하기 위해 dplyr에선 데이터 병합을 위한 함수로 _join 시리즈를 제공하고 있습니다. 표의 설명들을 보..
-
각양각색의 R 질문들과 풀이R 이모저모 2019. 3. 21. 21:32
공부를 하다보면 R관련 커뮤니티서나 같은 일을 하는 분들에게 여러 질문들이 들어오곤 합니다. 오늘 포스팅에서는 이 질문들 중 몇 가지를 풀어보고자 합니다 Q1. 데이터프레임 형식으로 된 어떤 column 의 element 들을 24개씩 묶어서 더한 값으로 이루어진 새로운 column 을 만들고 싶습니다 *사용 패키지 : dplyr몇개의 row들을 합한 결과를 나타내는 쉬운 방법은 grouping을 할 새로운 변수를 만든 후 group_by와 summarise를 활용하는 것입니다. dplyr의 mutate 함수를 이용해 row를 24개씩 묶어줄 변수를 만들고, 이 변수를 기준으로 summarise를 했더니 24개 데이터의 합이 나왔습니다. 같은 방법으로 평균, 최빈값 등을 구할 수 있습니다. Q2. 모든 ..
-
R과 데이터프레임(2) : dplyrR 이모저모 2019. 3. 14. 23:46
R에서의 데이터프레임 기초와 활용방법(2) 저번 포스팅에선 R에서 데이터프레임을 생성하고 살펴보는 것을 위주로 살펴보았습니다. 이번 포스팅에서는 dplyr이라는 패키지를 활용하여 실제 분석 업무를 진행하며 어떻게 활용할 수 있는지에 대해 얘기해보도록 하겠습니다. 1. dplyr 패키지 dplyr은 데이터를 자르고 붙이는데 유용하게 쓰던 plyr패키지를 dataframe 오브젝트에 보다 유연하게 사용하도록 만든 패키지로, R에서 데이터 사이언스를 위해 소개하는 패키지 묶음들인 Tidyverse의 패키지들 중 가장 흔히 볼 수 있는 패키지이기도 합니다. 이는 dplyr이 chain function이라는 것을 제공하기 때문인데요. %>%으로 사용하는 이 함수는 앞의 결과값을 뒤의 함수에 활용할 수 있도록 해주..
-
R과 데이터프레임 (1)R 이모저모 2019. 3. 10. 22:31
R에서의 데이터프레임 기초와 활용방법 R에서 데이터프레임은 직관적이며 dplyr등 tidyverse 패키지들로 다루기 쉽기 때문에 여러 패키지가 Input, 혹은 Output으로 활용하는 데이터 타입입니다. 이 포스팅에서는 데이터프레임이 어떤 역할을 하고 어떻게 생성하는지에 대한 기초를 알아보고자 합니다. 1. R 데이터프레임의 정의 데이터프레임은 R에 있는 2차원 데이터 형식의 하나로, 데이터프레임에 대해서 설명하는 말들은 여러 곳에서 찾아볼 수 있지만, R Documentation에서는 간단히 A data frame is a list of variables of the same number of rows with unique row names, given class "data.frame" 으로 서술하..