if kakao 2019 day2
기조 연설
카카오 AI
카카오 ai 많은 발전
카카오 i를 모바일에서 실행할수 있게 함
카카오는 정확한 답변을 주는것을 목표로 개발하고 있음
인터렉티브 ai를 하려고 하는데 룰베이스 와 딥러닝을 같이 사용함
블록체인 그라운드 X
디지털 농노제 owned 라는 책을 소개하면서 이야기를 풀어나갔다.
우리는 서비스를 쓰면서 데이터를 경작하고 있다
하지만 한기업이나 서비스에 데이터 집중으로 이슈가 되고 있다
eu에서는 gdpr이라는 일반 데이터 보호 규정을 발표했다. 처리제한권 정보이동권 삭제권을 포함하고 있다.
데이터 생산을 노동에 비유했고 앤드류 양(미 대선후보) 데이터 재산권을 법제화 하려는 공약이 있다.
지금 블록체인 불변화된 데이터 저장소라는 개념을 가지고게임아이템의 재산화, 코닥 디지털 사진의 재산화, 개인데이터를 재산화 하려고 하는 노력들이 있다.
그래서 그라운드 x도 그런 기술을 가지고 플랫폼을 만들고 한기업이 독점 할수 없게 아시아 30개 기업(한국 카카오가 제일 많아보임)을 모아서 기술 개발하고 있다
블록체인을 몰라도 블록체인을 쓸수 있게 라는 모토를 가지고 개발하고 있고 자신들이 생각하는 킬러소프트웨어를 만드는데 9월에 klip 앱을 발매예정
처음 설치부터 클러스터 관리까지, 3000대의 운영 노하우로 만든 카카오 Elasticsearch 운영 방법론 소개와 자동화 솔루션 시연
Elasticsearch는 2가지로 사용되는데 하나는 검색엔진, 또 하나는 분석엔진이다.
검색엔진은 역색인을 알아야 된다 역색인에 대한 내용을 간단히 설명해줌
분석엔진은 키바나까지 사용해서 분석엔진을 구성한다.
구성을 하면 증설이 어려움
full gc 이슈를 해결하기 위해 데이터 노드와 클라이언트 노드를 분리함
검색앤진은 무중단 운영 판단
비용문제
봇을 사용해 모니터링
롤링리스타트도 엔서블을 활용함
슬로우 로그도 확인 로그스테시로 로그를 확인
카카오에서 샤드 플랜은 아래와 같이 가지고 간다.
- 샤드카운트랑 노드 카운트를 일치
- 사드를 너무 적게 해도 문제 샤드카운트를 노드 카운트의 두배로 설정
- 핫데이터 노드와 웜데이터 노드의 최소 공배수로
- 검색엔진은 성능테스트를 통해 설정(요구하는 검색시간에서 인덱스 사이즈를 늘려가면서 테스트)
현재는 쿠버네티스를 활용하는 방향을 고민중
awx를 적극적으로 할용
밑바닥부터 시작하는 쇼핑 데이터 엔지니어링 고군 분투기
db문제를 해결하기위해 db에 조인쿼리를 빼는 작업을 선택
검색에서은 엘라스틱서치를 적극 활용
데이터 파이프 라인은 람다 아키텍쳐를 활용하고 있음
es에 어떤 데이터를 넣을까 고민
etl 구조를 만들기 위해 기존 데이터 플로우를 잘확인해봄
db 변경감지 방법은 2가지
- Change Data Capture 방식
- pull 방식
cdc 방식은 너무 어려움 pull 방식을 채택해서 eventually consistent 완성함
위에 방식을 통해서 카카오가 모든 업무에 비동기 방식을 고려하면서 일관성을 맞춘것을 확인 할수 있었음
카카오에서는 어떻게 OpenJDK를 활용하고있을까?
현제 오라클 자바는 다운로드시에 라이센스 경고가 나옴
과거 se는 빅뱅릴리즈
open jdk는 업테이트를 6개월만 지원
java의 개발주체가 변경됨
jdk 성능차이는 없나? 없다
어떤것을 사용해야 되나?
빌드배포본 6개월 이후에 지원이 불투명
직접 빌드를 하면 되려나?
비용발생, 테스트들이 필요 테스트 수행전담인력이 필요
벤더 선정기준
open jdk호완성
지원플랫폼
lts 무상지원
적시성
무료라이센스
전환전 검토 부분
제네릭 사용이 엄격해짐
ibm과 redhat에서 마이그레이션 툴 제공
오픈소스 어플리케이션도 호완성 확인이 꼭필요함
open jdk는 cent os5 버전 이하는 지원하지 않음
조금더 안정성을 확보
tck를 받지 못해서 안정성을 확정을 받지 못했다
jmh를 이용해서 확인
전사 버전을 효율적으로 관리
자바 프로세스 확인
tck는철회 되었는데 오픈 소스로 기여를 하는것은 내부에서 좀 돌려보면서 할려고 함
Korean의 Korean 체험기
인턴에서 정규직으로 바뀜 이것때문이 아니라고 회사 선임분이 말씀 하셨지만 자기는 이것때문에 된것같음
구조적 어려움
형태소 분석이 어려움
스테밍을 하는 이유
word2vec
좋닼ㅋㅋ 구조적 어려움
워드피스 임베딩
자모피스 임베딩
활용적 어려움
워드 피스 임베딩을 자모단위로 구분해서 처리하는 자모피스 임베딩에 대한 연구 성과 위주로 발표함
데이터 관점에서 본 광고랭킹의 실제적인 문제들
데이터 관점 광고 랭킹
작년 발표 카카오의 광고지능
타겟팅 어떤 사용자에게 어떤 광고를 노출시킬것인가
타겟팅 방식이 발전 기본에서 성향으로 발전
카카오는 딥러닝을 해봄
오토비드
단가를 조절하면서
ctr이 올라도 매출이 안오르더라 -> 이부분은 광고 노출시에 기회를 받지 못했던 광고가 노출되면서 ctr은 올랐지만 매출은 내려갔다라고 판단하는데
그럼 노출이 줄은건가 이건은 좀 자세히 물어볼껄 그랬음
의심해라 의심만이 자유롭게 할것이다