[개발자를 위한 레디스] 5장 레디스를 캐시로 사용하기

SMALL

레디스와 캐시

캐시란?

캐시란 데이터의 원본보다 더 빠르고 효율적으로 액세스할 수 있는 임시 데이터 저장소를 의미한다.
사용자가 동일한 정보를 반복적으로 액세스할 때 원본이 아니라 캐시에서 데이터를 가지고 옴으로써 리소스를 줄일 수 있다.
애플리케이션이 다음 조건을 만족시킨다면, 캐시를 도입했을 때 성능을 효과적으로 개선할 수 있다.
- 원본 데이터 저장소에서 원하는 데이터를 찾기 위해 검색하는 시간이 오래 걸리거나, 매번 계산을 통해 데이터를 가져와야 한다.
- 캐시에서 데이터를 가져오는 것이 원본 데이터 저장소 데이터를 요청하는 것보다 빨라야 한다.
- 캐시에 저장된 데이터는 잘 변하지 않는 데이터다.
- 캐시에 저장된 데이터는 자주 검색되는 데이터다.

캐시로서의 레디스

레디스는 단순하게 키-값 형태로 저장하므로, 데이터를 저장하고 반환하는 것이 간단하다.
자체적으로 다양한 자료 구조를 제공하기 때문에 애플리케이션에서 사용하던 list, hash 등의 자료 구조를 변환하는 과정 없이 레디스에 바로 저장할 수 있다.
모든 데이터를 메모리에 저장하는 인메모리 데이터 저장소이기 때문에 데이터를 검색하고 반환하는 것이 상당히 빠르다.
자체적으로 고가용성 기능을 가지고 있다.
레디스의 클러스터를 사용하면 캐시의 스케일 아웃을 쉽게 처리할 수 있다.

캐싱 전략

레디스를 캐시로 사용할 때 레디스를 어떻게 배치할 것인지에 따라 서비스의 성능에 큰 영향을 끼칠 수 있다.

읽기 전략 - look aside

레디스를 캐시로 사용할 때 가장 일반적으로 배치하는 방법이다.
👍 레디스에 문제가 생기더라도 바로 서비스 장애로 이어지지 않고 데이터베이스에서 데이터를 가지고 올 수 있다.
👎 기존 애플리케이션에서 레디스를 통해 데이터를 가져오는 연결이 매우 많았다면 모든 커넥션이 한번에 원본 데이터베이스로 몰려 많은 부하를 발생시킬 수 있다.
찾고자 하는 데이터가 레디스에 없을 때에만 레디스에 데이터가 저장되기 때문에 lazy loading이라고도 부른다.

애플리케이션은 찾는 데이터가 먼저 캐시에 있는지를 확인한 뒤, 캐시에 데이터가 있으면 캐시에서 데이터를 읽어온다. (캐시 히트)

찾는 데이터가 없으면, 캐시 미스가 발생한다.
애플리케이션은 직접 데이터베이스에 접근해 찾는 데이터를 가져온 후, 이를 다시 캐시에 저장하는 과정을 거친다.

초기에 부하가 몰리는 것을 막기 위해, 미리 데이터베이스에서 캐시로 데이터를 밀어넣어주는 작업을 한다.
이를 캐시 워밍이라고 한다.

쓰기 전략과 캐시의 일관성

데이터가 변경될 때 원본 데이터베이스에만 업데이트되어 캐시에는 반영되지 않는다면 데이터 간 불일치가 일어난다. (캐시 불일치)
a라는 값은 데이터베이스에 28로 업데이트됐지만, 레디스에는 아직 3인 데이터가 저장되어 있다.

1. write through

데이터베이스에 업데이트할 때마다 매번 캐시에도 데이터를 함께 업데이트시킨다.
👍 캐시는 항상 최신 데이터를 가지고 있을 수 있다.
👎 데이터는 매번 2개의 저장소에 저장되어야 하기 때문에 데이터를 쓸 때마다 시간이 많이 소요될 수 있다.
이 방식을 사용할 경우 데이터를 저장할 때 만료 시간을 사용할 것을 권장한다.

2. cache invalidation

데이터베이스에 값을 업데이트할 때마다 캐시에서는 데이터를 삭제한다.
👍 저장소에서 특정 데이터를 삭제하는 것이 새로운 데이터를 저장하는 것보다 훨씬 리소스를 적게 사용한다.

3. write behind(write back)

쓰기가 빈번하게 발생하는 서비스라면 고려해볼만한 방식이다.
먼저 데이터를 빠르게 접근할 수 있는 캐시에 업데이트한 뒤, 이후에는 건수나 특정 시간 간격 등에 따라 비동기적으로 데이터베이스에 업데이트한다.
👎 캐시에 문제가 생겨 데이터가 날아갈 경우 특정 시간 동안의 데이터가 날아갈 수 있다는 위험성은 감수해야 한다.

캐시에서의 데이터 흐름

레디스는 메모리에 모든 데이터를 저장하며, 기본적으로 메모리는 서버의 스토리지보다 훨씬 적은 양을 보관할 수밖에 없다.
캐시는 가득 차지 않게 유지해야 하며 계속해서 새로운 데이터가 저장되고 기존 데이터는 삭제될 수 있도록 관리되어야 한다.
캐시로 레디스를 사용할 때에는 데이터를 저장함과 동시에 적절한 시간의 TTL 값을 지정하는 것이 좋다.

만료 시간

TTL은 데이터가 얼마나 오래 저장될 것인지를 나타내는 시간 설정이다.
만료 시간이 설정되면 해당 키와 관련된 데이터는 지정된 시간이 지난 후에 레디스에서 자동으로 삭제된다.

> SET a 100
"OK"

> EXPIRE a 60
(integer) 1

> TTL a
(integer) 58

🔼 a라는 키에 100을 저장한 뒤 EXPIRE 커맨드를 이용해 만료 시간을 60초로 설정했다.

> INCR a
(integer) 101

> TTL a
(integer) 51

> RENAME a apple
"OK"

> TTL apple
(integer) 41

🔼 데이터를 조작하거나 키의 이름을 바꿔도 설정된 만료 시간은 변경되지 않는다.

> SET b 100
"OK"

> EXPIRE b 60
(integer) 1

> TTL b
(integer) 57

> SET b banana
"OK"

> TTL b
(integer) -1

🔼 기존 키에 새로운 값을 저장해 덮어 쓸 때는 이전에 설정한 만료 시간은 사라진다.

메모리 관리와 maxmemory-policy 설정

메모리의 용량을 초과하면 레디스는 내부 정책을 사용해 어떤 키를 삭제할지 결정한다.
- maxmemory 설정: 데이터의 최대 저장 용량을 설정
- maxmemory-policy 설정값: 용량을 초과할 때의 처리 방식을 결정

Noeviction

기본값으로, 레디스에 데이터가 가득 차면 에러를 반환하는 설정이다. (데이터 삭제 X)
장애 상황으로 이어질 수 있고, 관리자가 데이터를 직접 지워야 하기 때문에 레디스를 캐시로 사용할 때 권장되지 않는다.

LRU eviction

레디스에 데이터가 가득 찼을 때, 가장 최근에 사용되지 않은 데이터부터 삭제하는 정책이다.
레디스는 LRU 알고리즘을 이용한 2가지 설정값을 가지고 있다.
- volatile-lru: 만료 시간이 설정되어 있는 키에 한해서 LRU 방식으로 삭제
- allkeys-LRU: 모든 키에 대해 LRU 방식으로 삭제

LFU eviction

레디스에 데이터가 가득 찼을 때 가장 자주 사용되지 않은 데이터부터 삭제하는 정책이다.
2가지 설정값을 갖는다.
- volatile-lfu: 만료 시간이 설정되어 있는 키에 한해서 LFU 방식으로 삭제
- allkeys-lfu: 모든 키에 대해 LFU 방식으로 삭제

RANDOM eviction

레디스에 저장된 키 중 하나를 임의로 골라내 삭제한다.
알고리즘을 사용하지 않기 때문에 레디스의 부하를 줄여줄 수 있다. (미세한 차이)
자주 사용하는 캐시를 삭제했다가 다시 넣어주는 작업이 더 크기 때문에 권장되지 않는다.
2가지 설정값을 갖는다.
- volatile-random: 만료 시간이 설정되어 있는 키에 한해 랜덤하게 삭제
- allkeys-random: 모든 키에 대해 랜덤하게 삭제

volatile-ttl

만료 시간이 가장 작은 키를 삭제한다.
근사 알고리즘을 사용하기 때문에 간단하게 키를 찾을 수 있다.

캐시 스탬피드 현상

여러 개의 애플리케이션에서 바라보던 키가 만료되어 삭제된다면, 이 서버들은 한번에 데이터베이스에 가서 데이터를 읽어오는 과정을 거치는데, 이를 중복 읽기라 한다.
이후 각 애플리케이션은 읽어온 데이터를 레디스에 쓰는데, 이 또한 여러 번 반복되기 때문에 중복 쓰기가 발생한다.

적절한 만료 시간 설정

가장 간단한 방법은 만료 시간을 너무 짧지 않게 설정하는 것이다.
여러 애플리케이션에서 한번에 접근해야 하고, 반복적으로 사용되는 데이터라면 만료 시간을 충분히 길게 설정해주는 것이 좋다.

선 계산

def fetch(key):
    value = redis.get(key)
    if(!value):
    	value = db.fetch(key)
        redis.set(value)
    return value

look aside 방식으로 캐시를 사용할 때 애플리케이션은 위 코드와 비슷하게 동작할 것이다.
- 캐시에 데이터가 있는지 확인하고, 없으면 데이터베이스에서 데이터를 가져와 레디스에 저장
만약 키가 실제로 만료되기 전에 이 값을 미리 갱신해준다면 여러 애플리케이션에서 한번에 데이터베이스에 접근해 데이터를 읽어오는 과정을 줄일 수 있을 것이다.

def fetch(key, expiry_gap):
    ttl = redis.ttl(key)
    
    if ttl - (random() * expiry_gap) > 0:
    	return redis.get(key)
    else:
    	value = db.fetch(key)
        redis.set(value, KEY_TTL)
        return value

# Usage
fetch('hello', 2)

레디스가 실제로 만료되기 전 랜덤한 확률로 데이터베이스에 접근해서 데이터를 읽어와 캐시의 값을 갱신한다.
상황에 따라 캐시 스탬피드 현상을 줄일 수 있기 때문에 전체적인 성능을 향상시킬 수도 있다.
이때 expiry_gap 값은 적절히 설정해주는 것이 중요하다. (불필요한 작업이 늘어날 수 있음)

PER 알고리즘

캐시 값이 만료되기 전에 언제 데이터베이스에 접근해서 값을 읽어오면 되는지 최적으로 계산할 수 있다.
데이터를 가져오는 과정에서 GET 대신 아래 함수를 사용하는 것은 캐시 스탬피드 현상을 줄이고 성능을 최적화할 수 있다.

currentTime - ( timeToCompute * beta * log(rand()) ) > expiry

currentTime: 현재 남은 만료 시간
timeToCompute: 캐시된 값을 다시 계산하는 데 걸리는 시간
beta: 기본적으로 1.0보다 큰 값으로 설정 가능
rand(): 0과 1 사이의 랜덤 값을 반환하는 함수
expiry: 키를 재설정할 때 새로 넣어줄 만료 시간

세션 스토어로서의 레디스

세션이란?

서비스를 사용하는 클라이언트의 상태 정보를 의미한다.
레디스는 키-값 형식으로 사용이 간단하며 string, set, hash 등의 자료 구조를 제공하기 때문에 사용자 데이터를 저장하기에 용이하다.

세션 스토어가 필요한 이유

서비스 초창기 또는 프로토타입용 서비스에서는 굳이 세션 스토어가 필요하지 않다.

웹 서버가 늘어나면 여러 개의 웹 서버에 트래픽을 분배할 수 있기 때문에 더 많은 유저를 수용할 수 있다.
이때 각 웹 서버별로 세션 스토어를 따로 관리한다면 유저는 유저의 세션 정보를 갖고 있는 웹 서버에 종속되어야 한다.
👎 특정 웹 서버에 유저가 몰려 트래픽이 집중되는 상황이 발생해도 유저는 다른 서버를 사용할 수 없어, 트래픽을 분산시킬 수 없는 상황이 발생한다.

유저의 세션 정보를 모든 웹 서버에 복제해서 저장하는 방법을 생각해볼 수 있다.
👎 데이터가 복제되면서 불필요한 저장 공간을 차지하게 되고, 불필요한 네트워크 트래픽도 다수 발생하게 된다.

데이터베이스를 세션 스토어로 사용하는 방법도 고려해볼 수 있다.
👎 유저가 많아질수록 서비스의 전반적인 응답 속도를 저하시키는 요인이 될 수 있다.

레디스를 세션 스토어로 사용해 서버, 데이터베이스와 분리하고, 여러 서버에서 세션 스토어를 바라보도록 구성한다.
👍 트래픽을 효율적으로 분산시킬 수 있고, 데이터의 일관성을 지킬 수 있다. (모든 웹 서버가 동일한 세션 스토어 사용)
👍 관계형 데이터베이스보다 훨씬 빠르고 접근하기 편하다.

레디스의 hash 자료 구조는 세션 데이터를 저장하기에 알맞은 형태다.

> HMSET usersession:1 Name Garimoo IP 10:20:104:30 Hits 1
OK

> HINCRBY usersession:1 Hits 1
1) "2"

레디스는 key-value 형태의 저장소이고, 세션 또한 ID로 데이터를 저장하기 때문에 변환 없이 데이터를 그대로 저장할 수 있다.

캐시와 세션의 차이

캐시는 데이터베이스의 완벽한 서브셋으로 동작한다. (look aside 전략)
캐시에 저장된 데이터는 여러 애플리케이션에서 함께 사용할 수 있다.
세션 스토어에 저장된 데이터는 여러 사용자 간 공유되지 않으며, 특정 사용자 ID에 한해 유효하다.

세션이 활성화되어 있는 동안에는 애플리케이션은 유저의 데이터를 세션 스토어에만 저장한다. (데이터베이스 X)
유저가 로그아웃할 때 세션은 종료되며 이때 데이터의 종류에 따라 데이터베이스에 저장해 영구적으로 보관(Ex. 장바구니)할 것인지, 삭제(Ex. 최근 본 상품)할 것인지 결정된다.
세션 스토어에 장애가 발생하면 내부 데이터가 손쇨될 수 있으므로 레디스를 세션 데이터로 활용할 때는 캐시로 사용할 때보다 더 신중한 운영이 필요하다.

References

개발자를 위한 레디스 (REDIS FOR DEVELOPERS)

LIST

'독서 > 개발자를 위한 레디스' 카테고리의 다른 글

[개발자를 위한 레디스] 7장 레디스 데이터 백업 방법 (0)	2024.11.07
[개발자를 위한 레디스] 6장 레디스를 메시지 브로커로 사용하기 (0)	2024.10.29
[개발자를 위한 레디스] 4장 레디스 자료 구조 활용 사례 (0)	2024.10.06
[개발자를 위한 레디스] 3장 레디스 기본 개념 (13)	2024.09.14
[개발자를 위한 레디스] 2장 레디스 시작하기 (0)	2024.08.25

so._.hyeon

[개발자를 위한 레디스] 5장 레디스를 캐시로 사용하기

레디스와 캐시

캐시란?

캐시로서의 레디스

캐싱 전략

읽기 전략 - look aside

쓰기 전략과 캐시의 일관성

1. write through

2. cache invalidation

3. write behind(write back)

캐시에서의 데이터 흐름

만료 시간

메모리 관리와 maxmemory-policy 설정

Noeviction

LRU eviction

LFU eviction

RANDOM eviction

volatile-ttl

캐시 스탬피드 현상

적절한 만료 시간 설정

선 계산

PER 알고리즘

세션 스토어로서의 레디스

세션이란?

세션 스토어가 필요한 이유

캐시와 세션의 차이

References

'독서 > 개발자를 위한 레디스' 카테고리의 다른 글

티스토리툴바

[개발자를 위한 레디스] 5장 레디스를 캐시로 사용하기

레디스와 캐시

캐시란?

캐시로서의 레디스

캐싱 전략

읽기 전략 - look aside

쓰기 전략과 캐시의 일관성

1. write through

2. cache invalidation

3. write behind(write back)

캐시에서의 데이터 흐름

만료 시간

메모리 관리와 maxmemory-policy 설정

Noeviction

LRU eviction

LFU eviction

RANDOM eviction

volatile-ttl

캐시 스탬피드 현상

적절한 만료 시간 설정

선 계산

PER 알고리즘

세션 스토어로서의 레디스

세션이란?

세션 스토어가 필요한 이유

캐시와 세션의 차이

References

'독서 > 개발자를 위한 레디스' 카테고리의 다른 글

'독서/개발자를 위한 레디스' Related Articles

티스토리툴바