[데이터베이스] 트랜잭션과 락
데이터베이스의 락
데이터베이스에서는 여러 트랜잭션이 동시적으로 실행될 수 있다. 이 때 서로 다른 트랜잭션이 동일한 데이터에 대해 쓰기 작업을 수행하는 경우, 또는 하나의 트랜잭션은 읽기 작업을 수행하는 동시에 다른 트랜잭션이 쓰기 작업을 수행하는 경우 데이터의 일관성(consistency)과 관련된 문제가 발생할 수 있다.
시스템이 분산(distributed) 환경에서 다중 스레드 및 다중 프로세스로 구성되어 있어 여러 트랜잭션이 공유 자원(shared resource)에 대해 동시적인 접근을 하는 상황이라면 공유 자원에 대한 데이터 경합(data race)을 방지하기 위해 트랜잭션을 제어해야 하는데 이를 동시 실행 제어(concurreny control)(또는 동시성 제어)라고 한다. 데이터베이스의 락(lock)은 데이터베이스에 저장되는 데이터를 대상으로 수행하는 트랜잭션 동시 실행 제어 기법 중 하나이다.
데이터베이스에서 수행하는 작업은 크게 다음과 같다.
- 읽기 (read): 데이터를 조회하는 작업이다.
- 쓰기 (write)(또는 수정(modification)): 데이터를 수정하는 작업이다. 수정하는 작업에는 삽입(insert), 갱신(update), 삭제(delete)가 있다.
데이터베이스 락은 동시에 실행되는 트랜잭션이 동일한 데이터에 접근하지 못하도록 한다. 하나의 트랜잭션이 데이터에 접근하여 작업을 완료할 때까지 다른 트랜잭션은 동일한 데이터에 접근할 수 없으며 작업이 완료될 때까지 기다려야 한다. 이를 상호 배제(mutual exclusion)라고 한다. 락은 상호 배제를 기반으로 한다.
트랜잭션은 데이터에 대해 락을 획득(acquire) 및 해제(release)한다. 트랜잭션이 락을 획득하면 해당 데이터에 대한 읽기 또는 쓰기 작업을 독점하고 다른 트랜잭션의 접근을 제한할 수 있게 된다. 락은 전략에 따라 작업이 포함된 전체 트랜잭션이 끝나야 해제되거나, 트랜잭션이 끝나기 전에라도 해당 작업이 수행 완료되면 해제될 수 있다.
락의 획득 및 해제 대상인 데이터(락 단위)는 데이터베이스의 테이블, 테이블의 로우(row)(또는 레코드(record)) 등이 될 수 있다. 락 대상 데이터의 크기와 락의 제어 수준과 전략에 따라 트랜잭션의 동시 실행 수준과 데이터의 일관성을 얼마나 유지할 수 있는지가 달라진다.
- 락 대상 데이터가 크고 락의 제어 수준이 낮을수록 동시 실행 수준은 낮아지지만 제어 방법이 쉬워진다.
- 락 대상 데이터가 작고 락의 제어 수준이 높을수록 동시 실행 수준은 높아지지만 제어 방법이 어려워진다.
락은 기본적으로 크게 다음과 같이 분류할 수 있다. 데이터베이스에 따라 추가적인 락 기법이 존재할 수 있다.
- 공유 락 (shared lock): 트랜잭션이 공유 락을 획득하면 해당 데이터를 읽을 수 있지만 쓸 수는 없으며 다른 트랜잭션은 공유 락을 획득할 수 있다. 공유 락이 설정된 데이터에 대해, 하나의 트랜잭션이 데이터를 읽는 동안에는 다른 트랜잭션이 해당 데이터를 읽을 수 있지만 쓸 수는 없다. 즉, 하나 이상의 트랜잭션이 동시에 데이터를 읽을 수 있지만 어떠한 트랜잭션도 데이터를 쓸 수는 없다. 공유 락을 읽기 락(read lock)이라고도 한다.
- 배타 락 (exclusive lock): 트랜잭션이 공유 베타 락을 획득하면 해당 데이터를 읽고 쓸 수 있으며 다른 트랜잭션은 공유 락과 배타 락 중 어떠한 락도 획득할 수 없다. 배타 락이 설정된 데이터에 대해, 하나의 트랜잭션이 데이터를 읽거나 쓰는 동안에는 다른 트랜잭션이 해당 데이터를 읽거나 쓸 수 없다. 즉, 데이터에 대한 접근은 단 하나의 트랜잭션으로 제한된다. 배타 락을 쓰기 락(write lock)이라고도 한다.
- 분산 락 (distributed lock): 단일 데이터베이스 인스턴스가 아닌, 다중 인스턴스로 구성된 분산 시스템에서 데이터에 대한 동시 접근 제어를 설정하기 위한 락을 분산 락이라고 한다. 분산 환경에서 여러 인스턴스가 동일한 데이터에 접근하는 경우 데이터 일관성을 유지하기 위해서는 분산 락이 필요하다.
공유 락과 배타 락은 다음과 같은 관계를 갖는다. 하나의 데이터에 대해 여러 트랜잭션은 공유 락을 함께 획득할 수 있지만, 배타 락은 하나의 트랜잭션만 획득 가능하다. 하나의 트랜잭션이 공유 락을 획득한 상태라면, 다른 트랙잭션은 공유 락만 획득할 수 있으며 배타 락을 획득할 수 없다. 하나의 트랜잭션이 배타 락을 획득한 상태라면, 다른 트랜잭션은 어떠한 락도 획득할 수 없다.
예를 들어, 트랜잭션1이 데이터에 대해 공유 락을 가지고 있는 경우, 트랜잭션2의 해당 데이터에 대한 락 요청은 다음과 같이 처리된다.
- 데이터에 대한 트랜잭션2의 공유 락 요청은 즉시 승인된다. 그 결과 트랜잭션1과 트랜잭션2 모두 데이터에 대해 공유 락을 획득한다.
- 데이터에 대한 트랜잭션2의 배타 락 요청은 즉시 승인될 수 없다. 그 결과 트랜잭션1만 공유 락을 획득한 상태가 유지된다. 트랜잭션2는 트랜잭션1이 데이터에 대한 공유 락을 해제할 때까지 기다려야 한다.
트랜잭션1이 데이터에 대해 배타 락을 가지고 있는 경우, 트랜잭션2의 해당 데이터에 대한 락 요청은 다음과 같이 처리된다.
- 데이터에 대한 트랜잭션2의 공유 락 요청과 배타 락 요청은 즉시 승인될 수 없다.
- 트랜잭션2는 트랜잭션1이 데이터에 대한 락을 해제할 때까지 기다려야 한다.
트랜잭션 격리와 동시 실행 제어
동시성 환경에서 서로 다른 트랜잭션은 서로의 작업에 영향을 미칠 수 있으며 트랜잭션의 작업은 적절히 보호되어야 한다. 트랜잭션의 작업이 영향을 받는 경우는 크게 두 가지이다.
- 하나의 트랜잭션이 데이터를 읽는 동안 다른 트랜잭션이 데이터를 쓰는 경우, 읽는 작업이 영향을 받는다.
- 하나의 트랜잭션이 데이터를 쓰는 동안 다른 트랜잭션이 데이터를 쓰는 경우, 쓰기 작업이 영향을 받는다.
서로 다른 트랜잭션이 동일한 데이터에 접근함으로써 위와 같은 문제가 발생하는 상황을 경쟁 조건(race condition)이라고 한다. 경쟁 조건이 발생하면 데이터의 일관성이 낮아진다. 이러한 경쟁 조건을 피하기 위해 트랜잭션들의 데이터 접근은 적절한 수준으로 제어되어야 한다. 동시 실행 제어를 위한 기법 중 하나인 락을 사용하여 서로 다른 트랜잭션이 동일한 데이터에 동시적으로 접근하는 것을 막을 수 있다.
읽고 쓰는 작업을 수행하는 트랜잭션이 다른 트랜잭션의 쓰기 작업에 의해 받는 영향을 줄이고 데이터의 일관성을 유지하기 위한 방법은 트랜잭션을 격리(isolation)하여 트랜잭션을 보호하는 것이다.
동시에 실행 중인 트랜잭션을 완전히 격리하면 한 트랜잭션은 다른 트랜잭션이 접근 중인 데이터를 수정할 수 없다.
트랜잭션 격리
트랜잭션 격리(transaction isolation)란 여러 트랜잭션이 동시에 진행 중일 때, 한 트랜잭션은 다른 트랜잭션이 진행 중인지 알지 못하게 하는 것을 말한다. 격리 수준(isolation level)이 낮으면 한 트랜잭션이 다른 트랜잭션의 진행을 알 수 있으며, 격리 수준이 높으면 한 트랜잭션이 다른 트랜잭션의 진행을 알 수 없다.
트랜잭션 격리는 데이터베이스의 락 또는 로우 버저닝(row versioning) 등의 다른 동기화 메커니즘을 기반으로 수행된다. 격리 수준은 일관성 보장을 위해 서로 다른 락 전략을 사용한다. 트랜잭션을 어느 수준으로 격리할지는 데이터의 일관성과 락을 위한 시스템의 리소스 부하 정도에 영향을 미치므로 상황에 맞는 적절한 선택이 중요하다. 데이터의 높은 일관성을 위해 트랜잭션 격리 수준을 높게 설정할수록 데이터베이스의 락 동작 방식이 복잡해진다.
트랜잭션 격리가 일어나지 않는 경우 발생할 수 있는 문제는 크게 네 가지이며 트랜잭션의 격리는 그 수준에 따라 네 가지 문제 중 일부를 막을 수 있게 해준다.
동일한 데이터에 대해 하나의 트랜잭션이 읽기 작업을, 다른 트랜잭션이 쓰기 작업을 동시적 수행할 때 발생할 수 있는 문제는 다음과 같다.
- 오염된 값 읽기 (dirty read): 트랜잭션2가 데이터를 수정하였지만 커밋을 하기 전 상태에서 트랜잭션1이 수정된 데이터를 읽고 작업을 수행하는 도중 트랜잭션2가 롤백되면 트랜잭션1이 읽은 데이터는 일시적인 값으로 더 이상 유효하지 않다.
- 재현 불가능한 읽기 (nonrepeatable ead): 트랜잭션1이 하나의 데이터를 두 번 읽을 때, 첫 번째로 데이터를 읽은 후 트랜잭션2가 해당 데이터를 수정하고 커밋을 한 경우 트랜잭션1이 동일한 데이터를 다시 읽으면 이전의 데이터와는 다른 데이터를 얻게 된다.
- 허상 읽기 (phantom read): 트랜잭션1이 쿼리(여러 데이터를 조회하는 작업 수행)를 두 번 실행할 때, 첫 번째로 실행 후 트랜잭션2가 데이터를 삽입하거나 삭제하고 커밋한 경우 트랜잭션1이 두 번째로 실행하면 트랜잭션2가 삽입한 데이터가 보이거나 삭제한 데이터가 보이지 않게 된다.
위 문제를 해결하기 위해 트랜잭션을 격리하여 읽기 작업을 수행하는 트랜잭션의 읽기 일관성을 유지할 수 있다.
서로 다른 트랜잭션이 동일한 데이터에 대해 쓰기 작업을 동시적 수행할 때 발생할 수 있는 문제는 다음과 같다.
- 소실된 수정 (lost update): 트랜잭션1과 트랜잭션2가 동일한 데이터를 읽고 수정하려는 경우 트랜잭션1이 먼저 데이터를 수정하고 커밋을 하기 전에 트랜잭션2가 동일한 데이터를 수정하였고 트랜잭션1이 커밋한 후에 트랜잭션2도 커밋을 하게 되면 트랜잭션1이 수정한 데이터를 트랜잭션2가 덮어쓰게 되어 트랜잭션1이 수정한 데이터가 소실된다.
위 문제를 해결하기 위해 트랜잭션을 격리하여 쓰기 작업을 수행하는 트랜잭션의 쓰기 일관성을 유지할 수 있다.
이러한 문제를 해결하기 위해 트랜잭션을 격리해야 하며 격리 수준에 따라 데이터의 일관성이 달라지게 된다. 격리 수준이 높을수록 데이터의 일관성이 높아진다.
트랜잭션 격리 수준은 다음과 같다(낮은 순서대로).
- 커밋되지 않은 데이터 읽기 (read uncommitted): 다른 트랜잭션이 아직 커밋하지 않은(uncommitted) 값을 한 트랜잭션이 읽을 수 있다. 읽기 락은 발생하지 않지만 쓰기 락은 발생 가능하다. 쓰기 락은 트랜잭션 종료까지 유지된다. 이 격리 수준에서는 오염된 값 읽기, 재현 불가한 읽기, 허상 읽기 문제가 발생 가능하다.
- 커밋된 데이터 읽기 (read committed): 한 트랜잭션이 다른 트랜잭션이 커밋한(committed) 값만 읽을 수 있다. 읽기 락과 쓰기 락 모두 발생 가능하다. 읽기 락은 작업이 완료되면 해제되지만 쓰기 락은 트랜잭션이 종료될 때까지 유지된다. 이 격리 수준에서는 오염된 값 읽기 문제를 해결할 수 있지만, 재현 불가한 읽기, 허상 읽기 문제는 발생 가능하다.
- 재현 가능한 읽기 (repeatable read): 트랜잭션이 데이터를 여러 번 읽어도 동일한 데이터를 읽도록 보장하며 읽기 작업 트랜잭션이 지속되는 동안에 다른 트랜잭션은 해당 데이터의 삽입은 가능하지만 변경, 삭제를 할 수 없다. 읽기 락과 쓰기 락 모두 발생 가능하다. 읽기 락과 쓰기 락 모두 트랜잭션이 종료될 때까지 유지된다. 이 격리 수준에서는 오염된 값 읽기, 재현 불가한 읽기 문제를 해결할 수 있지만, 허상 읽기 문제는 발생 가능하다.
- 직렬화 가능한 읽기 (serializable read): 트랜잭션이 테이블을 여러 번 읽어도 정확히 동일한 로우를 읽도록 보장하며 읽기 작업 트랜잭션이 지속되는 동안에는 다른 트랜잭션이 해당 테이블에 삽입, 변경, 삭제를 할 수 없다. 읽기 락과 쓰기 락 모두 발생 가능하다. 이 때 두 락은 로우 레벨에 대한 락이다. 읽기 락과 쓰기 락 모두 트랜잭션이 종료될 때까지 유지된다. 이 격리 수준은 동시성 문제를 모두 해결하지만 성능이 현저히 떨어진다.
트랜잭션 격리 수준은 데이터의 일관성과 작업 처리의 동시성 수준, 락을 위한 시스템의 리소스 부하 정도의 트레이드 오프(trade-off)라고 볼 수 있다. 격리 수준이 낮으면 많은 작업을 동시에 처리할 수 있고 락을 위한 시스템의 리소스 부하가 낮지만, 데이터 일관성이 낮다. 격리 수준이 높으면 데이터 일관성은 높지만 작업을 동시에 처리할 수 있는 수준이 낮고 락을 위한 시스템의 리소스 부하가 높다. 따라서 애플리케이션이 데이터 일관성과 작업 처리의 동시성, 락을 위한 시스템의 리소스 부하 정도 중 어떤 부분을 더 우선 순위에 두는지에 따라 격리 수준을 조절해야 한다.
낙관적 동시 실행 제어와 비관적 동시 실행 제어
동시 실행 제어는 필요성에 따라 다음과 같이 크게 두 가지로 분류할 수 있다. 애플리케이션은 이 두 가지 방법 중 하나를 선택하여 요구 사항과 필요성에 맞게 데이터 경합을 해결하고 데이터의 일관성을 유지할 수 있다.
- 낙관적 동시 실행 제어(optimisic concurrency control) 또는 낙관적 락(optimistic lock): 데이터에 락을 설정하지 않는다. 트랜잭션은 동시적으로 데이터에 접근하여 읽고 쓰는 작업을 수행할 수 있다.
- 비관적 동시 실행 제어(perssimistic concurrency control) 또는 비관적 락(perssimistic lock): 데이터에 읽기 락 또는 쓰기 락을 설정한다.
낙관적 동시 실행 제어는 데이터 충돌이 발생할 가능성이 낮거나 락으로 인한 리소스 오버헤드가 높아 락을 사용하지 않는 것이 효율적이라는 가정을 기반으로 한다. 낙관적 동시 실행 제어는 트랜잭션이 데이터를 읽거나 수정하는 도중에 락을 사용하지 않으며 한 트랜잭션이 데이터를 수정하는 동안에도 다른 트랜잭션이 데이터를 수정할 수 있도록 한다. 여러 트랜잭션이 데이터를 동시에 수정하는 경우 하나의 트랜잭션이 수정을 완료하고 커밋하여 트랜잭션을 종료하면 다른 트랜잭션은 변경한 데이터를 커밋할 수 없으며 커밋을 시도하는 순간 데이터 충돌이 발생할 수 있다. 낙관적 동시 실행 제어는 서로 다른 트랜잭션이 데이터에 동시에 접근하는 것을 제한하는 대신 트랜잭션이 커밋할 때까지 데이터 충돌 발생 시점을 뒤로 미룬다. 즉, 트랜잭션이 커밋을 하기 전에는 데이터 충돌이 발생하지 않는다.
낙관적 동시 실행 제어에서 서로 다른 트랜잭션은 서로의 작업의 진행 여부에 대해 알지 못한 채 자신만의 데이터 수정 작업을 수행하며 커밋을 가장 먼저한 트랜잭션의 작업이 먼저 반영된다. 하나의 데이터에 동시에 접근하여 수정하는 경우가 많지 않은 경우(데이터 충돌이 적은 경우), 데이터 수정 작업이 매우 긴 시간 간격으로 이루어지는 경우 낙관적 동시 실행 제어가 유용하다.
비관적 동시 실행 제어는 데이터 충돌이 발생할 가능성이 높거나 락으로 인한 리소스 오버헤드를 충분히 감당할 수 있는 환경에서 락을 사용하는 것이 효율적이라는 가정을 기반으로 한다. 비관적 동시 실행 제어는 데이터에 대한 읽기 작업과 쓰기 작업이 진행되는 동안 락을 사용한다.
- 읽기 락: 하나의 트랜잭션이 데이터를 읽는 동안 다른 트랜잭션은 데이터를 읽을 수 있지만 수정할 수 없다.
- 쓰기 락: 하나의 트랜잭션이 데이터를 읽거나 쓰는 동안에는 다른 트랜잭션이 해당 데이터를 읽거나 쓸 수 없다.
비관적 동시 실행 제어는 락을 통해 하나의 트랜잭션만 데이터에 접근할 수 있도록 제한하고, 서로 다른 트랜잭션이 데이터에 동시에 접근하는 것 자체를 제한하여 데이터 충돌을 방지한다.
비관적 동시 실행 제어에서 하나의 트랜잭션은 다른 트랜잭션의 작업의 진행 여부에 대해 알 수 있으며, 데이터 수정 작업을 먼저 시작하여 완료하는 트랜잭션의 작업이 먼저 반영된다. 다른 트랜잭션은 작업이 끝날 때까지 대기해야 한다. 하나의 데이터에 동시에 접근하여 수정하는 경우가 많은 경우(데이터 충돌이 많은 경우), 데이터 수정 작업이 매우 짧은 시간 간격으로 이루어져 새롭게 시작하는 작업이 기존 작업이 완료될 때까지 충분히 기다릴 수 있는 경우, 데이터 충돌 발생 시 트랜잭션을 롤백하는 비용보다 락으로 데이터를 보호하는 비용이 저렴할 경우 비관적 동시 실행 제어가 유용하다.
로우 버저닝을 통한 트랜잭션 격리
데이터베이스 격리 수준과 애플리케이션 락
참고
- https://cloud.google.com/firestore/docs/transaction-data-contention?hl=ko
- https://www.ibm.com/docs/en/rational-clearquest/7.1.0?topic=clearquest-optimistic-pessimistic-record-locking
- https://docs.actian.com/zen/v14/index.html#page/adonet/isolation.htm
- https://dev.mysql.com/doc/refman/8.4/en/innodb-locking.html
- https://learn.microsoft.com/en-us/sql/relational-databases/sql-server-transaction-locking-and-row-versioning-guide?view=sql-server-ver16
- https://docs.oracle.com/en/database/oracle/oracle-database/19/cncpt/data-concurrency-and-consistency.html
Comments