컴퓨터 공학 기초, 운영체제, 가비지 컬렉션, 캐시

✍️ Today I Learned

1. 컴퓨터 공학 기초

1-1. 문자열

유니코드

2010년도 이후, 유니코드라고 불리우는 인코딩 방식이 통일된 시대를 살아가고 있다. 유니코드(Unicode) 란 유니코드 협회(Unicode Consortium)가 제정하는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준이다. 이 표준에는 ISO 10646 문자 집합, 문자 인코딩, 문자 정보 데이터베이스, 문자를 다루기 위한 알고리즘 등을 포함하고 있다.

유니코드가 탄생하기 이전에는 같은 한글이 적힌 텍스트 파일이라도 표현하는 방법이 제각각이었기에, 어떤 파일이 지원하지 않는 다른 인코딩 형식으로 저장되어 있는 경우에는 파일을 제대로 불러올 수 없는 문제가 발생했었다. 기본적으로 유니코드의 목적은 현존하는 문자 인코딩 방법을 모두 유니코드로 교체하는 것이다.

인코딩(부호화)란?

인코딩이란 어떤 문자나 기호를 컴퓨터가 이용할 수 있는 신호로 만드는 것이다. 이 신호를 입력하는 인코딩과 문자를 해독하는 디코딩을 하기 위해서는 미리 정해진 기준을 바탕으로 입력과 해독이 처리되어야 한다. 이렇게 인코딩과 디코딩의 기준을 문자열 세트 또는 문자셋(charset)이라고 하며, 이 문자셋의 국제 표준이 유니코드이다.

ASCII 문자

American Standard Code for Information Interchange 의 약자이며, 영문 알파벳을 사용하는 대표적인 문자 인코딩으로 7 비트로 모든 영어 알파벳을 표현할 수 있다. 52개의 영문 알파벳 대소문자와, 10개의 숫자, 32개의 특수 문자, 그리고 하나의 공백 문자를 포함한다.

그런데 쓰다보니 7비트 128개만으로는 표현하기에 부족하였다. 그렇게 탄생한 문자가 2^8개의 문자를 표현하는 8비트 아스키코드가 나왔다. 이 녀석을 ANSI 코드라고 한다. 이렇게 1 바이트만으로 표현되는 방식을 SBCS(Single Byte Character Set) 라고 한다.

반면, 유니코드는 ASCII, ANSI 외에 한자, 한글 등 모든 언어를 취급하는 16비트 2바이트의 크기로 확장한 형태이다.

UTF-8

UTF-8과 UTF-16은 인코딩 방식의 차이를 의미한다. UTF-8은 Universal Coded Character Set + Transformation Format – 8-bit의 약자로, UTF- 뒤에 등장하는 숫자는 비트(bit)이다.
UTF-8 은 유니코드 한 문자를 나타내기 위해 1 byte(= 8 bits) 에서 4 bytes까지 가변 길이 인코딩을 사용한다.
예를 들어, 코 라는 문자의 유니코드는 U+CF54 (16진수, HEX)로 표현되며, 이 문자를 이진법(binary number)으로 표시하면, 1100-1111-0101-0100 이 된다. 이 문자를 UTF-8로 표현하면, 다음과 같이 3byte 의 결과로 표현된다.
```
1110xxxx 10xxxxxx 10xxxxxx # x 안에 순서대로 값을 채워넣습니다.
11101100 10111101 10010100
	```
```
다른 예로 b라는 ASCII 코드는 7비트로 표현되고, UTF-8 에서는 다음과 같이 1 byte의 결과로 만들 수 있다
```
0xxxxxxx
01100010
	```
```
이처럼, UTF-8은 1 byte에서 4 bytes까지의 가변 길이를 가지는 인코딩 방식이다. 네트워크를 통해 전송되는 텍스트는 주로 UTF-8로 인코딩되며 그 이유는 사용된 문자에 따라 더 작은 크기의 문자열을 표현할 수 있기 때문이다. ASCII 문자는 1 바이트만으로 표현 가능한 것처럼 효율적이다.

UTF-8은 ASCII 코드의 경우 1 byte, 영어 외 글자는 2byte, 3byte, 보조 글자및 특수문자는 4byte를 차지한다. ex) 이모지는 보조 글자에 해당하기 때문에 4byte가 필요하다.

UTF-16

UTF-16은 유니코드 코드 대부분(U+0000부터 U+FFFF; BMP) 을 16 bits로 표현한다.
- 대부분에 속하지 않는 기타문자는 32 bit(4 bytes)로 표현하므로 UTF-16도 가변길이라고 할 수 있으나, 대부분은 2 바이트로 표현한다
U+ABCD라는 16진수를 있는 그대로 이진법으로 변환하면 1010-1011-1100-1101 이다. 이 이진법으로 표현된 문자를 16 bits(2 bytes)로 그대로 사용하며, 바이트 순서(엔디언)에 따라 UTF-16의 종류도 달라진다.
UTF-8에서는 한글은 3 바이트, UTF-16에서는 2 바이트를 차지한다.

1-2. 그래픽

비트맵(래스터)과 벡터 이미지의 차이점

Orc_-_Raster_vs_Vector_comparison

	비트맵(래스터)	벡터
기반 기술	픽셀 기반	수학적으로 계산된 Shape 기반
특징	사진과 같이 색상의 조합이 다양한 이미지에 적합	로고, 일러스트와 같이 제품에 적용되는 이미지에 적합
확대	확대에 적합하지 않음, 보다 큰 사이즈의 이미지가 필요할 때 사용하려는 크기 이상으로 생성하거나 스캔해야 함	품질 저하없이 모든 크기로 확대 가능하며, 해상도의 영향을 받지 않음
크기(dimension)에 따른 파일 용량(file size)	큰 크기의 이미지는, 큰 파일 사이즈를 가짐	큰 크기의 벡터 그래픽은 작은 파일 사이즈를 유지할 수 있음
상호 변환	이미지의 복잡도에 따라 벡터로 변환하는 것에 오랜 시간이 걸림	쉽게 래스터 이미지로 변환 가능
대표적인 파일 포맷	jpg, gif, png, bmp, psd	svg, ai
웹에서의 사용성	jpg, gif, png 등이 널리 쓰임	svg 포맷은 현대의 브라우저에서 대부분 지원

2. 운영체제

2-1. 운영체제 개요

컴퓨터나 스마트폰의 기기 그 자체(하드웨어)는 스스로 할 수 있는 일이 없다. 하드웨어의 설계를 바탕으로 하드웨어에게 일을 시켜야만 그 의미가 있으며 하드웨어에게 일을 시키는 주체가 바로 운영체제이다.

시스템 자원 관리

운영체제가 없다면, 응용 프로그램이 실행될 수 없다. 응용 프로그램은 컴퓨터를 이용해 다양한 작업을 하는 것이 목적이고, 운영체제는 응용 프로그램이 하드웨어에게 일을 시킬 수 있도록 도와준다.

하드웨어를 구성하는 일을 하는 CPU, 자료를 저장하는 RAM, 디스크 등의 시스템 자원을 관리하는 주체가 바로 운영체제이다.
- 프로세스 관리(CPU)
- 메모리 관리
- I/O(입출력) 관리 (디스크, 네트워크 등)

응용 프로그램 관리

모든 응용 프로그램이 시스템의 자원을 마음대로 사용한다면, 해커에 의한 응용프로그램 공격에 무방비한 상태가 된다. 악의적인 목적을 가진 프로그램이 디스크의 모든 민감한 정보에 접근하거나, 내 스마트폰의 특정 앱이 카메라를 아무때나 실행해서 촬영한다고 생각하면 어떨까?

따라서, 응용 프로그램은 권한에 대한 관리가 필요하다. 또한 여러 사람이 하나의 기기를 사용하는 경우에는 사용자를 관리하는 일도 매우 중요하다. 이를 관리하는 주체는 운영체제이다.
응용 프로그램이 운영체제와 소통하기 위해서는 운영체제가 응용 프로그램을 위해 인터페이스(API)를 제공해야 한다. 응용 프로그램이 시스템 자원을 사용할 수 있도록, 운영체제 차원에서 다양한 함수를 제공하는 것을 시스템 콜(System call)이라고 부른다. ex) 스마트폰에서 사용자에게 어떤 디바이스(카메라 등)의 사용권한 묻는 창

2-2. 프로세스, 스레드, 멀티 스레드

프로세스(Process)

운영체제에서는 실행 중인 하나의 애플리케이션을 프로세스라고 부른다.
사용자가 애플리케이션을 실행하면, 운영체제로부터 실행에 필요한 메모리를 할당 받아 애플리케이션의 코드를 실행한다. 이때 실행되는 애플리케이션을 프로세스라고 부른다.

ex) Chrome 브라우저를 두 개 실행하면, 두 개의 프로세스가 생성된다.

이렇게 하나의 애플리케이션은 여러 프로세스(다중 프로세스)를 만들기도 한다.

스레드(Thread)

프로세스 내에서 실행되는 흐름의 단위이다.
일반적으로 한 프로그램은 하나의 스레드를 가지고 있지만, 프로그램 환경에 따라 둘 이상의 스레드(멀티 스레드)를 동시에 실행할 수 있으며 각각의 스레드는 다른 스레드와 독립적으로 동작한다.

멀티 스레드(Multi-Thread)

멀티 태스킹은 두 가지 이상의 작업을 동시에 처리하는 것을 의미한다.

운영체제는 멀티 태스킹을 할 수 있도록, 프로세스마다 CPU 및 메모리 자원을 적절히 할당하고 병렬로 실행한다. ex)워드로 문서작업을 하면서, 동시에 Chrome 브라우저에서 음악을 들을 수 있다.
하나의 프로세스 내에서 멀티 태스킹을 할 수 있도록 만들어진 애플리케이션도 있기에 멀티 태스킹은 꼭 멀티 프로세스를 의미하는 것은 아니다. 하나의 프로세스가 두 가지 이상의 작업을 처리하는 경우는 멀티 스레드가 가능한 프로세스인 경우이기 때문이다.
멀티 프로세스가 애플리케이션 단위의 멀티 태스킹이라면, 멀티 스레드는 애플리케이션 내부에서의 멀티 태스킹이라고 할 수 있다.
프로세스를 이용하여 동시에 처리하던 일을 멀티 스레드로 구현할 경우, 메모리 공간과 시스템 자원의 소모가 줄어든다(각각의 프로세스는 스레드와 달리 실행시 필요한 메모리를 운영체제로 부터 할당 받는다). 그러므로 자연스럽게 프로그램의 응답 시간이 단축된다는 장점이 있다.
멀티 프로세스 기반으로 프로그래밍할 때에는 프로세스 간 공유하는 자원이 없기에 동일한 자원에 동시에 접근하는 일이 없었지만, 멀티 스레딩을 기반으로 프로그래밍할 때에는 공유하는 자원에 대하여 서로 다른 스레드가 같은 데이터에 접근하고 힙 영역을 공유하기 때문에, 서로 다른 스레드가 서로 사용중인 변수나 자료구조에 접근하여 엉뚱한 값을 읽어오거나 수정을 하는 얘기치 않은 사이드이펙트가 발생할 수 있다는 단점이 있다.

3. 가비지 컬렉션(Garbage Collection, GC)

가비지 컬렉션은 메모리 관리 기법 중의 하나로, 프로그램이 동적으로 할당했던 메모리 영역 중에서 필요없게 된 영역을 해제하는 기능이다.
대표적인 가비지 컬렉션의 방법
- 트레이싱 : 한 객체에 flag를 두고, 가비지 컬렉션 사이클마다 flag에 표시 후 삭제하는 mark and sweep 방법이다.
- 레퍼런스 카운팅 : 한 객체를 참조하는 변수의 수를 추적하는 방법이다.

4. 캐시

많은 시간이나 연산이 필요한 작업의 결과를 저장해두는 것을 의미한다.
컴퓨팅에서 캐시는 일반적으로 일시적인(temporarily) 데이터를 저장하기 위한 목적으로 존재하는 고속의 데이터 저장공간(일반적으로 RAM과 같이 빠르게 액세스할 수 있는 하드웨어)이다.

첫 작업 이후에 이 데이터에 대한 요청이 있을 경우, 데이터의 기본 저장공간에 접근할 때보다 더 빠르게 요청을 처리할 수 있게되며, 캐싱을 사용하면 이전에 검색하거나 계산한 데이터를 효율적으로 재사용할 수 있다.
속도를 위해 용량을 절충하는 캐시는 일반적으로 데이터의 하위 집합을 일시적으로 저장한다. 완전하고 영구적인 데이터가 있는 데이터베이스와는 대조적이다.

🤔 Understanding

컴퓨터 이론에 대해 학습하였다. 사실 공학에 관련된 내용이기에, 기재된 내용은 굉장히 빙산의 일각만도 못한 굉장히 적은 영역에서의 컴퓨터 공학 개론이다.
앞으로 알아갈 혹은 배웠던 내용들이 비전공자여도 내용중 이정도는 짚고넘어가야 이해가 원활하기때문에 이런 챕터가 있다 생각된다.