[paper]로드뷰에서 정확한 간판 인식을 위한 글자 검출 영역 병합 방법

1. Introduction

컬러 히스토그램을 이용한 방법은 이미지에서 가장 분포가 높은 색(예를 들어 검은색) 또는 최빈 등장 색만 글자로 인식한다는 것인가?
간판에 글자에 자주 사용되는 색깔이 있다는 가정하에 히스토그램을 이용한다는 것인가?
두 단어의 거리를 이용한 방법은 한 단어를 두 단어로 인식한 경우를 해결하기 위해서 두 단어 사이에 대한 특정 스레쉬홀드 값을 지정하고 그보다 거리가 길면 두 단어로 인식하고, 짧으면 한 단어로 인식하게 하는 방법인가?
글자 단위라는 게 문자, 음절, 단어, 어절 무슨 단위인지 헷갈림

2. Background

2-1. 글자 검출 모델: CRAFT

기존의 모델은 단어 단위로 학습 → 변형이 가해진 글자 검출하는데 어려움. clova AI의 craft 모델은 글자 단위의 학습, 글자 간의 인접 여부를 통해 단어 검출 → 변형이 심한 글자도 검출 가능. 로드뷰에 이 모델이 더 적합함.

2-2. 글자 인식 모델: TPS-ResNet-BiLSTM-Attn

STR의 일관되지 않았던 데이터 셋을 일관되게 함. STR 방법을 변환, 특징 추출, Sequence 모델링, 예측이라는 4가지 단계로 분류함. 그래서 STR 방법들 간의 성능 비교가 가능해짐. 본 논문에서는 이 분석을 통해 가장 정확한 조합으로 확인된 STR의 TPS-ResNet-BiLSTM-Attn 조합을 글자 인식 모델로 결정함.

3. Approach

3-1. 간판 인식 시스템

craft 모델로 검출한 간판의 텍스트 영역(bounding box) 탐지
- 탐지된 영역 crop
TPS-ResNet-BiLSTM-Attn 모델로 crop된 영역안에서의 텍스트 인식
- 공개된 한국어 모델이 없어, AI-hub와 MJ-Synth 데이터 셋을 사용(한국어 기준 ACC: 93%, 영어 기준 ACC: 80%)

3-2. 글자 영역 병합 방법

4. Experiment

5. Reference

Twitter Facebook LinkedIn

[paper]로드뷰에서 정확한 간판 인식을 위한 글자 검출 영역 병합 방법

1. Introduction

2. Background

2-1. 글자 검출 모델: CRAFT

2-2. 글자 인식 모델: TPS-ResNet-BiLSTM-Attn

3. Approach

3-1. 간판 인식 시스템

3-2. 글자 영역 병합 방법

4. Experiment

5. Reference

공유하기

댓글남기기

참고

[paper]What Is Wrong With Scene Text Recognition Model

[project]Yolo v3로 news 단락 구분 모델 만들기

[paper]Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

[paper]Deep Residual Learning for Image Recognition