zhimengsub · Mar 9, 2023
diff --git a/‎.gitignore
+2-1 b/‎.gitignore
+2-1
diff --git a/‎FullwidthConverter.py
+17-32 b/‎FullwidthConverter.py
+17-32
diff --git a/‎README.md
+147-64 b/‎README.md
+147-64
@@ -135,4 +135,5 @@ dmypy.json
 /dist
 *.spec
 !Caption2Txt.bat
-/.idea
+/.idea
+*.clt
@@ -1,8 +1,12 @@
-import argparse
 import os
-import sys
 import traceback
 from argparse import RawTextHelpFormatter
+from pathlib import Path
+from typing import Union
+
+from utils.argparser import MyParser
+from utils.logfile import _print, setLogfile, closeLogfile, print
+from utils.misc import mkFilepath
 
 VER = 'v1.0.4_halfwidth-sp'
 
@@ -34,21 +38,6 @@
     'ﾗ': 'ラ', 'ﾘ': 'リ', 'ﾙ': 'ル', 'ﾚ': 'レ', 'ﾛ': 'ロ',
     'ﾜ': 'ワ', 'ﾝ': 'ン', 'ｦ': 'ヲ',
 }
-oldprint = print
-logfile = None
-def print(*args, **kwargs):
-    oldprint(*args, **kwargs)
-    if logfile:
-        oldprint(*args, **kwargs, file=logfile)
-
-class MyParser(argparse.ArgumentParser):
-    def error(self, message):
-        self.print_help()
-        print()
-        args = {'prog': self.prog, 'message': message}
-        sys.stderr.write(('%(prog)s: error: %(message)s\n') % args)
-        os.system('pause')
-        self.exit(2)
 
 def initparser():
     parser = MyParser(description=DESCRIPTION, formatter_class=RawTextHelpFormatter)
@@ -58,10 +47,6 @@ def initparser():
     parser.add_argument('--log', action='store_true', help='记录日志，执行结果输出到<输入文件名>_log.txt')
     return parser
 
-def mkOutfilename(infile: str, namesuf='_out'):
-    name, suf = os.path.splitext(infile)
-    return name+namesuf+suf
-
 def convertline(line: str, lookup: dict):
     # 日字的数字、全角空格、全角标点符号不能改，可能还是改回查找表，并且额外增加浊音半浊音
     # 不能用str.translate，因为带浊音的假名是两个字符
@@ -70,23 +55,23 @@ def convertline(line: str, lookup: dict):
         line = line.replace(old, new)
     return line
 
-def doconvert(inname, outname, lookup):
+def doconvert(inpath, outpath: Union[str, Path], lookup):
     cnter = 0
     encodings = ['utf-8-sig', 'gbk']
     infile = None
     outfile = None
     for encoding in encodings:
         try:
-            infile = open(inname, 'r', encoding=encoding)
-            outfile = open(outname, 'w', encoding=encoding)
+            infile = open(inpath, 'r', encoding=encoding)
+            outfile = open(outpath, 'w', encoding=encoding)
             while line := infile.readline():
                 nline = convertline(line, lookup)
                 if nline != line:
                     cnter += 1
                     print(line.rstrip('\n'), '->\n\t', nline.rstrip('\n'))
                     print()
                 outfile.write(nline)
-            print('\n完成! 共转换了', cnter, '行，已保存至', outname)
+            print('\n完成! 共转换了', cnter, '行，已保存至', str(outpath))
             return True
         except UnicodeDecodeError:
             continue
@@ -104,17 +89,17 @@ def doconvert(inname, outname, lookup):
     return False
 
 def main():
-    global logfile
     parser = initparser()
     args = parser.parse_args()
     if args.log:
-        logfile = open(mkOutfilename(args.InputFile, '_log'), 'w', encoding='utf-8')
+        logpath = mkFilepath(args.InputFile, '.txt', '_log')
+        setLogfile(logpath)
     try:
         print(DESCRIPTION)
         print()
         print('正在读取', args.InputFile)
 
-        outname = args.output or mkOutfilename(args.InputFile)
+        outname = args.output or mkFilepath(args.InputFile, 'txt')
         doconvert(args.InputFile, outname, lookup)
 
         print()
@@ -123,10 +108,10 @@ def main():
             '\n发生了未知错误！请将下面的报错信息及待转换文件提交到 https://github.com/barryZZJ/SubtitleCleaner/issues')
         traceback.print_exc()
     finally:
-        if logfile:
-            logfile.close()
-            oldprint('日志文件已保存至', mkOutfilename(args.InputFile, '_log'))
-            oldprint()
+        if args.log:
+            closeLogfile()
+            _print('日志文件已保存至', str(logpath))
+            _print()
 
         if not args.quit:
             os.system('pause')
 
@@ -1,89 +1,168 @@
-本仓库共包含三个工具：FullwidthConverter(全角片假名转换器)、SubCleaner(字幕清理器)、Caption2Txt，三者为包含关系。
+# 字幕清理工具
 
-SubCleaner中包含了FullwidthConverter的功能，Caption2Txt中包含了SubCleaner的功能。
+## 简介
 
-# 程序下载
+对ts源中提取出的ass字幕进行处理，包括合并多行对白、清理各种不必要的符号、说话人备注、转换假名半角等，输出ass或txt。
+
+## 程序下载
 
 在[Releases](https://github.com/zhimengsub/SubtitleCleaner/releases)页面选择最新版本的程序下载。
 
-# FullwidthConverter / 全角片假名转换器
+## 功能具体说明
 
-可以将半角：片假名以及`｡` `｢` `｣` `､` `･`等符号转换为全角；全角数字、空格转换为半角
+⚠️部分功能可以在[配置文件](#配置文件格式)中详细设置，括号中即配置文件中对应的条目。
 
-## 使用方法
+### 合并
 
-1. 将待转换文件直接拖放到本程序上即可。
+合并多行对白及其时间（需要保证字幕按时间顺序排列）
 
-2. 也可以使用命令行进行更多配置：
-   - `InputFile`：设置待处理文件名
-   - `-o FILE, --output FILE`：设置输出文件名，默认为`<输入文件名>_out.txt`。
-   - `-q, --quit`：结束后不暂停程序直接退出，方便命令行调用。不加该参数程序结束时会暂停。
-   - `--log`：记录日志，把执行结果输出到`<输入文件名>_log.txt`
+📝 分隔符：合并的行之间用`merge.sep`分隔，默认为空格。
 
-## TODO List
+1. 按成对括号合并（开关：`merge.pair`，默认开启）：
+   
+   包含以下符号的左括号，经过多行后出现对应的右括号，则将这些行合并，使用`merge.sep`分隔。⚠️合并时左括号后和右括号前后不添加分隔符。
+    
+    `《》` `<>` `＜＞` `〈〉` `「」` `｢｣` `『』` `()` `[]`
 
-- [ ] 制作GUI界面
+2. 按单个符号合并（开关：`merge.singlesuf`，默认开启）：
+   
+    以`→`结尾的对白，和下一行合并，使用`merge.sep`分隔。
 
----
-# SubCleaner / 字幕清理器
-
-输入`.ass`字幕文件，提取对话文本（跳过样式为Rubi的注音台词），进行处理后输出为文本文件，具体处理内容如下：
-
-1. 台词合并（为避免合并后过长，每两行合并一次）：
-   - 对连续多行对白**包含以下配对符号**的进行合并，用半角空格隔开(并删除该符号)：
-     `《》` `<>` `＜＞` `〈〉` `「」`(不删除) `｢｣`(不删除)
-   - 以`→`结尾的对白，和下一行合并，并用半角空格隔开(并删除该符号)。
-   - ~~对连续多行对白的**开始和结束时间相同**的进行合并，并(只有有效对白才)用半角空格隔开~~（多数情况下为不同说话人，故去掉）
-2. 台词清理：
-   - 直接删除：`…` `｡`(半角) `。`(全角) `！` `!` `？` `?` `~` `～` `∼` `・` `(...)` `[...]` `{...}` `\N` `空行`
-   - `、` `､`替换为全角空格
-   - `『』`替换为`「」`
-   - 删除拟声词（具体见[拟声词](#拟声词)）
-   - 每一行开头添加`\N`
-3. 假名转换
-   - 每一行使用前述的片假名转换器`FullWidthConverter`处理半角片假名、半角符号、全角数字
-
-## 使用方法
-
-1. 将`.ass`文件直接拖放到本程序上即可。
-
-2. 也可以使用命令行进行更多配置：
-   - `InputFile`：设置待处理文件名
-   - `-o FILE, --output FILE`：设置输出文件名，默认为`<输入文件名>.txt`
-   - `-q, --quit`：结束后不暂停程序直接退出，方便命令行调用。不加该参数程序结束时会暂停
-   - `--log`：记录日志，把执行结果输出到`<输入文件名>_log.txt`
-
-## 拟声词
-
-### V0.2
-
-以下只有单独出现时才删除
-
-```text
-ん,
-うむ, ええ, わあ, うわ,
-あぁ, はぁ, うわぁ,
-んっ, うっ, よっ, はっ, ひっ, ほっ, あっ, えっ, なっ, わっ,
-えへへへ,
-あ（>=1个）,
-う（>=1个）,
-は（>=2个）,
-うん（>=1个）
+3. 按时间合并（开关：`merge.time`，默认关闭）：
+
+   时间有重叠的相邻对白合并，使用`merge.sep`分隔。
+
+- 可配置参数：
+
+  - 📝 合并行数限制`merge.limit`：
+
+    整数。为避免合并后内容过长，可以限制合并行数达到`merge.limit`后强制新建一行。
+  
+    默认为2，设为0表示不限制。
+
+    若`remove_overlap`已开启，则表示不同含义（见下文）。
+
+  - 📝 保证输出无时间重叠`remove_overlap`：
+
+    默认关闭。开启后，输出的每一行都不会有时间重叠，对有时间重叠的对白每达到`merge.limit`行后用`merge.sep_on_overlap`（默认为空格）隔开。
+  
+    【相当于对原来合并+清理后的结果再次进行时间合并，且达到`merge.limit`后使用`merge.sep_on_overlap`隔开】
+
+### 清理
+
+1. 直接删除以下符号：
+
+    `\N` `…` `｡` `。` `！` `!` `？` `?` `~` `～` `∼` `・` `♪` `《` `》` `<` `>` `＜` `＞` `〈` `〉` `「` `」` `｢` `｣` `『` `』` `→`(出现在行尾时)
+2. 方括号`[]`及其括起来的的内容；
+3. 圆括号`()`及其括起来的内容，一般为说话人或环境音提示（开关：`remove_comments`，默认开启）；
+4. 以下符号替换为半角空格：
+   
+    `、` `､`
+
+### 其他
+
+1. 假名宽度替换（`FullwidthConverter.py`）（开关：`convert_width`，默认开启）：
+
+   将半角片假名，以及`｡` `｢` `｣` `､` `･`等符号转换为全角；
+
+   将全角数字、空格转换为半角。
+
+2. 添加前缀（开关：`add_newline_prefix`，默认开启）：
+
+    在输出的每一行开头添加`\N`前缀。
+    
+3. 数字宽度替换（开关：`format_digit`，默认开启）：
+
+    若一行对白只含有一个数字，则数字使用全角，若含有多个数字，则所有数字均使用半角。
+
+- 可配置参数：
+    
+  - 📝 输出格式`format`：
+
+    字符串，默认为 `ass`，表示输出ass字幕文件，也可设置为`txt`，表示文本文件。
+
+
+## 配置文件格式
+
+配置文件为同目录下的`configs.json`，使用[JSON语法](https://www.runoob.com/json/json-syntax.html)。
+
+📝 如果误删，重新运行一次`SubCleaner.exe`即可生成。
+
+默认配置：
+
+```json
+{
+    "format": "ass",
+    "merge": {
+        "pair": true,
+        "singlesuf": true,
+        "time": false,
+        "sep": " ",
+        "limit": 2,
+        "sep_on_overlap": " "
+    },
+    "remove_comments": true,
+    "remove_overlap": false,
+    "convert_width": true,
+    "add_newline_prefix": true,
+    "format_digit": true
+}
+```
+
+## 使用方式
+
+按需求修改配置文件`configs.json`，然后将需要处理的字幕文件`ass`拖放到`SubCleaner.exe`上，即可得到处理后的文件，默认输出文件名为`<输入文件名>_cleaned`。
+
+也可以[使用命令行](#其他命令行参数)进行更多配置。
+
+## 其他命令行参数
+
+格式
 ```
+SubCleaner.py [-h] [-o OUTFILE] [-q] [--offsetms OFFSETMS] [--log] InputFile
+```
+
+可选参数说明：
+
+
+`-o OUTPUT, --output OUTPUT`
+
+输出文件路径，默认为<输入文件名>_cleaned。
+
+`-q, --quit`
 
-## TODO List
+结束后不暂停程序直接退出，方便命令行调用。不加该参数程序结束时会提示`请按任意键继续...`。
 
-- [ ] 制作GUI界面
+`--offsetms OFFSETMS` 
+
+输出ass整体时间偏移毫秒数，负数为提前，正数为延后。
+
+`--log`
+
+记录日志，日志存储到同目录下的<输入文件名>_log.txt。
+
+
+📝 使用命令行参数需要先[在`SubCleaner.exe`所在目录打开命令行](#在指定目录打开命令行)，然后输入`Subcleaner.exe <字幕文件路径> <其他命令行参数>`，如`Subcleaner.exe input.ass -o output.ass --offsetms -355 --log -q`。
+
+
+
+## FAQ
+
+### 在指定目录打开命令行
+
+点击资源管理器的地址栏，输入`cmd`后按回车。
+
+![参考](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9naXRlZS5jb20vYWxleF9kL0dyYXBoLWJlZC9yYXcvbWFzdGVyLzIwMTYvMTExMC9leHBsb3Jlcl9vcGVuX2NtZF8xLnBuZw?x-oss-process=image/format,png)
 
 ---
 
 # Caption2Txt.bat
 
-说明：调用`Caption2Ass`(请自行搜素下载)、`SubCleaner`，提取ts中的ass，然后生成清理后的台词文本文件。
+说明：批处理文件，依次调用`Caption2Ass`(请自行搜索下载)提取ts中的ass、`SubCleaner`对提取出的字幕进行清理。
 
-使用方法：拖入ts文件，会先生成ass，然后生成处理后的txt文件。
+使用方法：拖放ts文件到批处理文件上。
 
-注意：必须把本脚本与Caption2Ass_PCR.exe、SubCleaner.exe放在同一目录下才能正常工作！
+⚠️必须把本脚本与Caption2Ass_PCR.exe、SubCleaner.exe放在同一目录下才能正常工作！
 
 # 提出修改建议 / 运行时的错误和BUG
 
@@ -115,6 +194,10 @@ SubCleaner中包含了FullwidthConverter的功能，Caption2Txt中包含了SubCl
 
 ## SubCleaner
 
+- v3.0.0
+  - 重构代码，支持输出ass
+  - 支持更多可配置参数，并使用配置文件读取
+
 - v2.4.5.001
   - 一句话内只有一位数字时改为全角，同时出现多位数字时保持半角
-Original file line number
+Diff line change
 /dist
 *.spec
 !Caption2Txt.bat
 -/.idea
 +/.idea
 +*.clt