forked from mahmoud208/Mypro
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathClean_text (2).py
69 lines (55 loc) · 13.7 KB
/
Clean_text (2).py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
#-------------------------------------------------------------------------------
# -*- coding: utf-8 -*-
import codecs
import sys
import re
all_symbols=[u'☀',u'☁',u'☂',u'☃',u'☄',u'☇',u'☈',u'☉',u'☊',u'☋',u'☌',u'☍',u'☎',u'☏',u'☐',u'☑',u'☒',u'☓',u'【',u'ツ',u'】',u'☚',u'☛',u'☜',u'☝',u'☞',u'☟',u'☠',u'☡',u'☢',u'☣',u'☤',u'☥',u'☦',u'☧',u'☨',u'☩',u'☪',u'☫',u'☬',u'☭',u'☮',u'☯',u'☸',u'☹',u'☺',u'☻',u'☼',u'☽',u'☾',u'✁',u'✂',u'✃',u'✄',u'✆',u'✇',u'✈',u'✉',u'✌',u'✍',u'✎',u'✏',u'✐',u'✑',u'✒',u'✓',u'✔',u'✕',u'✖',u'✗',u'✘',u'✙',u'✚',u'✛',u'✜',u'✝',u'✞',u'✟',u'❍',u'❏',u'❐',u'❑',u'❒',u'❖',u'❘',u'❙',u'❚',u'❡',u'❢',u'❣',u'❤',u'❥',u'❦',u'❧',u'☿',u'♀',u'♁',u'♂',u'♃',u'♄',u'♅',u'♆',
u'♇',u'♈',u'♉',u'♊',u'♋',u'♌',u'♍',u'♎',u'♏',u'♐',u'♑',u'♒',u'♓',u'♨',u'Α',u'Β',u'Γ',u'Δ',u'Ε',u'Ζ',u'Η',u'Θ',u'Ι',u'Κ',u'Λ',u'Μ',u'Ν',u'Ξ',u'Ο',u'Π',u'Ρ',u'Σ',u'Τ',u'Υ',u'Φ',u'Χ',u'Ψ',u'Ω',u'Α',u'β',u'γ',u'δ',u'ε',u'ζ',u'η',u'θ',u'ι',u'κ',u'λ',u'μ',u'ν',u'ξ',u'ο',u'π',u'ρ',u'ς',u'σ',u'τ',u'υ',u'φ',u'χ',u'ψ',u'ω',u'ϊ',u'ϋ',u'ό',u'ύ',u'ώ',u'Ϊ',u'Ϋ',u'ά',u'έ',u'ή',u'ί',u'ΰ',
u'º',u'¹',u'²',u'³',u'⁴',u'⁵',u'⁺',u'⁻',u'⁼',u'⁽',u'⁾',u'ⁿ',u'¼',u'½',u'¾',u'‰',u'‱',u'℃',u'℉',u'❶',u'❷',u'❸',u'❹',u'❺',u'❻',u'❼',u'❽',u'❾',u'❿',u'➀',u'➁',u'➂',u'➃',u'➄',u'➅',u'➆',u'➇',u'➈',u'➉',u'➊',u'➋',u'➌',u'➍',u'➎',u'➏',u'➐',u'➑',u'➒',u'➓',u'①',u'②',u'③',u'④',u'⑤',u'⑥',u'⑦',u'⑧',u'⑨',u'⑩',u'⑪',u'⑫',u'⑬',u'⑭',u'⑮',u'⑯',u'⑰',u'⑱',u'⑲',u'⑳',u'⓪',u'Ⓐ',u'Ⓑ',u'Ⓒ',u'Ⓓ',u'Ⓔ',u'Ⓕ',u'Ⓖ',u'Ⓗ',u'Ⓘ',u'Ⓙ',u'Ⓚ',u'Ⓛ',u'Ⓜ',u'Ⓝ',u'Ⓞ',u'Ⓟ',u'Ⓠ',u'Ⓡ',u'Ⓢ',u'Ⓣ',u'Ⓤ',u'Ⓥ',u'Ⓦ',u'Ⓧ',u'Ⓨ',u'Ⓩ',u'ⓐ',u'ⓑ',u'ⓒ',u'ⓓ',u'ⓔ',u'ⓕ',u'ⓖ',u'ⓗ',u'ⓘ',u'ⓙ',u'ⓚ',u'ⓛ',u'ⓜ',u'ⓝ',u'ⓞ',
u'ⓟ',u'ⓠ',u'ⓡ',u'ⓢ',u'ⓣ',u'ⓤ',u'ⓥ',u'ⓦ',u'ⓧ',u'ⓨ',u'ⓩ',u'♩',u'♪',u'♫',u'♬',u'♭',u'♮',u'♯',u'☰',u'☱',u'☲',u'☳',u'☴',u'☵',u'☶',u'☷',u'♔',u'♕',u'♖',u'♗',u'♘',u'♙',u'♚',
u'♛',u'♜',u'♝',u'♞',u'♟',u'弗',u'♠',u'♡',u'♢',u'♣',u'♤',u'♥',u'♦',u'♧',u'★',u'☆',u'✠',u'✡',u'✢',u'✣',u'✤',u'✥',u'✦',u'✧',u'✩',u'✪',u'✫',u'✬',u'✭',u'✮',u'✯',u'✰',u'✱',u'✲',
u'✳',u'✴',u'✵',u'✶',u'✷',u'✸',u'✹',u'✺',u'✻',u'✼',u'✽',u'✾',u'✿',u'❀',u'❁',u'❂',u'❃',u'❄',u'❅',u'❆',u'❇',u'❈',u'❉',u'❊',u'❋',u'➔',u'➘',u'➙',u'➚',u'➛',u'➜',u'➝',u'➞',u'➟',u'➠',u'➡',u'➢',u'➣',u'➤',u'➥',u'➦',u'➧',u'➨',u'➩',u'➪',u'➫',u'➬',u'➭',u'➮',u'➯',u'➱',u'➲',u'➳',u'➴',u'➵',u'➶',u'➷',u'➸',u'➹',u'➺',u'➻',u'➼',u'➽',u'➾',u'←',u'↑',u'→',u'↓',u'↔',u'↕',u'↖',u'↗',u'↘',u'↙',u'↚',u'↛',u'↜',u'↝',u'↞',u'↟',u'↠',u'↡',u'↢',u'↣',u'↤',u'↥',u'↦',u'↧',u'↨',u'↩',u'↪',u'↫',u'↬',u'↭',u'↮',u'↯',u'↰',u'↱',u'↲',u'↳',u'↴',u'↵',u'↶',
u'↷',u'↸',u'↹',u'↺',u'↻',u'↼',u'↽',u'↾',u'↿',u'⇀',u'⇁',u'⇂',u'⇃',u'⇄',u'⇅',u'⇆',u'⇇',u'⇈',u'⇉',u'⇊',u'⇋',u'⇌',u'⇍',u'⇎',u'⇏',u'⇐',u'⇑',u'⇒',u'⇓',u'⇔',u'⇕',u'⇖',u'⇗',u'⇘',u'⇙',u'⇚',
u'⇛',u'⇜',u'⇝',u'⇞',u'⇟',u'⇠',u'⇡',u'⇢',u'⇣',u'⇤',u'⇥',u'⇦',u'⇧',u'⇨',u'⇩',u'⇪',u'■',u'□',u'▢',u'▣',u'▤',u'▥',u'▦',u'▧',u'▨',u'▩',u'▪',u'▫',u'▬',u'▭',u'▮',u'▯',u'▰',u'▱',u'▲',u'△',u'▴',u'▵',u'▶',u'▷',u'▸',u'▹',u'►',u'▻',u'▼',u'▽',u'▾',u'▿',u'◀',u'◁',u'◂',u'◃',u'◄',u'◅',u'◆',u'◇',u'◈',u'◉',u'◊',u'○',u'◌',u'◍',u'◎',u'●',u'◐',u'◑',u'◒',u'◓',u'◔',u'◕',u'◖',u'◗',u'◘',u'◙',u'◚',u'◛',u'◜',u'◝',u'◞',u'◟',u'◠',u'◡',u'◢',u'◣',u'◤',u'◥',u'◦',u'◧',u'◨',u'◩',u'◪',u'◫',u'◬',u'◭',u'◮',u'◯',u'▔',u'▕',u'░',u'▒',u'▓',u'▀',u'▁',u'▂',u'▃',u'▄',u'▅',u'▆',u'▇',u'█',u'▉',u'▊',u'▋',
u'▌',u'▍',u'▎',u'▏',u'▐',u'∀',u'∁',u'∂',u'∃',u'∄',u'∅',u'∆',u'∇',u'∈',u'∉',u'∊',u'∋',u'∌',u'∍',u'∎',u'∏',u'∐',u'∑',u'−',u'±',u'∓',u'∔',u'∕',u'∖',u'∗',u'∘',u'∙',u'√',u'∛',u'∜',u'∝',u'∞',
u'∟',u'∠',u'∡',u'∢',u'∣',u'∤',u'∥',u'∦',u'∧',u'∨',u'∩',u'∪',u'∫',u'∬',u'∭',u'∮',u'∯',u'∰',u'∱',u'∲',u'∳',u'∴',u'∵',u'∶',u'∷',u'∸',u'∹',u'∺',u'∻',u'∼',u'∽',u'∾',u'∿',u'≀',u'≁',u'≂',u'≃',u'≄',u'≅',u'≆',u'≇',u'≈',u'≉',u'≊',u'≋',u'≌',u'≍',u'≎',u'≏',u'≐',u'≑',u'≒',u'≓',u'≔',u'≕',u'≖',u'≗',u'≘',u'≙',u'≚',u'≛',u'≜',u'≝',u'≞',u'≟',u'≠',u'≡',u'≢',u'≣',u'≤',u'≥',u'≦',u'≧',u'≨',u'≩',u'≪',u'≫',u'≬',u'≭',u'≮',u'≯',u'≰',u'≱',u'≲',u'≳',u'≴',u'≵',u'≶',u'≷',u'≸',u'≹',u'≺',u'≻',u'≼',u'≽',u'≾',u'≿',u'⊀',u'⊁',u'⊂',u'⊃',u'⊄',u'⊅',u'⊆',u'⊇',u'⊈',u'⊉',u'⊊',u'⊋',u'⊌',u'⊍',u'⊎',u'⊏',u'⊐',
u'⊑',u'⊒',u'⊓',u'⊔',u'⊕',u'⊖',u'⊗',u'⊘',u'⊙',u'⊚',u'⊛',u'⊜',u'⊝',u'⊞',u'⊟',u'⊠',u'⊡',u'⊢',u'⊣',u'⊤',u'⊥',u'⊦',u'⊧',u'⊨',u'⊩',u'⊪',u'⊫',u'⊬',u'⊭',u'⊮',u'⊯',u'⊰',u'⊱',u'⊲',u'⊳',u'⊴',u'⊵',u'⊶',
u'⊷',u'⊸',u'⊹',u'⊺',u'⊻',u'⊼',u'⊽',u'⊾',u'⊿',u'⋀',u'⋁',u'⋂',u'⋃',u'⋄',u'⋅',u'⋆',u'⋇',u'⋈',u'⋉',u'⋊',u'⋋',u'⋌',u'⋍',u'⋎',u'⋏',u'⋐',u'⋑',u'⋒',u'⋓',u'⋔',u'⋕',u'⋖',u'⋗',u'⋘',u'⋙',u'⋜',u'⋝',u'⋞',u'⋟',u'⋠',u'⋡',u'⋢',u'⋣',u'⋦',u'⋧',u'⋨',u'⋩',u'⋪',u'⋫',u'⋬',u'⋭',u'⋮',u'⋯',u'⋰',u'⋱',u'¿',u'¡',u'―',u'‖',u'‗',u'❛',u'❜',u'❝',u'❞',u'‘‘,u''',u'‚',u'‛',u'†',
u'‡',u'•',u'‣',u'․',u'‥',u'…',u'‧',u'′',u'″',u'‴',u'‵',u'‶',u'‷',u'‸',u'‹',u'›',u'※',u'‼',u'‽',u'‾',u'‿',u'⁀',u'⁁',u'⁂',u'⁃',u'⁄',u'⁅',u'⁆',u'À',u'Á',u'Â',u'Ã',u'Ä',u'Å',u'Æ',u'Ç',u'È',u'É',u'Ê',u'Ë',u'Ì',u'Í',u'Î',u'Ï',u'Ð',u'Ñ',u'Ò',u'Ó',u'Ô',u'Õ',u'Ö',u'×',u'Ø',u'Ù',u'Ú',u'Û',u'Ü',u'Ý',u'ß',u'à',u'á',u'â',u'ã',u'ä',u'å',u'æ',u'ç',u'è',u'é',u'ê',u'ë',u'ì',u'í',u'î',u'ï',u'ð',u'ñ',u'ò',u'ó',u'ô',u'õ',u'ö',u'ø',u'ù',u'ú',u'û',u'ü',u'ý',u'þ',u'ÿ',u'Ā',u'ā',u'Ă',u'ă',u'Ą',u'ą',u'Ć',u'ć',u'Ĉ',u'ĉ',u'Ċ',u'ċ',u'Č',u'č',u'Ď',u'ď',u'Đ',u'đ',u'Ē',u'ē',u'Ĕ',u'ĕ',u'Ė',
u'ė',u'Ę',u'ę',u'Ě',u'ě',u'Ĝ',u'ĝ',u'Ğ',u'ğ',u'Ġ',u'ġ',u'Ģ',u'ģ',u'Ĥ',u'ĥ',u'Ħ',u'ħ',u'Ĩ',u'ĩ',u'Ī',u'ī',u'Ĭ',u'ĭ',u'Į',u'į',u'İ',u'ı',u'IJ',u'ij',u'Ĵ',u'ĵ',u'Ķ',u'ķ',u'ĸ',u'Ĺ',u'ĺ',u'Ļ',u'ļ',u'Ľ',u'ľ',u'Ŀ',u'ŀ',u'Ł',u'ł',u'Ń',u'ń',u'Ņ',u'ņ',u'Ň',u'ň',u'ʼn',u'Ŋ',u'ŋ',u'Ō',u'ō',u'Ŏ',u'ŏ',u'Ő',u'ő',u'Œ',u'œ',u'Ŕ',u'ŕ',u'Ŗ',u'ŗ',u'Ř',u'ř',u'Ś',u'ś',u'Ŝ',u'ŝ',u'Ş',u'ş',u'Š',u'š',u'Ţ',u'ţ',u'Ť',u'ť',u'Ŧ',u'ŧ',u'Ũ',u'ũ',u'Ū',u'ū',u'Ŭ',u'ŭ',u'Ů',u'ů',u'Ű',u'ű',u'Ų',u'ų',u'Ŵ',u'ŵ',u'Ŷ',u'ŷ',u'Ÿ',u'Ź',u'ź',u'Ż',u'ż',u'Ž',u'ž',u'ſ',u'ƀ',u'Ɓ',u'Ƃ',u'ƃ',u'Ƅ',u'ƅ',u'Ɔ',u'Ƈ',
u'ƈ',u'Ɖ',u'Ɗ',u'Ƌ',u'ƌ',u'ƍ',u'Ǝ',u'Ə',u'Ɛ',u'Ƒ',u'ƒ',u'Ɠ',u'Ɣ',u'ƕ',u'Ɩ',u'Ɨ',u'Ƙ',u'ƙ',u'ƚ',u'ƛ',u'Ɯ',u'Ɲ',u'ƞ',u'Ɵ',u'Ơ',u'ơ',u'Ƥ',u'ƥ',u'Ʀ',u'Ƨ',u'ƨ',u'Ʃ',u'ƪ',u'ƫ',u'Ƭ',u'ƭ',u'Ʈ',u'Ư',u'ư',u'Ʊ',u'Ʋ',u'Ƴ',u'ƴ',u'Ƶ',u'ƶ',u'Ʒ',u'Ƹ',u'ƹ',u'ƺ',u'ƻ',u'Ƽ',u'ƽ',u'ƾ',u'ƿ',u'ǀ',u'ǁ',u'ǂ',u'ǃ',u'Ǎ',u'ǎ',u'Ǐ',u'ǐ',u'Ǒ',u'ǒ',u'Ǔ',u'ǔ',u'Ǖ',u'ǖ',u'Ǘ',u'ǘ',u'Ǚ',u'ǚ',u'Ǜ',u'ǜ',u'ǝ',u'Ǟ',u'ǟ',u'Ǡ',u'ǡ',u'Ǣ',u'ǣ',u'Ǥ',u'ǥ',u'Ǧ',u'ǧ',u'Ǩ',u'ǩ',u'Ǫ',u'ǫ',u'Ǭ',u'ǭ',u'Ǯ',u'ǯ',u'ǰ',u'Ǵ',u'ǵ',u'Ƕ',u'Ƿ',u'Ǹ',u'ǹ',u'Ǻ',u'ǻ',u'Ǽ',u'ǽ',u'Ǿ',u'ǿ',u'Ȁ',u'ȁ',u'Ȃ',u'ȃ',u'Ȅ',u'ȅ',u'Ȇ',u'ȇ',
u'Ȉ',u'ȉ',u'Ȋ',u'ȋ',u'Ȍ',u'ȍ',u'Ȏ',u'ȏ',u'Ȑ',u'ȑ',u'Ȓ',u'ȓ',u'Ȕ',u'ȕ',u'Ȗ',u'ȗ',u'Ș',u'ș',u'Ț',u'ț',u'Ȝ',u'ȝ',u'Ȟ',u'ȟ',u'Ƞ',u'Ȧ',u'ȧ',u'Ȩ',u'ȩ',u'Ȫ',u'ȫ',u'Ȭ',u'ȭ',u'Ȯ',u'ȯ',u'Ȱ',u'ȱ',u'Ȳ',u'ȳ',u'ɐ',u'ɑ',u'ɒ',u'ɓ',u'ɔ',u'ɕ',u'ɖ',u'ɗ',u'ɘ',u'ə',u'ɚ',u'ɛ',u'ɜ',u'ɝ',u'ɞ',u'ɟ',u'ɠ',u'ɡ',u'ɢ',u'ɣ',u'ɤ',u'ɥ',u'ɦ',u'ɧ',u'ɨ',u'ɩ',u'ɪ',u'ɫ',u'ɬ',u'ɭ',u'ɯ',u'ɰ',u'ɱ',u'ɲ',u'ɳ',u'ɴ',u'ɵ',u'ɶ',u'ɷ',u'ɸ',u'ɹ',u'ɺ',u'ɻ',u'ɼ',u'ɽ',u'ɾ',u'ɿ',u'ʀ',u'ʁ',u'ʂ',u'ʃ',u'ʄ',u'ʅ',u'ʆ',u'ʇ',u'ʈ',u'ʉ',u'ʊ',u'ʋ',u'ʌ',u'ʍ',u'ʎ',u'ʏ',u'ʐ',u'ʑ',u'ʒ',u'ʓ',u'ʔ',u'ʕ',u'ʖ',u'ʗ',u'ʘ',u'ʙ',u'ʚ',u'ʛ',
u'ʜ',u'ʝ',u'ʞ',u'ʟ',u'ʠ',u'ʡ',u'ʢ',u'ʭ',u'🎳',u'🏂',u'🌁',u'🌉',u'🌋',u'🌌',u'🌏',u'🌑',u'🌓',u'🌔',u'🌕',u'🌛',u'🌠',u'🌰',u'🍏',u'🌱',u'🌼',u'🌽',u'🌿',u'🍄',u'🍇',u'🍈',u'🍌',u'🍍',u'🍑',u'🍒',u'🍩',u'🍕',u'🍖',u'🍗',u'🍠',u'🍤',u'🍥',u'🍨',u'🍪',u'🍫',u'🍬',u'🍭',u'🍮',u'🍯',u'🍷',u'🍹',u'🎊',u'🎋',u'🎠',u'🎣',u'🎭',u'🎮',u'🎲',u'🎴',u'🎹',u'🎻',u'🎼',u'🎽',u'🏡',u'🏮',u'🐌',u'🐜',u'🐝',u'🐞',u'🐡',u'🐢',u'🐣',u'🐥',u'🐩',u'🐼',u'🐽',u'🐾',u'👅',u'👓',u'👖',u'👚',u'👛',u'👝',u'👤',u'👪',u'👰',u'👹',u'👺',u'💌',u'💕',u'💖',u'💞',u'💠',u'💥',u'💧',u'💫',u'💬',u'💮',
u'💯',u'💲',u'💳',u'💴',u'💵',u'💸',u'💾',u'📁',u'📂',u'📃',u'📄',u'📅',u'📆',u'📇',u'📈',u'📉',u'📊',u'📋',u'📌',u'📍',u'📎'
,u'📏',u'📐',u'📑',u'📒',u'📓',u'📔',u'📕',u'📙',u'📚',u'📛',u'📜',u'📞',u'📟',u'📤',u'📥',u'📦',u'📧',u'📨',u'📪',u'📰',u'📹',u'🔃',u'🔋',u'🔌',u'🔎',u'🔏',u'🔐',u'🔖',u'🔗',u'🔘',u'🔙',u'🔚',u'🔛',u'🔜',u'🔟',u'🔠',u'🔡',u'🔢',u'🔣',u'🔤',u'🔦',u'🔧',u'🔩',u'🔪',u'🔮',u'🔵',u'🔶',u'🔷',u'🔸',u'🔹',u'🔼',u'🔽',u'😄',u'😊',u'😃',u'😉',u'😍',u'😘',u'😚',u'😳',u'😌',u'😁',u'😜',u'😝',u'😒',u'😏',u'😓',u'😔',u'😞',u'😱',u'😠',u'😡',u'😪',u'😷',u'👿',u'👽',u'💛',u'💙',u'💜',u'💗',u'💚',u'💔',u'💓',u'💘',u'🌟',u'💢',u'💤',u'💨',u'💦',u'🎶',u'🎵',u'🔥',u'💩',u'👍',u'👎',u'👌',
u'👊',u'👋',u'👐',u'👆',u'👇',u'👉',u'👈',u'🙌',u'🙏',u'👏',u'💪',u'🚶',u'🏃',u'👫',u'💃',u'👯',u'🙆',u'🙅',u'💁',u'🙇',u'💏',u'💑',u'💆',u'💇',u'💅',u'👦',u'👧',u'👩',u'👨',u'👶',u'👵',u'👴',u'👱',u'👲',u'👳',u'👷',u'👮',u'👼',u'👸',u'💂',u'💀',u'👣',u'💋',u'👄',u'👂',u'👀',u'👃',u'⛄',u'🌙',u'🌀',u'🌊',u'🐱',u'🐶',u'🐭',u'🐹',u'🐰',u'🐺',u'🐸',u'🐯',u'🐨',u'🐻',u'🐷',u'🐮',u'🐗',u'🐵',u'🐒',u'🐴',u'🐎',u'🐫',u'🐑',u'🐘',u'🐍',u'🐦',u'🐤',u'🐔',u'🐧',u'🐛',u'🐙',u'🐠',u'🐟',u'🐳',u'🐬',u'💐',u'🌸',u'🌹',u'🌻',u'🌺',u'🍁',u'🍃',u'🍂',u'🌴',u'🌵',u'🌾',u'🐚',u'🎍',u'💝',u'🎎',
u'🎒',u'🎓',u'🎏',u'🎆',u'🎇',u'🎐',u'🎑',u'🎃',u'👻',u'🎅',u'🎄',u'🎁',u'🔔',u'🎉',u'🎈',u'💿',u'📀',u'📷',u'🎥',u'💻',u'📺',u'📱',u'📠',u'💽',u'📼',u'🔊',u'📢',u'📣',u'📻',u'📡',u'🔍',u'🔓',u'🔒',u'🔑',u'🔨',u'💡',u'📲',u'📩',u'📫',u'📮',u'🛀',u'🚽',u'💺',u'💰',u'🔱',u'🚬',u'💣',u'🔫',u'💊',u'💉',u'🏈',u'🏀',u'⚽',u'⚾',u'🎾',u'⛳',u'🎱',u'🏊',u'🏄',u'🎿',u'🏆',u'👾',u'🎷',u'🎸',u'👟',u'👡',u'👠',u'👢',u'👕',u'👔',u'👜',u'💄',u'💍',u'💎',u'🍵',u'🍺',u'🍻',u'🍸',u'🍶',u'🍴',u'🍔',u'🍟',u'🍝',u'🍛',u'🍱',u'🍣',u'🍙',u'🍘',u'🍚',u'🍜',u'🍲',u'🍞',u'🍳',u'🍢',u'🍡',u'🍦',u'🍧',u'🎂',
u'🍰',u'🍎',u'🍊',u'🍉',u'🍓',u'🍆',u'🍅',u'🏠',u'🏫',u'🏢',u'🏣',u'🏥',u'🏦',u'🏪',u'🏩',u'🏨',u'💒',u'⛪',u'🏬',u'🌇',u'🌆',u'🏯',u'🏰',u'⛺',u'🏭',u'🗼',u'🗻',u'🌄',u'🌅',u'🌃',u'🗽',u'🌈',u'🎡',u'⛲',u'🎢',u'🚢',u'🚤',u'⛵',u'🚀',u'🚲',u'🚙',u'🚗',u'🚕',u'🚌',u'🚓',u'🚒',u'🚑',u'🚚',u'🚃',u'🚉',u'🚄',u'🚅',u'🎫',u'⛽',u'🚥',u'🚧',u'🔰',u'🏧',u'🎰',u'🚏',u'💈',u'🏁',u'🎌',u'🎯',u'🀄',u'🎬',u'📝',u'📖',u'🎨',u'🎤',u'🎧',u'🎺',u'👗',
u'👘',u'👙',u'🎀',u'🎩',u'👑',u'👒',u'🌂',u'💼',u'‘',u'’',u'“',u'”', u'„',u'‟']
################ Remove Emojs only ###################################
def remove_emoji(data):
if not data:
return data
if not isinstance(data, basestring):
return data
try:
# UCS-4
patt = re.compile(u'([\U00002600-\U000027BF])|([\U0001f300-\U0001f64F])|([\U0001f680-\U0001f6FF])')
except re.error:
# UCS-2
patt = re.compile(u'([\u2600-\u27BF])|([\uD83C][\uDF00-\uDFFF])|([\uD83D][\uDC00-\uDE4F])|([\uD83D][\uDE80-\uDEFF])')
return patt.sub('', data)
#####################Remove all symbols#############################
def remove_allsymbols(content):
for c in all_symbols:
content=content.replace(c,'')
return content
################## Test#############################################
file1= codecs.open('input.txt','r','utf-8')
content=file1.read()
file2= codecs.open('output.txt','w+','utf-8')
content = remove_emoji(content)
content= remove_allsymbols(content)
file2.write(content)
file1.close()
file2.close()