今夜こいつと寝る。
データ圧縮について
データを圧縮するって言われても、よくわかんねーじゃん。
ほんであれですわ、データ圧縮。
元に戻せるzipとかrarとかの可逆圧縮と、
元に戻せないjpgとかmp3みたいな非可逆圧縮があんのよ。
jpgとかmp3とか、ものすげぇ圧縮できるけど、完全に元に戻せないの。
どーでもいいところのデータ消してっから。
どーでもいいデータってなんじゃらほいって方は、食品偽装について考えてみよう。
例えば100円寿司で出るウナギ。
あれウナギじゃねぇのよ。
でもウナギじゃん、食うとウナギとしか思えないじゃん。
「ウナギっぽいからまぁいいんじゃね」
オリジナル:ウナギ・・・?
データ圧縮:100円回転寿司マジック
データ解凍:ウナギ!
これが非可逆圧縮。
可逆圧縮は、もうどうしようもなくオリジナルのものに戻したい場合。
例えば、水で元の大きさに戻るワカメ。
水に漬けたらワカメじゃなくてタバコになったら嫌でしょ?俺はうれしいけど。
オリジナル:ワカメ
データ圧縮:すげぇ縮んだワカメ
データ解凍:やっぱワカメ
これが可逆圧縮。
ほんで、今回は可逆圧縮について考えを深めていきましょうということなんですけども、
なんでかっつーと実はjpgとかmp3とかの非可逆圧縮の方が難しいんですよ。
デジタルでアナログを扱うのは非常に難しい。難しいことはよくわからない。難しいこと反対。
なので最初から最後までデジタルな可逆圧縮の方がアホ(俺)でも理解できるって寸法ですわ。
とりあえず、全世界のマニアが常に編集をして巨大なマニア本と化しているとっても素敵なWikipediaを見る。
データ圧縮 (Wikipedia)
わからん。
Wikipediaは超絶マニアが編集しててマニア向けすぎてわかんねー。
わかんねーから俺が解説してやんよ。
ってことなのよ。
まず、圧縮が得意とするデータは
「連続したデータ」
「同じ文字が何回も出現するデータ」
となっております。なんのこっちゃ、とね。
「連続したデータ」については、例えば
「AAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDDDD」(40文字)
という文字列の場合。(ABCDそれぞれ10文字ずつ)
ポイントとしては同じ文字が連続している点。
この場合だとそれぞれ連続して10文字ずつになっていますので、
「A*10文字、B*10文字、C*10文字、D*10文字」
とすることができます。
単純に
「A10B10C10D10」(12文字)
とかやっちゃえば、12文字になります。
元のデータが40文字だったので、28文字もお得です。
極論で言えば、
Aという文字が1億文字連続である1億byte = 100Mbyteのデータがあったとしても、
この理屈で
「A100000000」(10文字)
に変換してあげれば、なんと100Mbyteがたったの10byteになってしまうんです。
逆にこの方法、連続していない文字に対しては逆効果。
「ABCD」
だった場合、それぞれ1文字ずつなので
「ABCD」
となり、変わりません。
また
「AABBCCDD」
とそれぞれ2文字ずつの場合でも
「A2B2C2D2」
となり、変わりません。
一般的な文字列の場合、連続して同じ文字を書くことはあまりないので、実際はあまり効果が無いんですねぇ。
西尾さんみたいに「キィィィィィィィィィ」とか書く場合にはもってこいなんですけど。
次に「同じ文字が何回も出現するデータ」について。
これは、いっぱい出る文字列をまとめちゃおうって寸法です。
例えば徹英語辞典があります。
徹英語辞典には以下の単語が登録されています。
1ページ目:hoge
2ページ目:fuck
3ページ目:unko
なんとも悲しい辞書です。
この辞書と、次の文字列があったとします。
「unko moreru, fuck daze. hogehoge」(32文字、ちなみに「ウンコ漏れる、ファックだぜ。ほげほげ」)
これを辞書と照らし合わせながら変換してあげるという感じです。
「3 moreru, 2 daze. 11」(20文字)
数字は辞書のページ番号になっています。
これだけでも12文字節約できました。
この場合の辞書はあらかじめ決められた辞書、というわけではなく、
文字列を全て参照し、多い順ランキングを作って、最も多く使われる文字を辞書にしてから、
ページ番号に変換してあげる、といった感じです。
例えば
「rHOGEoiuhgHOGEpncwyHOGEfpcpHOGEficuhpHOGE」
という文字だったら、なんか「HOGE」って文字がいっぱい入ってるから「HOGEは1にしよう」ってなって、
「r1oiuhg1pncwy1fpcp1ficuhp1」
に変換できるわけです。
ただ、この手法は圧縮したデータと「辞書データ」も必要になるため、短い文字列だと不利です。
ものすげぇ長い文章とかだと役に立ちます。
長編小説で主人公の名前が「1」になったり。(>>1さん・・・)
ということで、とにかく
「連続したデータ」
「同じ文字が何回も出現するデータ」
が重要ということがわかっていただけたかと思います、わからなかったらごめんなさい。
データ圧縮の作業は基本的に2段階あって、
・モデル化
・符号化
に分かれます。
んなことしらんわアホって感じなので、次回はとりあえずモデル化について解説します。
データを圧縮するって言われても、よくわかんねーじゃん。
ほんであれですわ、データ圧縮。
元に戻せるzipとかrarとかの可逆圧縮と、
元に戻せないjpgとかmp3みたいな非可逆圧縮があんのよ。
jpgとかmp3とか、ものすげぇ圧縮できるけど、完全に元に戻せないの。
どーでもいいところのデータ消してっから。
どーでもいいデータってなんじゃらほいって方は、食品偽装について考えてみよう。
例えば100円寿司で出るウナギ。
あれウナギじゃねぇのよ。
でもウナギじゃん、食うとウナギとしか思えないじゃん。
「ウナギっぽいからまぁいいんじゃね」
オリジナル:ウナギ・・・?
データ圧縮:100円回転寿司マジック
データ解凍:ウナギ!
これが非可逆圧縮。
可逆圧縮は、もうどうしようもなくオリジナルのものに戻したい場合。
例えば、水で元の大きさに戻るワカメ。
水に漬けたらワカメじゃなくてタバコになったら嫌でしょ?俺はうれしいけど。
オリジナル:ワカメ
データ圧縮:すげぇ縮んだワカメ
データ解凍:やっぱワカメ
これが可逆圧縮。
ほんで、今回は可逆圧縮について考えを深めていきましょうということなんですけども、
なんでかっつーと実はjpgとかmp3とかの非可逆圧縮の方が難しいんですよ。
デジタルでアナログを扱うのは非常に難しい。難しいことはよくわからない。難しいこと反対。
なので最初から最後までデジタルな可逆圧縮の方がアホ(俺)でも理解できるって寸法ですわ。
とりあえず、全世界のマニアが常に編集をして巨大なマニア本と化しているとっても素敵なWikipediaを見る。
データ圧縮 (Wikipedia)
わからん。
Wikipediaは超絶マニアが編集しててマニア向けすぎてわかんねー。
わかんねーから俺が解説してやんよ。
ってことなのよ。
まず、圧縮が得意とするデータは
「連続したデータ」
「同じ文字が何回も出現するデータ」
となっております。なんのこっちゃ、とね。
「連続したデータ」については、例えば
「AAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDDDD」(40文字)
という文字列の場合。(ABCDそれぞれ10文字ずつ)
ポイントとしては同じ文字が連続している点。
この場合だとそれぞれ連続して10文字ずつになっていますので、
「A*10文字、B*10文字、C*10文字、D*10文字」
とすることができます。
単純に
「A10B10C10D10」(12文字)
とかやっちゃえば、12文字になります。
元のデータが40文字だったので、28文字もお得です。
極論で言えば、
Aという文字が1億文字連続である1億byte = 100Mbyteのデータがあったとしても、
この理屈で
「A100000000」(10文字)
に変換してあげれば、なんと100Mbyteがたったの10byteになってしまうんです。
逆にこの方法、連続していない文字に対しては逆効果。
「ABCD」
だった場合、それぞれ1文字ずつなので
「ABCD」
となり、変わりません。
また
「AABBCCDD」
とそれぞれ2文字ずつの場合でも
「A2B2C2D2」
となり、変わりません。
一般的な文字列の場合、連続して同じ文字を書くことはあまりないので、実際はあまり効果が無いんですねぇ。
西尾さんみたいに「キィィィィィィィィィ」とか書く場合にはもってこいなんですけど。
次に「同じ文字が何回も出現するデータ」について。
これは、いっぱい出る文字列をまとめちゃおうって寸法です。
例えば徹英語辞典があります。
徹英語辞典には以下の単語が登録されています。
1ページ目:hoge
2ページ目:fuck
3ページ目:unko
なんとも悲しい辞書です。
この辞書と、次の文字列があったとします。
「unko moreru, fuck daze. hogehoge」(32文字、ちなみに「ウンコ漏れる、ファックだぜ。ほげほげ」)
これを辞書と照らし合わせながら変換してあげるという感じです。
「3 moreru, 2 daze. 11」(20文字)
数字は辞書のページ番号になっています。
これだけでも12文字節約できました。
この場合の辞書はあらかじめ決められた辞書、というわけではなく、
文字列を全て参照し、多い順ランキングを作って、最も多く使われる文字を辞書にしてから、
ページ番号に変換してあげる、といった感じです。
例えば
「rHOGEoiuhgHOGEpncwyHOGEfpcpHOGEficuhpHOGE」
という文字だったら、なんか「HOGE」って文字がいっぱい入ってるから「HOGEは1にしよう」ってなって、
「r1oiuhg1pncwy1fpcp1ficuhp1」
に変換できるわけです。
ただ、この手法は圧縮したデータと「辞書データ」も必要になるため、短い文字列だと不利です。
ものすげぇ長い文章とかだと役に立ちます。
長編小説で主人公の名前が「1」になったり。(>>1さん・・・)
ということで、とにかく
「連続したデータ」
「同じ文字が何回も出現するデータ」
が重要ということがわかっていただけたかと思います、わからなかったらごめんなさい。
データ圧縮の作業は基本的に2段階あって、
・モデル化
・符号化
に分かれます。
んなことしらんわアホって感じなので、次回はとりあえずモデル化について解説します。

起きたら雪降ってて糞寒い。
しかし全然足りない。
もっと降らないと犬と遊べない。
隣のパンピーが実は兄だったという、まじで気付かなかった。
親に切符買わせたら、これだもの…
しかしなんだ、兄弟でこうも違うものかと、いやだまされてはいけない、奴は一見パンピーかもしれないが、中身はとんでもないオタクだ。
親に切符買わせたら、これだもの…
しかしなんだ、兄弟でこうも違うものかと、いやだまされてはいけない、奴は一見パンピーかもしれないが、中身はとんでもないオタクだ。
デッキが満杯でトイレ封鎖状態だし、通路っていうか俺の横にオッサンがずっと立ってる。通路も封鎖。売り子のネーチャンもかなり必死に通過する。
後ろの席では効果音が出まくりポケモンゲットしまくりなガキがずっとゲットだぜ。しかもその親はケータイでピッピピッピ、殺すぞスイーツ。
いつも混雑時期をずらしてたんだけど、30日に新幹線乗るとここまで悲惨なのかと改めて電車の恐怖を実感した。
ガソリン値上げで電車の相対的価格が下がったといえ、こんなカオスな空間にいたらやばい。
唯一の救いは
窓
A
B
通路
C
D←俺涙目
E
窓
だと思ってたのが
窓
A
B
C
通路
D←通路側キター
E
窓
だったのよ、しかも隣の人が一見パンピーっぼいしなんかオシャレなのにライトノベル読んでてよかった。
俺も対抗してなんかやらなきゃいけない気分なんだけどカバンの中にノーパソしかないから暇じゃんよってなって気付いたらもうすぐ盛岡なのに全然雪積もってないじゃんゴン太(アホ犬)とかまくらの中で遊ぶ計画がパーじゃねえか温暖化殺す。
後ろの席では効果音が出まくりポケモンゲットしまくりなガキがずっとゲットだぜ。しかもその親はケータイでピッピピッピ、殺すぞスイーツ。
いつも混雑時期をずらしてたんだけど、30日に新幹線乗るとここまで悲惨なのかと改めて電車の恐怖を実感した。
ガソリン値上げで電車の相対的価格が下がったといえ、こんなカオスな空間にいたらやばい。
唯一の救いは
窓
A
B
通路
C
D←俺涙目
E
窓
だと思ってたのが
窓
A
B
C
通路
D←通路側キター
E
窓
だったのよ、しかも隣の人が一見パンピーっぼいしなんかオシャレなのにライトノベル読んでてよかった。
俺も対抗してなんかやらなきゃいけない気分なんだけどカバンの中にノーパソしかないから暇じゃんよってなって気付いたらもうすぐ盛岡なのに全然雪積もってないじゃんゴン太(アホ犬)とかまくらの中で遊ぶ計画がパーじゃねえか温暖化殺す。
楽天もうダメだろ・・・
後払いが規約だとおkとかそういうんじゃなくて、たかが530円で客の
信用失っていいのかってことじゃないのよ、逆に530円払って信用買えるなら余裕で530円払うわ。
あと、安かったから買った人もいるわけじゃん。後払いで結局定価と変わらないなら、わざわざここで買わなかったっつー話。
楽天そのものが云々ではないんだけど、楽天に出店する人ってネット初心者とかも多いのかと、いやそれ以前に客商売なんだからなぁ、うーん・・・。
後払いが規約だとおkとかそういうんじゃなくて、たかが530円で客の
信用失っていいのかってことじゃないのよ、逆に530円払って信用買えるなら余裕で530円払うわ。
あと、安かったから買った人もいるわけじゃん。後払いで結局定価と変わらないなら、わざわざここで買わなかったっつー話。
楽天そのものが云々ではないんだけど、楽天に出店する人ってネット初心者とかも多いのかと、いやそれ以前に客商売なんだからなぁ、うーん・・・。
チソコっちだよ、チソコっち。
ちんこちんこ。
ちんこ育成ゲーム。
下品だと?殺すぞ?
下品だと思ったお前の心が下品だぜ。
わけわからん。
てなことで良い感じに狂ってきましたので、今日は早朝6時より本気仕様で作っております。
今日はかなり捗りまして、このままいけば今日中にリリース直前のデバッグ版が完成するかもしんねー。
今回は進化ロジックを思い切って変更しちゃったので、前回通りの進化しませんので新しい発見とかあるかもしんないのと、
まだミニゲームができてねーんだけどパセオさんが稼働していませんのでミニゲーム保留中。
もうねここ1週間ずっとiアプリ合宿してるから頭狂ってきたわ。
外出てねぇよ。飯もロクに食ってない。
すき家でメガ牛丼食ってくる。
あと明日の午後に実家に帰省する。実家でもやること変わんないけど。
ちんこちんこ。
ちんこ育成ゲーム。
下品だと?殺すぞ?
下品だと思ったお前の心が下品だぜ。
わけわからん。
てなことで良い感じに狂ってきましたので、今日は早朝6時より本気仕様で作っております。
今日はかなり捗りまして、このままいけば今日中にリリース直前のデバッグ版が完成するかもしんねー。
今回は進化ロジックを思い切って変更しちゃったので、前回通りの進化しませんので新しい発見とかあるかもしんないのと、
まだミニゲームができてねーんだけどパセオさんが稼働していませんのでミニゲーム保留中。
もうねここ1週間ずっとiアプリ合宿してるから頭狂ってきたわ。
外出てねぇよ。飯もロクに食ってない。
すき家でメガ牛丼食ってくる。
あと明日の午後に実家に帰省する。実家でもやること変わんないけど。
俺は256色の方が興奮する。
有機ELの採用はどう考えても失敗。
有機ELで鮮やかとか言ってるけど、VGA解像度の液晶の方がどう見てもキレイ。
今このタイミングで導入する意味がわからない。
俺がauユーザーならW53CAかW54Tを買う。
なんなら有機EL端末見てみろ。
「へー、まぁ、確かに鮮明だよね、ふーん」
程度だから。マジで。
あと、誰でもってなんだよ。誰でもいいのか。
これじゃぁ独占状態だった頃のDoCoMoと同じ道を行くぞ。
しかもauの場合、DoCoMoよりも契約者が少ない分、やばいんじゃないのか。
最近やたらと加入者数が減ってる(そろそろ最下位のDoCoMoと並ぶ)けど、本当に大丈夫なんだろうか。
有機ELで鮮やかとか言ってるけど、VGA解像度の液晶の方がどう見てもキレイ。
今このタイミングで導入する意味がわからない。
俺がauユーザーならW53CAかW54Tを買う。
なんなら有機EL端末見てみろ。
「へー、まぁ、確かに鮮明だよね、ふーん」
程度だから。マジで。
あと、誰でもってなんだよ。誰でもいいのか。
これじゃぁ独占状態だった頃のDoCoMoと同じ道を行くぞ。
しかもauの場合、DoCoMoよりも契約者が少ない分、やばいんじゃないのか。
最近やたらと加入者数が減ってる(そろそろ最下位のDoCoMoと並ぶ)けど、本当に大丈夫なんだろうか。
損得や上下関係だけで態度や言葉使いが変わる人は結構いるけど、もしかしてそんな理由だけなの?と疑問に思う。
他人を損得や上下関係だけでしか見れないの?
そんなに人間は単純じゃないよ、単純なのはそういう見方をするお花畑なあなたの頭でしょ、と。
損得でしか評価できない人には、損得でしか評価できない人しか集まらないよ。
病気とか事故とか借金とかで困ったときに、助けてくれるの?
上下関係でしか評価できない人には、上下関係でしか評価できない人しか集まらないよ。
降格したときに、下だった人とどう付き合うの?
自分が秀でてる部分だけを主張して相手を否定するのは簡単だけど、相手の「自分より秀でた部分」を見つけて評価するのは難しい。
だってわかんねーじゃん。すごいのかどうなのか。
だったらもうみんなすげーって思ってりゃいいのよ。
俺が損得や上下関係で人を選んでたら、DQNやキチガイなんかと縁切るわ。
DQNなんかどうよ、金無いし、話つまんねーし、なにかと女やセックスの話しかしないし。
キチガイなんか一緒にいるだけで嫌だわ。何言ってっかわかんねーし、たまに叫ぶし。
でもね、DQNもキチガイもすげぇよ。頭イカれてて、自分が持ってない感性があって。
俺がもし「こいつらみたいな馬鹿とは連まない」とか、年下だからっていつもデカイ態度で接していたら、
今この俺の感性は無いし、モノ作りにも影響が出てる。
あえて言うけど、俺は初対面なら年下でも関係無く敬語を使うし、
初対面なのに「下」ってだけで態度がデカイ奴は嫌いだ。
そんな単純な奴の周りには、単純な奴しかいない。
それが理解できない単純な奴に、俺は嫌われる。これは仕方ない。
他人を損得や上下関係だけでしか見れないの?
そんなに人間は単純じゃないよ、単純なのはそういう見方をするお花畑なあなたの頭でしょ、と。
損得でしか評価できない人には、損得でしか評価できない人しか集まらないよ。
病気とか事故とか借金とかで困ったときに、助けてくれるの?
上下関係でしか評価できない人には、上下関係でしか評価できない人しか集まらないよ。
降格したときに、下だった人とどう付き合うの?
自分が秀でてる部分だけを主張して相手を否定するのは簡単だけど、相手の「自分より秀でた部分」を見つけて評価するのは難しい。
だってわかんねーじゃん。すごいのかどうなのか。
だったらもうみんなすげーって思ってりゃいいのよ。
俺が損得や上下関係で人を選んでたら、DQNやキチガイなんかと縁切るわ。
DQNなんかどうよ、金無いし、話つまんねーし、なにかと女やセックスの話しかしないし。
キチガイなんか一緒にいるだけで嫌だわ。何言ってっかわかんねーし、たまに叫ぶし。
でもね、DQNもキチガイもすげぇよ。頭イカれてて、自分が持ってない感性があって。
俺がもし「こいつらみたいな馬鹿とは連まない」とか、年下だからっていつもデカイ態度で接していたら、
今この俺の感性は無いし、モノ作りにも影響が出てる。
あえて言うけど、俺は初対面なら年下でも関係無く敬語を使うし、
初対面なのに「下」ってだけで態度がデカイ奴は嫌いだ。
そんな単純な奴の周りには、単純な奴しかいない。
それが理解できない単純な奴に、俺は嫌われる。これは仕方ない。






