- すべて
- 画像・動画
並べ替え:新着順
git for windows で CRLF に文字コードを自動変換したせいで動きませんとか、submodule を init してないから動きませんとか、そんなのばっかり対応して私の時間が溶けてくのかなりしんどい さすがにそういう類のやつは自分で解決してほしいんだけど、期待しちゃダメなことなんですか
ただし、6万文字を網羅するフォント・ファイルと対応アプリケーションが必要になる。 これを読んで文字コードに興味をもったら、「文字コードの話」 pahoo.org/e-soul/webtech… をご覧いただきたい。
UTF-8は ASCIIコードとの互換性を保つために、文字コードが1~4バイトの可変長になっている。JIS第1~第4水準の文字は網羅しているが、並び順はJISと関係がない。文字列の長さを計算したり、文字コードで大小比較するときには注意が必要だ。
翌1992年6月に発表した Unicode 1.01 では、収録文字数が28,359、1993年6月の Unicode 1.10 では34,233と膨れあがった。16ビットで表せる文字コードは 種類であるから、不足することが目に見えてきた。 pic.twitter.com/gXhiCho2DV
1978年9月、東京芝浦電器(現・東芝)が世界初の日本語ワードプロセッサ「JW-10」を発表する。 この年の正月、漢字など6,802文字を符号化した JIS C 6226(のちの JIS X 0208)が制定され、JW-10 はこれを文字コードとして使用できるようになっていた。 pic.twitter.com/pqX7rIam79
ここで、7ビットで表せる文字コードは 2^7=128種類、8ビットにしても 2^8=256種類だ。英数字と制御文字だけなら、これで十分であるが、日本語では全く足りない。常用漢字だけで2,136文字。これにひらがな、カタカナ、句読点や括弧などの記号が加わる。
一方、1964年にIBMが発表した System/360 という大型コンピュータ向けに用意した、8ビット(1バイト)で英数字と制御文字を表す EBCDIC pahoo.org/e-soul/webtech… である。国産メインフレームは、EBCDIC を拡張し、半角カタカナを追加した。しかし、メーカーによって文字コードが一致しておらず混乱した pic.twitter.com/a03Ige1XK1
1960年代に入り、大型コンピュータ(メインフレーム)の導入が進んだが、アメリカ国内で60種類以上、IBMだけでも9種類の文字コードが乱立していた。 この問題を解決するため、1963年、ANSI X 3.4、いわゆる「ASCIIアスキーコード」を制定した。 pic.twitter.com/uSC7DD11oG
2進数では表記が大変なので、一般的に文字コード表記には16進数を使う。 ここで大切なのは、プログラムやシステムが変わっても文字列が読めるようにしなければならないこと――つまり、文字コードの共通化が前提になるということだ。
■コラム:文字コード コンピュータで扱う文字列もまた2進数である。文字の1つ1つにユニークな番号(文字コード)が割り当てられている。たとえば半角の "a" には 0b01100001(0x61) が、全角の "家" には 0x0101101110110110(0x5BB6)が割り当てられている。
#古代ペルシア楔形文字 ▶英語版のページ Old Persian cuneiform en.wikipedia.org/wiki/Old_Persi… くさびがた文字(#楔形文字): cuneiform script cuneiform [kjuníəfɔ̀ːrm] ▶Unicodeで定められている文字コードの一覧表 Old Persian Range: 103A0–103DF unicode.org/charts/PDF/U10… .
OCR(Optical Character Recognition / Reader) 光学文字認識 紙の手書き文書や印字文書を画像として取り込み、テキストの文字コードに変換する 2024/7/1 0:18
日本大手金融機関のパスワードには記号が使えないから遅れてる、という話を自称プログラマーの人が言ってるのを目にして困惑してる。文字コードに依存する記号が使えないのは当然として、メタ文字が使えない理由もPGなら普通分かりそうなものだけど……
点字を 活かした 可変長座標 文字コードについて x.com/madeinwariofan…
点字を 利用した 文字コード(たたき台) 状態を持たず,拡張しやすい 符号化形式 UTF-8 よりも データ量が 増える 缺点が あります。 マトリックスコードポイント togetter.com/li/1724639#h10… takuyasomese.notion.site/Matrix-Code-Po… 文字コードとIPv6の諸問題を解決する次世代UNICODEの紹介 qiita.com/rana_kualu/ite… pic.twitter.com/UDh72C2tVe
点字を 利用した 文字コード(たたき台) 状態を持たず,拡張しやすい 符号化形式 文字コードを 可変長座標にすることにより,拡張しやすくし,コードポイントの 断片化(フラグメンテーション)を 防止できます。 TRONコードと 違い,状態を もたないので UTF-8 の 利点を 残しています。
点字を 利用した 文字コード(たたき台) 状態を持たず,拡張しやすい 符号化形式 UTF-8 よりも データ量が 増える 缺点が あります。 マトリックスコードポイント togetter.com/li/1724639#h10… takuyasomese.notion.site/Matrix-Code-Po… 文字コードとIPv6の諸問題を解決する次世代UNICODEの紹介 qiita.com/rana_kualu/ite… pic.twitter.com/UDh72C2tVe
はるはるのトンチンカンは「文字化け」って感じがする。「はるはる文字コード」に変換し直せばちゃんと理屈通ってるのではないだろうか。ちなみに齊藤京子のトンチンカンは「省略」だと思う……知らんけど。 #山下葉留花 #日向坂46 #余計な事まで audee.jp/voice/show/851…
文字コードのお話なのに🥹 > これは新しい雇用を生み出し、政府の税収を増加させ、最終的に地球温暖化防止に費やす資金を増加させることになります。 > 従って、このドキュメントの最終目的は地球温暖化の防止です。 pic.twitter.com/FxKGRQfryf
点字を 使った 次世代Unicodeと 符号化形式について: 目標: 状態を もたない 符号化で データ量が 膨れすぎないこと。 非圧縮だと UTF-8 より データ量が 増えることが ある。 文字コードとIPv6の諸問題を解決する次世代UNICODEの紹介 #Unicode - Qiita qiita.com/rana_kualu/ite…
点字を 使った 次世代Unicodeと 符号化形式について: 目標: 状態を もたない 符号化で データ量が 膨れすぎないこと。 マトリックスコードポイント togetter.com/li/1724639#h10… takuyasomese.notion.site/Matrix-Code-Po… 文字コードとIPv6の諸問題を解決する次世代UNICODEの紹介 #Unicode qiita.com/rana_kualu/ite…
返信先:@ggguriguriii「¥r¥n」とか、「¥¥r¥¥n」や「¥n」、または「\r\n」(あとは¥と同じ)などの文字コードがスタイルの中で指定されていれば、そこがめちゃくちゃ怪しいポイントかと